DE60025748T2 - Spracherkennung - Google Patents

Spracherkennung Download PDF

Info

Publication number
DE60025748T2
DE60025748T2 DE60025748T DE60025748T DE60025748T2 DE 60025748 T2 DE60025748 T2 DE 60025748T2 DE 60025748 T DE60025748 T DE 60025748T DE 60025748 T DE60025748 T DE 60025748T DE 60025748 T2 DE60025748 T2 DE 60025748T2
Authority
DE
Germany
Prior art keywords
speech
spectral values
feature
additional
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60025748T
Other languages
English (en)
Other versions
DE60025748D1 (de
Inventor
Ramalingam Hariharan
Juha Häkkinen
Imre Kiss
Jilei Tian
Olli Viikki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of DE60025748D1 publication Critical patent/DE60025748D1/de
Publication of DE60025748T2 publication Critical patent/DE60025748T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Meter Arrangements (AREA)
  • Measuring Fluid Pressure (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Golf Clubs (AREA)
  • Inorganic Insulating Materials (AREA)

Description

  • Die vorliegende Erfindung betrifft eine Spracherkennung.
  • Eine Spracherkennung ist im Computerbereich wohl bekannt. Heutzutage wird sie bei Mobiltelefonen, und insbesondere um eine Sprachwahlfunktionalität zu ermöglichen, angewandt. Mit einer Spracheinwahl kann ein Benutzer zum Beispiel den Namen einer Person sagen, mit der er oder sie sprechen will, wobei das Telefon den Namen erkennt und dann nach einer korrespondierenden Nummer nachschaut. Alternativ kann der Benutzer direkt die Telefonnummer sagen, die er verlangt. Dies ist günstig, da der Benutzer nicht Tasten zu verwenden hat. Es ist wünschenswert, die Möglichkeit von Mobiltelefonen zu erhöhen, um gesprochene Worte, Buchstaben, Nummern und andere gesprochene Informationen in einem größeren Maß zu verstehen. Unglücklicherweise erfordern gegenwärtige Spracherkennungstechniken zu viel Verarbeitungskapazität, um praktisch in einem kleinen tragbaren Mobiltelefon verwendet zu werden.
  • Eine Spracherkennungsfunktionalität kann in einem Telefonnetzwerk in einer solchen Art implementiert werden, dass eine Sprache eines Telefonbenutzers in dem Netzwerk eher als in einem Handgerät erkannt wird. Indem eine Spracherkennungsfunktionalität in dem Netzwerk ausfindig gemacht wird, kann eine größere Verarbeitungsleistung verfügbar gemacht werden. Jedoch wird die Genauigkeit einer Spracherkennung durch Verzerrungen erniedrigt, die in das Sprachsignal und durch die Reduktion in einer Bandbreite eingeführt werden, die von ihrer Übertragung an das Netzwerk resultiert. In einer typischen Landleitungsverbindung ist die Bandbreite des Sprachsignals, das an das Netzwerk übertragen wird, nur 3 kHz, welches bedeutet, dass ein signifikanter Anteil des Stimmspektrums verloren geht und somit die Information, die es enthält, für eine Verwendung in einer Spracherkennung unverfügbar ist. Das Problem kann vermieden werden, indem eine Spracherkennungsfunktionalität zwischen dem Telefonhandgerät und dem Netzwerk unterteilt wird.
  • Die WO 95/17746 beschreibt ein System, in welchem eine anfängliche Stufe einer Spracherkennung in einer Fernstation ausgeführt wird. Die Fernstation erzeugt Parameter, die charakteristisch für das Sprachsignal sind, sogenannte „Sprachmerkmale" und überträgt sie an eine Zentralverarbeitungsstation, welche mit der Funktionalität ausgestattet ist, die Merkmale weiter zu verarbeiten. Auf diesem Weg können die Merkmale zum Beispiel von einem Sprachsignal extrahiert werden, das das gesamte Spektrum verwendet, das durch ein Mikrofon der Fernstation eingefangen bzw. erfasst wird. Zusätzlich wird die erforderliche Übertragungsbandbreite zwischen der Fernstation und der Zentralverarbeitungsstation ebenso reduziert. Anstelle des Übertragens eines Sprachsignals, um die Sprache in einem elektrischen Format zu übermitteln, werden nur eine begrenzte Anzahl (zum Beispiel in Zehnern) von Parametern (Merkmalen) für jeden Sprachrahmen übertragen.
  • Die beiden Hauptblöcke, die typischerweise in Spracherkennungssystemen vorhanden sind, sind ein Signalverarbeitungs-Front-Ende bzw. eine vorangestellte Signalverarbeitungseinheit, wo eine Merkmalsextraktion durchgeführt wird, und ein Rück-Ende bzw. eine nachgestellte Einheit, wo eine Musterübereinstimmung durchgeführt wird, um eine gesprochene Information zu erkennen. Es ist erwähnenswert, dass eine Unterteilung einer Spracherkennung in diese zwei Teile, Front-Ende und Rück-Ende, ebenso in Fällen machbar ist, die anders als ein verteiltes Spracherkennungssystem sind. Die Aufgabe des Signalverarbeitungs-Front-Endes ist, ein Echtzeitsprachsignal in eine Art an parametrischer Darstellung in einer derartigen Weise zu konvertieren, dass die wichtigste Information von dem Sprachsignal extrahiert wird. Das Rück-Ende ist typischerweise auf einem versteckten Markov-Modell (HMM) basiert, das sich an einen Sprecher adaptiert, so dass die wahrscheinlichen Wörter und Phänomene aus einem Satz an Parametern erkannt werden, die zu verschiedenen Sprachzuständen korrespondieren. Die Sprachmerkmale stellen diese Parameter zur Verfügung. Die Aufgabe ist, dass die extrahierten Merkmalsvektoren zu Verzerrungen robust sind, die durch ein Hintergrundrauschen, einen Kommunikationskanal, oder Audiogeräte (zum Beispiel, dasjenige, das verwendet wird, um das Sprachsignal zu erfassen) hervorgerufen werden.
  • Systeme nach Stand der Technik leiten oft Sprachmerkmale ab, indem sie einen Front-Ende-Algorithmus verwenden, der auf Mel-Frequenz-Cepstral-Coeffizienten (MFCCs) basiert. MFCCs liefern eine gute Genauigkeit in Situationen, bei denen ein kleines oder kein Hintergrundrauschen vorhanden ist, aber ein Leistungsverhalten fällt signifikant bei dem Vorhandensein von nur moderaten Rauschpegeln ab. Somit ist da eine Notwendigkeit für ein Verfahren, dass ein korrespondierendes Leistungsverhalten bei niedrigen Pegel an Hintergrundrauschen und ein signifikant besseres Leistungsverhalten in rauschenderen Bedingungen aufweist.
  • Das Rauschen welches den Spracherkennungsprozess stört, entsteht von verschiedenartigen Quellen. Viele von diesen Rauschquellen sind sogenannte Faltungsrauschquellen. Mit anderen Worten kann der Effekt, den sie auf ein Sprachsignal haben, als eine mathematische Faltung zwischen der Rauschquelle und dem Sprachsignal dargestellt werden. Der Vokaltrakt des Benutzers und die elektrischen Komponenten, die in einer Spracherfassung und -verarbeitung verwendet werden, können beide als Faltungsrauschquellen betrachtet werden. Der Vokaltrakt des Benutzers weist eine akustische Übertragungsfunktion auf, die durch ihre physikalische Konfiguration bestimmt wird und die elektrischen Komponenten des Erfassungs- und eines Verarbeitungssystem weisen bestimmte Übertragungsfunktionen auf. Die Übertragungsfunktion des Vokaltraktes des Benutzers wirkt, unter anderen Dingen, auf die Stimmung der gesprochenen Information, die durch den Benutzer geäußert wird, wie auch ihre allgemeinen Frequenzeigenschaften ein. Die Übertragungsfunktionen der elektrischen Komponenten, welche gewöhnlicherweise ein Mikrofon (einen) Verstärker und einen Analog/Digital-(A/D)-wandler einschließen, zum Konvertieren des Signals, das durch das Mikrofon erfasst wird, in eine digitale Form, wirken auf den Frequenzinhalt der erfaßten Sprachinformation ein. Somit bewirken sowohl die Benutzer-spezifische Übertragungsfunktion als auch die Geräte-spezifische(n) elektronischen Transferfunktion(en) effektiv eine zwischen einem Benutzer und zwischen einem Gerät bestehende Variabilität in den Eigenschaften der Sprachinformation, die für eine Spracherkennung erworben wird. Das Vorsehen eines Spracherkennungssystems, dass im wesentlichen für diese Arten an Variationen immun ist, ist eine herausfordernde technische Aufgabe.
  • Eine Spracherkennung eines erfaßten Sprachsignals beginnt typischerweise mit einer A/D-Wandlung, einer Vor-Anhebung, und einer Segmentierung eines elektrischen Signals im Zeitbereich bzw. elektrischen Zeibereichsssprachssignal. Bei der Vor-Anhebungsstufe wird die Amplitude des Sprachsignals in bestimmten Frequenzbereichen erhöht, gewöhnlicherweise jenen, in welchen die Amplitude kleiner ist. Eine Segmentierung segmentiert das Signal in Rahmen, die eine kurze Zeitperiode, gewöhnlicherweise 20 bis 30 Millisekunden, repräsentieren. Die Rahmen werden einer solchen Art geformt, dass sie entweder temporär überlappend sind oder nicht-überlappend sind. Sprachmerkmale werden generiert, indem diese Rahmen verwendet werden, oft in der Form der Mel-Frequenz-Cepstral-Komponenten (MFCCs). Es sollte bemerkt werden, dass obwohl sich viel der Beschreibung, welche folgt, auf die Verwendung von Mel-Frequenz-Cepstral-Komponenten in der Ableitung von Sprachmerkmalen konzentriert, eine Anwendung der Erfindung nicht auf Systeme begrenzt ist, in welcher/n MFCCs verwendet werden. Andere Parameter können ebenso als Sprachmerkmale verwendet werden.
  • Die WO 94/22132 beschreibt die Erzeugung von MFCCs. Die Arbeitsweise eines MFCC-Generators, die in der Veröffentlichung beschrieben wird, wird in 1 gezeigt. Ein segmentiertes Sprachsignal wird durch eine Zeit-zu-Frequenz-Bereichs-Wandlungseinheit empfangen. In einem Schritt 101 wird ein Sprachrahmen in den Frequenzbereich mit einem Schnellen-Fourier-Transformations-(FFT)-Algorithmus transformiert, um 256 Transformations-Koeffizienten zur Verfügung zu stellen. In einem Schritt 102 wird ein Leistungsspektrum von 128 Koeffizienten aus den Transformationskoeffizienten geformt. In einem Schritt 103, wird das Leistungsspektrum über 19 Frequenzbänder integriert, um 19 Bandleistungskoeffizienten zu liefern. In einem Schritt 104 wird ein Logarithmus von jedem der 19 Bandleistungskoeffizienten berechnet, um 19 Log-Werte zu liefern. In einem Schritt 105 wird eine Diskrete Cosinus-Transformation (DCT) auf den 19 Log-Werten durchgeführt. Das Frequenzbereichssignal wird dann in einem Rauschreduzierungsblock verarbeitet, um ein Rauschen in dem Signal zu unterdrücken. Schließlich werden die 8 Koeffizienten der niedrigsten Ordnung ausgewählt.
  • Es sollte sich verstehen, dass die Anzahl an Abtastwerten und verschiedenartigen Koeffizienten, auf die in der WO 94/22132 bezuggenommen wird, nur ein Beispiel darstellen.
  • Es ist eine Charakteristik von linearen Transformationen, zum Beispiel von DCTs, dass eine Störung, die durch ein Rauschen in einem bestimmten Frequenzband hervorgerufen wird, zu umgebenden Frequenzbändern gespreizt wird. Dies ist ein unerwünschter Effekt, insbesondere in Spracherkennungsanwendungen.
  • In IEEE 0-7803-4428-6/98 wird ein automatisches Multiband Spracherkennungsverfahren dargestellt. In diesem Verfahren wird ein Sprachsignal in verschiedene Sub-Teile des gesamten Frequenzbandes des Signals unterteilt. Dann wird jeder Sub-Teil getrennt verarbeitet. In diesem Fall spreizt ein Eng-Bandrauschen, das in einem Frequenz-Sub-Teil vorkommt, sich nicht von einem Sub-Teil in einen anderen Frequenz-Sub-Teil. Das Verfahren hat gute Ergebnisse in dem Fall gezeigt, bei dem auf die Mehrzahl des Frequenzbandes nicht zum Beispiel durch ein Rauschen in der Gegenwart von Eng-Bandrauschen eingewirkt wird. Jedoch kann, wenn das Rauschen weit über das Frequenzband des Sprachsignals gespreizt wird, eine Worterkennungsgenauigkeit von bis zu 25% fallen. Das Verfahren ist somit nur unter bestimmten Rauschtypen geeignet, zum Beispiel, um ein Automotorrauschen zu kompensieren, dass nur in einem relativ engen Frequenzband erscheint.
  • IEEE 0-8186-7919-0/97 offenbart eine Annäherung bzw. einen Ansatz für eine automatische Spracherkennung, die auf unabhängigen Klassen-konditionalen Wahrscheinlichkeitsschätzungen in mehreren Frequenz-Sub-Bändern basiert. Dieser Ansatz wird gezeigt, dass er speziell auf Umgebungen anwendbar ist, welche eine teilweise Verfälschung des Frequenzspektrums des Signals verursachen.
  • Es ist ein Aufgabe der vorliegenden Erfindung, eine Spracherkennungsgenauigkeit für verschiedenartige Rauschtypen und unter verschiedenen Rauschbedingungen zu verbessern.
  • Gemäß einem ersten Aspekt der Erfindung wird da ein Spracherkennungsmerkmalsextraktor zum Extrahieren von Sprachmerkmalen aus einem Sprachsignal zu Verfügung gestellt, der aufweist:
    Zeit-zu-Frequenz-Bereichs-Wandler zum Erzeugen von Spektralwerten in dem Frequenzbereich aus dem Sprachsignal;
    ein Aufteilungsmittel zum Erzeugen eines ersten Satzes an Spektralwerten in dem Frequenzbereich und einem zusätzlichen Satz an Spektralwerten in dem Frequenzbereich;
    einen ersten Merkmalsgenerator zum Erzeugen einer ersten Gruppe von Sprachmerkmalen, unter Verwendung des ersten Satzes an Spektralwerten;
    ein zusätzlicher Merkmalsgenerator zum Erzeugen einer zusätzlichen Gruppe an Sprachmerkmalen unter Verwendung des zusätzlichen Satzes an Spektralwerten; und
    einen Zusammenbauer bzw. Assembler zum Zusammenbauen eines Ausgabesatzes an Sprachmerkmalen von wenigstens einem Sprachmerkmal an der ersten Gruppe an Sprachmerkmalen und wenigstens einem Sprachmerkmal von der zusätzlichen Gruppe an Sprachmerkmalen;
    gekennzeichnet durch den zusätzlichen Satz an Spektralwerten, die ein Sub- bzw. Teilsatz des ersten Satzes an Spektralwerten sind.
  • Vorteilhafterweise werden die Spektralwerte in einer überlappenden Art partitioniert. Dies hat den Effekt, dass eine verbesserte Rauschtoleranz bei einer Spracherkennung zur Verfügung gestellt wird.
  • Bevorzugt wird der zusätzliche Merkmalsgenerator parallel mit dem ersten Merkmalsgenerator angeordnet.
  • Bevorzugt korrespondiert der erste Satz an Spektralwerten in dem Frequenzbereich mit einer vollen Bandbreite, die für eine Spracherkennung zu verwenden ist.
  • Bevorzugt werden die ersten und zusätzlichen Sätze an Spektralwerten aus einem gemeinsamen Frequenzbereich ausgewählt.
  • Bevorzugt sind die Spektralwerte spektrale Betragswerte. In diesem Zusammenhang bedeutet der Begriff „Betragswert" einen Wert, der eine absolute Größe charakterisiert. Zum Beispiel kann ein Betragswert ein Absolutwert, ein quadrierter Wert, oder irgend ein Wert sein, der aus einer Funktion resultiert, die eine Vorzeichen- oder Phaseninformation vernachlässigt.
  • Vorteilhafterweise stellt eine Parallelverarbeitung eines Sub- bzw. Untersatzes der Spektralwerte eine Gruppe an Sprachmerkmalen zur Verfügung, die nicht von all den Frequenzbereichsspektralwerten abhängig sind. Dies bedeutet dass Rauschen, das in einem engen Frequenzband vorhanden ist, einen reduzierten Effekt auf Merkmalsgeneratoren hat, welche Spektralwerte außerhalb des engen Frequenzbereiches verarbeiten. Zum Beispiel hat ein Niederfrequenz-Automotor-Rauschen reduzierten Effekt auf jene parallel betriebenen Merkmalsgeneratoren, welche Spektralwerte verarbeiten, die sich auf höhere Frequenzen beziehen. Dies resultiert in verbesserter Rausch-Robustheit.
  • Der Term parallel wird verwendet, um den Weg zu beschreiben, in welchem verschiedene Merkmalsgeneratoren auf dem gleichen Sprachrahmen arbeiten. Es bedeutet nicht notwendigerweise, dass die Merkmalsgeneratoren eine physikalisch parallele Anordnung haben.
  • Bevorzugt umfaßt der erste Merkmalsgenerator:
    einen Zeit-zu-Frequenz-Bereichs-Umformer bzw. Wandler zum Umformen von Zeitbereichssprachrahmen in Frequenzbereichsspektralwerte;
    ein Frequenzbereichsfilterblock zum Erzeugen von Sub- bzw. Teilbandwerten aus den Spektralwerten;
    ein Kompressionsblock zum Kompensieren der Sub-Bandwerte; und
    ein Umformer- bzw. Wandlerblock zum Erhalten eines Satzes an dekorrelierten Merkmalskoeffizienten von den komprimierten Sub-Bandwerten.
  • Bevorzugt führt der Kompressionsblock eine nicht-lineare Kompression von den Sub-Bandwerten durch, zum Beispiel, indem ein Logarithmus der Sub-Bandwerte genommen wird.
  • Bevorzugt führt der Wandlerblock eine lineare Transformation, wie zum Beispiel eine Diskrete Cosinus Transformation durch.
  • Bevorzugt umfaßt der erste Merkmalsgenerator ebenso einen Differentiationsblock zum Erzeugen erster Zeitableitungen und zweiter Zeitableitungen für jede der dekorrelierten Merkmalskoeffizienten.
  • Bevorzugt umfaßt ein erster Merkmalsgenerator weiter einen Normalisierungsblock zum Erzeugen normalisierter Sprachmerkmale, bevorzugt, indem die komprimierten Sub-Bandwerte, erste Zeitableitungen und zweite Zeitableitungen verwendet werden.
  • Bevorzugt umfaßt der erste Merkmalsgenerator einen Block zum Addieren eines mittleren Abschätzterm bzw. Mittelwertabschätzterm für komprimierte Sub-Bandwerte. Alternativ kann der erste Merkmalsgenerator einen Block zum Addieren eines Mittelwertabschätzterms für die Sub-Bandwerte umfassen, die unkomprimiert sind.
  • Bevorzugt umfaßt der zusätzliche Merkmalsgenerator die folgende Blöcke:
    einen Frequenz-Bereichs-Filter-Block zum Erzeugen von Sub-Bandwerten;
    einen Kompressionsblock zum Komprimieren der Sub-Bandwerte;
    einen Wandlerblock zum Erhalten eines Satzes von dekorrelierten Merkmalskoeffizienten aus den komprimierten Sub-Bandwerten.
  • Bevorzugt führt der Kompressionsblock eine nicht-lineare Kompression der Sub-Bandwerte, zum Beispiel, indem ein Logarithmus der Sub-Bandwerte genommen wird, durch.
  • Bevorzugt führt der Wandlerblock eine lineare Transformation, wie zum Beispiel eine Diskrete Cosinus Transformation durch.
  • Bevorzugt umfaßt der zusätzliche Merkmalsgenerator ebenso einen Differentiationsblock zum Erzeugen erster Ableitungen und zweiter Ableitung für jede der dekorrelierten Merkmalskoeffizienten.
  • Bevorzugt umfaßt der zusätzliche Merkmalsgenerator ferner einen Normalisierungsblock zum Erzeugen normalisierter Sprachmerkmale, bevorzugt unter Verwendung der komprimierten Sub-Bandwerte, erster Zeitableitungen und zweiter Zeitableitungen.
  • Bevorzugt umfaßt der zusätzliche Merkmalsgenerator einen Block zum Addieren eines Mittelwertabschätzungsterms für die komprimierten Sub-Bandwerte. Bevorzugt ist der Mittelwertabschätzungsterm ein log. spektraler Mittelwertabschätzungsterm. Alternativ kann der zusätzliche Merkmalsgenerator einen Block zum Hinzufügen eines Mittelwertabschätzungsterms für die Sub-Bandwerte vor ihrer Kompression aufweisen.
  • Bevorzugt ist der Frequenz-Bereichs-Filter-Block angeordnet, um Sub-Bandwerte gemäß einer Skala bzw. eines Maßstabes zu erzeugen, der auf einem Modell des Auditoriumssystems (Auditorium-basierter Maßstab) basiert. Bevorzugt ist der Auditoriums-basierte Maßstabe ein Mel-Frequenzterm.
  • Bevorzugt wird der Mittelwertabschätzungsterm von komprimierten Sub-Bandwerten berechnet, die eine Serie von wenigstens zwei nachfolgenden Sprachrahmen repräsentieren.
  • Bevorzugt umfaßt der Merkmalsextraktor einen Satz an zusätzlichen Merkmalsgeneratoren, um zusätzliche Sätze an Spektralwerten in dem Frequenzbereich zum Erzeugen von zusätzlichen Gruppen an Sprachmerkmalen zu empfangen, worin jeder der Merkmalsgeneratoren angeordnet ist, um einen Sub-Teil der Spektralwerte zum Erzeugen einer zusätzlichen Gruppe an Sprachmerkmalen zu empfangen, und jeder zusätzliche Satz an Spektralwerten formt einen Sub-Teil der Spektralwerte.
  • Bevorzugt unterscheidet sich jeder Sub-Teil von den anderen Sub-Teilen durch wenigstens einen Spektralwert.
  • Bevorzugt umfaßt jeder der Sub-Teile eine gleiche Anzahl an Spektralwerten. Alternativ umfassen die Sub-Teile eine verschiedene Anzahl an Spektralwerten.
  • Bevorzugt stellen die Sub-Teile Spektralwerte für aufeinander folgende Frequenzbereiche dar. Alternativ überlappen sich wenigstens zwei der Sub-Teile teilweise.
  • Gemäß eines zweiten Aspekts der Erfindung wird da eine nachgestellte Einheit zum Erkennen einer gesprochenen Information aus Sprachmerkmalen zur Verfügung gestellt, die umfasst:
    eine Datenbank zum Aufrechterhalten statistischer Modelle von gesprochener Information;
    ein Block zum Empfangen von Sprachmerkmalen, die sich auf zwei Frequenzbereiche eines Sprachrahmens beziehen; und
    ein Erkennungsblock zum Auswählen eines Modells an gesprochener Information das bzw. die am besten mit den empfangenen Sprachmerkmalen übereinstimmt; dadurch gekennzeichnet, dass einer der Frequenzbereiche ein Sub-Bereich des anderen Frequenzbereiches ist.
  • Gemäß eines dritten Aspektes der Erfindung wird da ein Spracherkennungssystem zur Verfügung gestellt, das umfaßt:
    ein Spracherkennungsmerkmalsextraktor zum Extrahieren von Sprachmerkmalen aus einem Sprachsignal; und
    eine nachgestellte Einheit zum Erkennen einer gesprochener Information von Sprachmerkmalen;
    wobei die Spracherkennungsmerkmalsextraktor aufweist:
    ein Zeit-zu-Frequenzbereichswandler zum Erzeugen von Spektralwerten in dem Frequenzbereich aus dem Sprachsignale;
    Aufteilungsmittel zum Erzeugen eines ersten Satzes an Spektralwerten in dem Frequenzbereich und einem zusätzlichen Satz an Spektralwerten in dem Frequenzbereich;
    ein erster Merkmalsgenerator zum Erzeugen einer ersten Gruppe an Sprachmerkmalen unter Verwendung des ersten Satzes an Spektralwerten;
    ein zusätzlicher Merkmalsgenerator zum Erzeugen einer zusätzlichen Gruppe an Sprachmerkmalen unter Verwendung des zusätzlichen Satzes an Spektralwerten; und
    ein Assemblierer zum Zusammenbauen eines Ausgabesatzes an Sprachmerkmalen aus wenigstens einem Sprachmerkmal aus der ersten Gruppe an Sprachmerkmalen und wenigstens eines Sprachmerkmales aus der zusätzlichen Gruppe an Sprachmerkmalen; und wobei die nachgestellte Einheit umfaßt:
    eine Datenbank zum Aufrechterhalten von statistischen Modellen an gesprochenen Informationen;
    einen Block zum Empfangen von Sprachmerkmalen, die sich auf zwei verschiedene Frequenzbereiche eines Sprachrahmens beziehen; und
    einen Erkennungsblock zum Auswählen eines Modells an gesprochenen Informationen aus der Datenbank, die am besten mit empfangenen Sprachmerkmalen übereinstimmen;
    gekennzeichnet durch den zusätzlichen Satz an Spektralwerten, die ein Sub-Satz des ersten Satzes an Spektralwerten sind.
  • Gemäß eines vierten Aspekts der Erfindung wird da ein Mobiltelekommunikationsnetzwerk zur Verfügung gestellt, dass umfaßt:
    einen Funk-Sende/Empfänger zum Empfangen von Sprachmerkmalen von einer Mobilstation; und
    eine nachgestellte Einheit zum Erkennen einer gesprochenen Information aus Sprachmerkmalen, wobei das nachgestellte Ende umfaßt:
    Eine Datenbank zum Aufrechterhalten von statistischen Modellen an gesprochener Information;
    einen Block zum Empfangen von Sprachmerkmalen, die sich auf zwei verschiedene Frequenzbereiche eines Sprachrahmens beziehen; und
    einen Erkennungsblock zum Auswählen eines Modells an gesprochener Information aus einer Datenbank, die am besten mit empfangenen Sprachmerkmalen übereinstimmt; dadurch gekennzeichnet, dass der zusätzliche Satz von Spektralwerten ein Sub-Satz des ersten Satzes an Spektralwerten sind.
  • Gemäß eines fünften Aspektes der Erfindung wird da ein Spracherkennungsmerkmalsextraktionsverfahren zum Extrahieren von Sprachmerkmalen aus einem Sprachsignal zur Verfügung gestellt, das die Schritte umfaßt:
    Erzeugen von Spektralwerten in dem Frequenzbereich aus dem Sprachsignal;
    Erzeugen eines ersten Satzes an Spektralwerten in dem Frequenzbereich und eines zusätzlichen Satzes an Spektralwerten;
    Erzeugen einer ersten Gruppe an Sprachmerkmalen unter Verwendung des ersten Satzes an Spektralwerten;
    Erzeugen einer zusätzlichen Gruppe an Sprachmerkmalen unter Verwendung des zusätzlichen Satzes an Spektralwerten; und
    Zusammensetzen eines Ausgangssatzes an Sprachmerkmalen von wenigstens einem Sprachmerkmal aus der ersten Gruppe an Sprachmerkmalen und wenigstens eines Sprachmerkmals aus der zusätzlichen Gruppe an Sprachmerkmalen; gekennzeichnet durch den zusätzlichen Satz an Spektralwerten, die ein Sub-Satz des ersten Satzes an Spektralwerten sind.
  • Gemäß eines sechsten Aspektes der Erfindung wird da ein Verfahren zum Erkennen einer gesprochenen Information aus Sprachmerkmalen zur Verfügung gestellt, die die Schritte umfaßt:
    Aufrechterhalten von statistischen Modellen an gesprochener Information;
    Empfangen von Sprachmerkmalen, die sich auf zwei verschiedene Frequenzbereiche eines Sprachrahmens beziehen; und
    Auswählen eines Models an gesprochener Information, die am besten mit empfangenden Sprachmerkmalen übereinstimmt;
    dadurch gekennzeichnet, daß eines der Frequenzbereiche ein Sub-Bereich des anderen Frequenzbereiches ist.
  • Gemäß eines siebenten Aspektes der Erfindung wird da ein Verfahren zum Erkennen gesprochener Information aus einem Sprachsignal zur Verfügung gestellt, das die Schritte aufweist:
    Erzeugen von Spektralwerten in dem Frequenzbereich aus dem Sprachsignal;
    Erzeugen eines ersten Satzes an Spektralwerten in dem Frequenzbereich und eines zusätzlichen Satzes an Spektralwerten in dem Frequenzbereich;
    Erzeugen einer ersten Gruppe an Sprachmerkmalen unter Verwendung des ersten Satzes von Spektralwerten;
    Erzeugen einer zusätzlichen Gruppe an Sprachmerkmalen unter Verwendung des zusätzlichen Satzes an Spektralwerten; und
    Zusammensetzen eines Ausgangssatzes an Sprachmerkmalen aus wenigstens einem Sprachmerkmal aus der ersten Gruppe an Sprachmerkmalen und wenigstens einem Sprachmerkmal aus der zusätzlichen Gruppe an Sprachmerkmalen;
    gekennzeichnet durch den zusätzlichen Satz an Spektralwerten, die ein Sub-Satz des ersten Satzes an Spektralwerten sind.
  • Gemäß eines achten Aspektes der Erfindung wird da ein Computerprogrammprodukt zum Extrahieren von Sprachmerkmalen aus einem Sprachsignal zur Verfügung gestellt, das aufweist:
    Ein Computer-lesbarer Computercode zum veranlassen, dass ein Computer Spektralwerte in dem Frequenzbereich aus dem Sprachsignal erzeugt;
    ein Computer-lesbarer Computercode zum Veranlassen, dass ein Computer einen ersten Satz an Spektralwerten in dem Frequenzbereich und einen zusätzlichen Satz an Spektralwerten in dem Frequenzbereich erzeugt;
    ein Computer-lesbarer Computercode zum Veranlassen, dass ein Computer eine erste Gruppe an Sprachmerkmalen erzeugt unter Verwendung des ersten Satzes an Spektralwerten;
    ein Computer-lesbarer Computercode zum Veranlassen, dass ein Computer eine zusätzliche Gruppe an Sprachmerkmalen erzeugt, unter Verwendung des zusätzlichen Satzes an Spektralwerten; und
    ein Computer-lesbarer Computercode zum Veranlassen, dass ein Computer einen Ausgabesatz an Sprachmerkmalen aus wenigstens einem Sprachmerkmal aus der ersten Gruppe an Sprachmerkmalen und wenigstens einem Sprachmerkmal aus der zusätzlichen Gruppe an Sprachmerkmalen zusammenbaut,
    gekennzeichnet durch den zusätzlichen Satz an Spektralwerten, die einen Sub-Satz des ersten Satzes an Spektralwerten sind.
  • Gemäß eines neunten Aspekts der Erfindung wird da ein Computerprogrammprodukt zum Erkennen einer gesprochenen Information aus Sprachmerkmalen zur Verfügung gestellt, das umfaßt:
    ein Computerlesbarer Computercode zum Veranlassen, dass ein Computer statistische Modelle von gesprochener Information aufrecht erhält;
    ein computerlesbarer Computercode zum Verlassen eines Computers, um Sprachmerkmale zu empfangen, die sich auf zwei verschiedene Frequenzbereiche eines Sprachrahmens beziehen; und
    ein computerlesbarer Computercode zum Veranlassen, dass ein Computer ein Modell an gesprochener Information auswählt, das bzw. die am besten mit empfangenen Sprachmerkmalen übereinstimmt; dadurch gekennzeichnet, dass einer der Frequenzbereiche ein Sub-Bereich des anderen Frequenzbereiches ist.
  • Gemäß eines zehnten Aspekts der Erfindung wird da ein Computerprogramm zum Erkennen gesprochener Information aus einem Sprachsignal zur Verfügung gestellt, dass umfaßt:
    ein computerlesbarer Computercode zum Veranlassen, dass ein Computer Spektralwerte in dem Frequenzbereich aus dem Sprachsignal erzeugt;
    ein computerlesbarer Computercode zum Veranlassen, dass ein Computer einen ersten Satz an Spektralwerten in dem Frequenzbereich und einen zusätzlichen Satz von Spektralwerten in dem Frequenzbereich erzeugt;
    ein computerlesbarer Computercode zum Veranlassen, dass ein Computer eine erste Gruppe an Sprachmerkmalen erzeugt, die den ersten Satz an Spektralwerten verwenden;
    ein computerlesbarer Computercode zum Veranlassen, dass ein Computer eine zusätzliche Gruppe an Sprachmerkmalen erzeugt, indem der zusätzliche Satz an Spektralwerten verwendet wird; und
    ein computerlesbarer Computercode zum Veranlassen, dass ein Computer einen Ausgabesatz an Sprachmerkmalen aus wenigstens einem Sprachmerkmal aus der ersten Gruppe an Sprachmerkmalen und wenigstens ein Sprachmerkmal aus dem zusätzlichen Satz an Sprachmerkmalen zusammenbaut;
    ein computerlesbarer Computercode zum Veranlassen, dass ein Computer ein statistisches Modell von gesprochener Information aufrechterhält; und
    ein computerlesbarer Computercode zum Veranlassen, dass ein Computer ein Modell an gesprochener Information auswählt, die am besten mit den Sprachmerkmalen des Ausgabesatzes von Sprachmerkmalen übereinstimmt; gekennzeichnet durch den zusätzlichen Satz von Spektralwerten, die ein Sub-Satz des ersten Satzes an Spektralwerten sind.
  • Bevorzugt werden die gesprochene Information ein Wort und statische Modelle von Wörtern werden aufrecht bzw. unterhalten. Alternativ ist die gesprochene Information ein Phonem und Modelle von Phonemen werden aufrecht erhalten. In noch einer anderen Ausführungsform ist die gesprochene Information eine Äußerung und statistische Modelle von Äußerungen werden aufrecht erhalten.
  • Bevorzugt werden die statistischen Modelle von gesprochenen Informationen, auf die bezug in irgend einem der vorhergehende Aspekte genommen wird, in einer Datenbank aufrecht erhalten.
  • Es sollte sich verstehen, dass das erfinderische Konzept, dass die Ausführungsformen des ersten Aspektes ermöglicht, ebenso in anderen Aspekten gilt, aber um dieses Dokument zusammenzufassen, werden alle diese zahlreichen Ausführungsformen nicht expressiv ausgeschrieben.
  • Bevorzugte Ausführungsformen der vorliegenden Erfindung werden nun anhand der nachstehenden Zeichnungen beispielshalber beschrieben. Es zeigen
  • 1 ein Funktionsblockdiagramm eines MFCC-Generators gemäß der WO 94/22132;
  • 2 ein Funktionsblockdiagramm einer vorangestellten Spracherkennungseinheit gemäß einer bevorzugten Ausführungsform der Erfindung;
  • 3 ein Funktionsblockdiagramm einer vorangestellten Spracherkennungseinheit mit Voll-Band-Arbeitsweise gemäß einer Ausführungsform der Erfindung;
  • 4 ein Flußdiagramm einer mittleren Anhebungsoperation gemäß der bevorzugten Ausführungsform der Erfindung;
  • 5 zeigt ein Funktionsblockdiagramm eines Spracherkennungssystems gemäß der bevorzugten Ausführungsform der Erfindung;
  • 6 zeigt ein Blockdiagramm einer Mobilstation gemäß der bevorzugten Ausführungsform der Erfindung; und
  • 7 zeigt ein Mobiltelekommunikationsnetzwerk als ein Beispiel des Spracherkennungssystems gemäß der bevorzugten Ausführungsform der Erfindung.
  • 1, die ein Funktionsblockdiagramm eines MFCC-Generators gemäß WO94/22132 zeigt, ist schon in dem Vorhergehenden beschrieben worden.
  • 2 zeigt ein Funktionsblockdiagramm einer vorangestellten Spracherkennungseinheit 200, oder einen Merkmalsextraktor zum Extrahieren von Sprachmerkmalen gemäß einer bevorzugten Ausführungsform der Erfindung. Die vorangestellte Einheit umfaßt einen Zeit-Bereichs-Vorverarbeitungsblock 210 zum Empfangen eines Eingabesignals, einen Rauschreduktionsblock 220, ein Zeit-zu-Frequenz-Wandlerblock 230, einen Partitionierungsblock 235, ein Voll-Bandverarbeitungsblock 240, einen Satz an Sub-Teil-Verarbeitungsblöcken 250 parallel zu dem ein Voll-Bandverarbeitungsblock 240, ein Merkmalsvektorzusammenbaublock 260, ein Dimensionalitätsreduktionsblock 270 und einen Abtastratenreduktionsblock 280, der ein Ausgangssignal erzeugt.
  • Die vorangestellte Einheit extrahiert Sprachmerkmale, die in eine Spracherkennung zu verwenden sind. Die Spracherkennung findet in der nachgestellten Einheit statt. Die Arbeitsweise der nachgestellten Einheit wird später beschrieben.
  • Die Arbeitsweise der vorangestellten Einheit wird nun unter Bezugnahme auf 2 und 3 erklärt. Der Zeit-Bereichs-Vorverarbeitungsblock 210 wandelt ein Sprachsignal in ein Digitalsignal mit einer Abtastrate von 8 KHz um. Das Digitalsignal wird in Rahmen segmentiert, die jeweils N Abtastwerte aufweisen. In dieser bevorzugten Ausführungsform der Erfindung wird die Anzahl an Abtastwerten in jedem Rahmen anfänglich auf 200 und die Rahmenlänge auf 25 ms gesetzt bzw. eingestellt. Die Rahmen können in einer partiell überlappenden oder in einer nicht-überlappenden Art geformt werden. Der Rauschreduktionsblock 220 empfängt die Rahmen und unterdrückt das Rauschen in jedem Rahmen; somit werden Rausch-unterdrückte Rahmen erzeugt, die 200 Rausch-unterdrückte Abtastwerte enthalten.
  • Ein Zeit-zu-Frequenz-Wandlerblock 230 empfängt die Rausch-unterdrückten Abtastwerte und berechnet ein Frequenzspektrum. Dies wird erreicht, indem eine Anzahl an Spektralwerten erzeugt wird, die den Frequenzinhalt des Rahmens repräsentieren. In der bevorzugten Ausführungsform der Erfindung sind die Spektralwerte Spektralbetragswerte und das Spektrum wird berechnet, indem eine Schnelle Fourier Transformation (FFT) verwendet wird. Um die Effizienz der FFT zu verbessern, wird die Anzahl an Abtastwerten in jedem Rahmen von 200 auf 256 erhöht, indem die Technik des mit Nullen Auffüllens bzw. Nullenbefeldens verwendet wird, in welchem zusätzliche Abtastwerte, die den Wert Null aufweisen, zu dem Rahmen hinzugefügt werden. Für allgemeine Rahmen mit einer Abtastwerteanzahl, die anders als 200 ist, kann die Anzahl an Abtastwerten auf einem ähnlichen Weg zu der nächst höheren Potenz von 2 erhöht werden. Der Überalleseffekt, dieses zu tun, ist eine signifikante Erhöhung in der Geschwindigkeit, in welcher die FFT-Berechnung ausgeführt wird. Das Ergebnis in der bevorzugten Ausführungsform der Erfindung ist ein Satz an 256 Koeffizienten, oder Spektralwerten.
  • Ein Block 235 ist ein Partitionierungs- bzw. Aufteilungsblock. Die Arbeitsweise des Aufteilungsblocks ist zweifach. Erstens liefert sie das gesamte Spektrum von 256 Koeffizienten, das heißt Spektralbetragswerte, an den Voll-Bandverarbeitungsblock 240. Zusätzlich erzeugt sie einen Satz an Sub-Teilen, indem Bandpassfilter angewandt werden, wobei jedes der Sub-Teile einen Satz der Spektralbetragswerte des gesamten Spektrums umfaßt.
  • Der Voll-Bandverarbeitungsblock 240 empfängt die Spektralbetragswerte des gesamten Spektrums und der Satz an Sub-Teil-Verarbeitungsblöcken 250 empfängt Spektralbetragswerte, die durch die Sub-Teilen enthalten sind. Sowohl der Voll-Bandverarbeitungsblock 240 als auch der Satz an Sub-Teil-Verarbeitungsblöcken 250 berechnet Sätze an MFCCs, welche ferner durch den Merkmalsvektorzusammenbaublock 260 gesammelt werden. In dieser Ausführungsform sind da vier Sub-Teil-Verarbeitungsblöcke, die jeweils einen verschiedenen Frequenzbereich der Spektralbetragswerte empfangen. Der gesamte Bereich an Spektralbetragswerten korrespondiert mit einem Frequenzband von 0 bis 4 kHz. Die Bandpassfilter in einem Block 235 haben Abschneide- bzw. Eckfrequenzen von 0 bis 0,9 kHz, 0,9 KHz bis 1,8 kHz, 1,8 kHz bis 2,8 kHz, und 2,8 kHz bis 4 kHz. Die Sub-Teil-Verarbeitungsblöcke empfangen Spektralbetragswerte, die mit diesen Frequenzbändern korrespondieren. Es sollte angemerkt werden, dass das Vollfrequenzband nicht gleich zwischen den Sub-Teilen unterteilt zu werden braucht. Weiterhin können sich die Sub-Teilfrequenzbänder überlappen. Solche Variationen können in alternativen Ausführungsformen der Erfindung zur Verfügung gestellt werden. In einer weiteren alternativen Ausführungsform werden die Sub-Teile in einer solchen Art ausgeführt, dass sie zusammen nicht das gesamte Spektrum von Spektralbetragswerten abdecken.
  • Es ist wichtig zu bemerken, dass jeder Sub-Teil einen Teil der vollen Frequenzbandspektralbetragswerte verarbeitet. Die Sub-Teile werden von Abschnitten des gesamten Frequenzbandes des originalen Sprachspektrums abgeleitet. Deshalb wirkt sich ein Rauschen in Frequenzbändern, die einen einzelnen Sub-Teil umgeben, nicht auf diesen Teil aus. Jeder Verarbeitungsblock erzeugt einen Satz an MFCCs, die mit dem einzelnen Frequenzband korrespondieren, das durch den Block empfangen wird.
  • In einer alternativen Ausführungsform der Erfindung gibt es da keinen Voll-Bandverarbeitungsblock, aber das gewünschte Frequenzband, über welches eine Spracherkennung sich zu ereignen hat, wird vollkommen oder teilweise durch Sub-Teile abgedeckt, wobei ein Sub-Teil ein Sub-Satz eines anderen Sub-Teil ist. In anderen Ausführungsformen, ist die Anzahl an Sub-Teilen anders als 4. In der bevorzugten Ausführungsform wird das volle Band sowohl mit einem Voll-Bandteil als auch zusätzlich mit Sub-Teilen, die ebenso die gesamte Bandbreite abdecken, abgedeckt.
  • Der Merkmalsvektorzusammenbaublock 260 formt Sätze an MFCCs in einem Merkmalsvektor. Der Merkmalsvektor ist bevorzugt konstruiert, indem Sprachmerkmale ausgewählt werden, die durch den Voll-Bandverarbeitungsteil und die Sub-Teilverarbeitungsblöcke erzeugt werden.
  • Obwohl der Merkmalsvektor entweder als solches an eine nachgestellte Einheit zu einer Spracherkennung übertragen werden kann, wird es bevorzugt, die Menge an Daten, die zu übertragen ist, zu reduzieren. Der Dimensionalitätsreduktionsblock 270 und der Abtastratenreduktionsblock 280 werden für diesen Zweck zu Verfügung gestellt. Der Dimensionalitätsreduktionsblock 270 empfängt den Merkmalsvektor zum Reduzieren der Dimensionalität des Ausgabesatzes. In diesem Beispiel nimmt der Dimensionalitätsreduktionsblock die Form eines Anti-Aliasfilters ein, welcher Sprachmerkmale komprimiert, um komprimierte Sprachmerkmale zu formen. Der Abtastratenreduktionsblock 280 reduziert ferner die Abtastrate, indem die komprimierten Sprachmerkmale in einen Satz an herunter abgetasteten Sprachmerkmalen herunter abgetastet werden.
  • 3 zeigt ein Funktionsblockdiagramm einer vorangestellten Spracherkennungseinheit gemäß einer Ausführungsform der Erfindung, indem ihre Arbeitsweise in Verbindung mit der Verarbeitung des Voll-Bandteils erläutert wird. Das gleiche Betriebsweiseprinzip kann verwendet werden, um die Sub-Teile der Betragswerte zu verarbeiten, wenn nur ein Sub-Teil von Frequenzspektrumbetragswerten eingesetzt wird.
  • Das Blockdiagramm startet von einem Punkt, bei dem ein Sprachsignal digitalisiert wird (nicht gezeigt). Die Blöcke des Blockdiagramms sind in sequentieller Reihenfolge:
  • PE
    Voranhebung des Sprachsignals,
    Fr
    Einrahmen des Signals in (überlappende) Rahmen,
    W
    Fenstern, dass heißt eine Multiplikation durch eine Fensterfunktion,
    FFT
    Zeit-zu-Frequenz-Bereichstransformation, um Frequenzbereichsspektralbetragswerte zu erzeugen
    Mel
    Filtern von Frequenzbereichsspektralbetragswerten, um Sub-Bandwerte gemäß eines Auditorium-basierten Maßstabes zu erzeugen, wobei die Sub-Bandwerte Energien bei bestimmten Frequenz-Sub-Bändern des Auditorium-basierten Frequenzmaßstabes beschreiben,
    LOG
    Kompression von Sub-Bandwerten
    ME
    mittlere Anhebung von Sub-Bandwerten
    DCT
    Dekorrelieren von Sub-Bandwerten
    CN
    Normalisierung von Sub-Bandwerten
  • In einer alternativen Ausführungsform wird die Reihenfolge der Log- und ME-Blocks derart umgekehrt, dass eine mittlere Anhebung auf Sub-Bandwerte angewandt wird, bevor sie komprimiert werden.
  • In weiteren alternativen Ausführungsformen wird eine Anhebung nicht verwendet.
  • In einer Ausführungsform der Erfindung umfaßt die vorangestellte Einheit einen Versatzkompensationsblock zwischen dem Voranhebungsblock und dem Fensterungsblock. Der Versatzkompensationsblock entfernt irgend einen DC-Versatz von dem digitalisierten Spracheingabesignal Sin, das ein im wesentlichen versatzfreies Eingabesignal sof erzeugt. Dies wird gemäß der Gleichung ausgeführt: sof(n) = sin(n) – si(n – 1) + 0,999·sof(n – 1) (1)
  • Das im wesentlichen versatzfreie Eingangssignal sof wird in überlappende Rahmen von N Abtastwerten segmentiert. Die Differenz (Verschiebungsintervall) zwischen den Startpunkten von aufeinander folgenden Rahmen beträgt M Abtastwerte. Der Parameter M definiert die Anzahl an Rahmen über Einheitszeit bzw. Zeiteinheit.
  • Die spezifischen Werte N und M hängen von der gewählten Abtastrate ab, wie in Tabelle I gezeigt wird. Die Rahmenlänge ist 25 ms für 8 und 16 kHz Abtastraten, und 23,27 ms für eine Abtastrate von 11 kHz.
  • Tabelle I: Werte von einer Rahmenlänge N und eines Rahmenverschiebungsintervalls M gemäß verschiedener Abtastraten:
    Figure 00240001
  • Das gerahmte versatzfreie Eingangssignal wird in dem Voranhebungsblock PE vorangehoben, indem die Beziehung angewandt wird: spe(n) = sof(n) – 0,97·sof(n – 1) (2) wobei sof und spe entsprechend die Eingabe und die Ausgabe des Voranhebungsblocks sind.
  • Der Ausgang des Voranhebungsblocks wird durch ein Hamming-Fenster einer Länge N gefenstert, das sich wie folgt, definiert:
    Figure 00250001
    wobei N die Rahmenlänge spe bzw. sw die Eingabe und die Ausgabe des Fensterungsblocks W sind.
  • Jeder Rahmen an N Abtastwerten wird mit Nullen aufgefüllt, um einen erweiterten Rahmen von 256 Abtastwerten für die 8 und 11 kHz Abtastraten zu formen, und 512 Abtastwerte, wenn die Abtastrate 16 kHz beträgt. In dem FFT-Block wird eine Schnelle Fouriertransformation einer Länge 256 oder 512 entsprechend angewandt, um das Betragsspektrum des Signals zu berechnen:
    Figure 00250002
    wobei sw(n) die Eingabe an den FFT-Block ist, FFTL ist die Länge des FFT-Blocks (256 oder 512 Abtastwerte), und bink der Absolutwert des resultierenden komplexen Vektors für eine Frequenz bin k ist. Infolge einer Symmetrie, sind nur Behälter bin0 bis binFFTL/2 erforderlich und somit für eine weitere Verarbeitung verwendet.
  • Nach dem FFT-Block wird ein Mel-Filter verwendet, um die Sub-Bandwerte zu erzeugen. Der Mel-Filter empfängt Sätze an Betragswerten, die mit Mel-Maßstabsfrequenzsubbändern (Kanälen) korrespondieren. Dann wird jeder Frequenzsubbandwert von den korrespondierenden Betragswerten berechnet.
  • Die Niederfrequenzkomponenten des Betragsspektrums werden ignoriert, um ein Niederfrequenzrauschen zu vermeiden. In einer bevorzugten Ausführungsform der Erfindung wird das nützliche Frequenzband gewählt, um zwischen 64 Hz und der Hälfte der tatsächlichen Abtastfrequenz zu liegen. Das nützliche Frequenzband wird in 23 Kanäle unterteilt, die äquidistant in dem Mel-Frequenzbereich sind. Jeder der Kanäle hat ein Dreiecks-förmiges Frequenzfenster und die nachfolgenden Kanäle sind halb-überlappend. Die Wahl der Startfrequenz der Filterbank, fstart = 64 Hz, korrespondiert grob mit dem Fall, bei dem das volle Frequenzband in 24 Kanäle (Sub-Bänder) geteilt wird und der erste Kanal abgelegt bzw. verworfen wird.
  • Die Zentrums- bzw. Mittenfrequenzen der Kanäle im Sinne von FFT-Behältnisindices werden gemäß den folgenden Gleichungen kalkuliert:
    Figure 00260001
    wobei round(.) ein Runden zu dem nächsten Integer hin anzeigt und cbini der i-te FFT-Index ist.
  • Eine gewichtete Summe der FFT-Spektralbetragswerte (bini) in jedem Sub-Band, der der Sub-Bandwert für ein gegebenes Sub-Band ist, wird als eine Ausgabe des Mel-Filters berechnet. Ein halb-überlappendes dreieckiges Fenster wird verwendet,
    Figure 00270001
    wobei k = 1, ..., 23, cbin0 und cbin24 die FFT-Behältnisindices bezeichnen, die zu der Startfrequenz und der Hälfte der Abtastfrequenz korrespondieren:
  • Figure 00270002
  • In [TEXT FEHLT] werden zwei erste Kanäle verworfen, nicht nur der erste.
  • In dem Kompressionsblock LOG wird eine nicht-lineare Transformation auf dem Ausgang des Mel-Filterblocks durchgeführt, indem eine natürliche Logarithmusfunktion angewandt wird: fi = ln(fbanki), i = 1, ..., 23 (8)
  • Gemäß einer alternativen Ausführungsform wird eine Logarithmusfunktion mit einer anderen Basis (zum Beispiel 10, 16, 2) anstatt der natürlichen Logarithmusfunktion verwendet.
  • Nach der nicht-linearen Transformation wird eine mittlere Anhebung auf die Ausgabe des nicht-linearen Transformationsblocks angewandt: f'i = fi + mi, i = 1, ..., 23 (9) wobei mj ein mittlerer Schätzungsterm ist, der ein Mittel von vorhergehenden Werten von fj charakterisiert.
  • Der mittlere Schätzungsterm mj wird von einer mittleren Schätzung m i berechnet: mi = c·m i (10)wobei c ein Gewichtungsfaktor ist, der definiert, wie groß ein Einfluß einer mittleren Anhebung auf die Sub-Bandwerte hat. Die Wahl an Gewichtungsfaktoren hängt von der exakten Implementation der Erfindung ab, Zum Beispiel kann c den Wert 0,5 oder einnehmen. Die mittlere Schätzung m i wird von vorhergehenden Sub-Bandwerten von fj gemäß der Beziehung berechnet: m i(k) = (1 – A)·m i(k – 1) + A·fi(k), i = 1, ..., 23, k = 1, ... (11)wobei k ein Sprachrahmenindex und A ein sogenannter „Vergessensfaktor" ist.
  • In dieser Ausführungsform ist der Vergessensfaktor A 0,975. Je höher der Vergessensfaktor ist, desto kleiner ist das Gewicht der vorhergehenden Werte fj und umgekehrt. Der Wert des Vergessensfaktors wirkt auf das Leistungsverhalten der Sprachverarbeitung ein, die an der nachgestellten Einheit ausgeführt wird und kann variiert werden, um die Rauschrobustheit eine Spracherkennung zu optimieren.
  • Ein Anfangswert von M für ein bestimmtes Sub-Band wird erhalten, indem ein Mittelwert für das Sub-Band über eine zuvor definierte Anzahl an ersten folgenden Rahmen berechnet wird. In dieser Ausführungsform wird der Anfangswert berechnet, indem die 38 ersten Rahmen verwendet werden. In einer alternativen Ausführungsform wird der Anfangswert von m gleich dem Wert eines bestimmten Sub-Bandes in dem ersten Rahmen gesetzt, oder der Anfangswert von m ist ein vorher bestimmter Wert. In anderen alternativen Ausführungsformen kann die Anzahl an Rahmen, die für die Berechnung der anfänglichen Mittelwertabschätzung verwendet wird, anders als 38 sein.
  • In dieser Ausführungsform bezieht sich das Wort „mittel" bzw. „mittlere" auf einen arithmetischen Durchschnittswert, aber andere Formen einer Mittlung (zum Beispiel eine logarithmische Mittlung, eine geometrische Mittlung, oder ein Mittelwert, Moden- oder Normwerte) können eingesetzt werden.
  • Eine weitere Ausführungsform der Erfindung umfaßt einen Differentiationsblock DIF, um die ersten Zeitableitungen und zweite Zeitableitungen für jeden Sub-Bandwert zu berechnen.
  • 13 cepstrale Koeffizienten werden von der Ausgabe des mittleren Anhebungsblocks ME berechnet:
  • Figure 00290001
  • Merkmalsvektoren werden geformt, die die 13 Cepstralkoeffizienten umfassen. In einer Ausführungsform der Erfindung umfaßt der Merkmalsvektor zusätzlich einen Log.-Energiekoeffizient als einen vierzehnten Koeffizienten. Der Log.-Energiekoeffizient ist ein Energiemaß bzw. -Meßwert, der die Überalles- bzw. Gesamtenergie eines digitalisierten Rahmens des Sprachsignals beschreibt. der logarithmische Rahmenenergiemeßwert logE wird wie folgt berechnet:
    Figure 00300001
    wobei N die Rahmenlänge in Abtastwerten ist und sof das im wesentlichen Versatzfreie Eingabesignal ist.
  • In einem verteilten Spracherkennungssystem wird der letzte Merkmalsvektor ferner vor seiner Übertragung über eine Kommunikationsverbindung an die nachgestellt Einheit kanalkodiert, bei der eine Spracherkennung durchgeführt wird.
  • 4 zeigt ein Flußdiagramm, das die Arbeitsweise einer mittleren Anhebungsblockoperation gemäß der bevorzugten Ausführungsform der Erfindung beschreibt. Die Operation beginnt an einem Schritt 300, wenn die ersten Sprachrahmen durch das vorangestellte Ende eingefangen werden. In einem Schritt 310 wird der anfängliche Mittelwert ein Mittelwert eines bestimmten Sub-Bandes in einer zuvor definierten Anzahl an ersten nachfolgenden Rahmen. In dieser Ausführungsform wird der anfängliche Mittelwert berechnet, indem die 38 ersten Rahmen verwendet werden. Während normaler Arbeitsweise, das ist nach der anfänglichen Hochlaufphase, wird ein Abtastwert zu einer Zeit in einem Schritt 320 empfangen und der mittlere Schätzwert wird aktualisiert. Die Anzahl an Abtastwerten, die verwendet werden, um den mittleren Schätzwert zu formen, bleibt konstant (zum Beispiel 38), indem der früheste Abtastwert entfernt wird und der letzte Abtastwert hinzugefügt wird. Der mittlere Schätzterm wird an den Abtastwert in einem Schritt 330 hinzugefügt. Ein neuer mittlerer Schätzwertterm wird dann in einem Block 340 gemäß den Gleichungen (10) und (11) berechnet. Eine mittlere Anhebung kann eine Spracherkennungsgenauigkeit verbessern, wenn eine Normalisierung von Sprachmerkmalen eingesetzt wird.
  • 5 zeigt ein Funktionsblockdiagramm eines Sprachverarbeitungssystems SRS gemäß der bevorzugten Ausführungsform der Erfindung. Das System kann in fünf Hauptmodule unterteilt werden: vorangestellter Einheitsblock 200, Trainingsblock 610, Modellbank 620, Erkennungsblock 630 und Modelladaptionsblock 640. Zuerst wird ein Sprachsignal durch das vorangestellt Ende verarbeitet, welches das Signal in Merkmalsvektoren umwandelt. Diese Merkmalsvektoren werden dann in die Trainings- Erkennungs- oder Adaptionsmodule eingespeist.
  • In einem Spracherkennungssystem, ist ein Trainieren ein Prozess, der normalerweise in einer anfänglichen Einrichtungsphase durchgeführt wird. Während eines Trainierens werden spezielle Trainingsdaten, zum Beispiel ausgewählte Worte an das Spracherkennungssystem angewandt bzw. angelegt, um statische Modelle für eine spätere Verwendung in der Erkennung von allgemeinen (dass heißt unbekannten) gesprochenen Informationen zu konstruieren. Gemäß der bevorzugten Ausführungsform der Erfindung findet ein Training in dem Trainingsmodul 610 statt, wo ein statistisches Modell, dass Verstecktes Markov Model (HMM) genannt wird, für jedes Wort, das zu speichern ist, konstruiert wird. Ein Trainieren kann zum Beispiel durchgeführt werden, indem Eingangsmerkmalsvektoren verwendet werden, die mit einem gegebenen Wort korrespondieren, das von gesprochenen Äußerungen des in Frage stehenden Wortes abgeleitet wird. Das neu trainierte HMM wird dann zu einer Modellbank 620 hinzugefügt, welche alle trainierten Modelle enthält.
  • Wenn in der Erkennung von unbekannter gesprochener Information verwendet, werden Eingangsmerkmalsvektoren in einem Erkennungsmodul 630 mit den HMMs in der Modellbank 620 verglichen und das best übereinstimmende HMM wird ausgewählt. Nach einer Erkennung und einer Ergebnisüberprüfung kann das korrekte HMM in dem Adaptionsmodul 640 aktualisiert werden. Dies kann als ein zusätzliches Training gesehen werden, das eine fortgesetzte Verfeinerung des HMMs zur Verfügung stellt, die für den Benutzer transparent ist. In einer alternativen Ausführungsform ist das Adaptionsmodul nicht in dem Spracherkennungssystem SRS eingeschlossen.
  • 6 zeigt ein Blockdiagramm einer Mobilstation MS mit einer vorangestellten Einheit gemäß der bevorzugten Ausführungsform der Erfindung. In der Mobilstation steuert eine Hauptsteuereinheit MCU Blöcke, die verantwortlich sind für die vielfältigen Funktionen der Mobilstation: ein wahlfreier Zugriffsspeicher RAM, ein Funkfrequenzteil RF, ein Nur-Lese-Speicher, und eine Benutzerschittstelle UI. Die Benutzerschnittstelle umfaßt eine Tastatur KB, eine Anzeige DP, einen Lautsprecher SP und ein Mikrophone MF. Die MCU ist ein Mikroprozessor, oder in alternativen Ausführungsformen, irgend eine andere Art an Prozessor, zum Beispiel ein Digitaler Signalprozessor. Vorteilhafterweise wurden die Arbeitsanweisungen der MCU zuvor in dem ROM-Speicher gespeichert. Im Einklang mit seinen Instruktionen verwendet die MCU den RF-Block zum Übertragen und Empfangen von Daten über einen Funkpfad. Die MCU verwendet das RAM als seinen Arbeitsspeicher. Die MCU führt ebenso eine Merkmalsextraktion gemäß des Verfahrens der Erfindung durch, wenn die Mobilstation als eine vorangestellte Spracherkennungseinheit verwendet wird. In dem Fall eines verteilten Spracherkennungssystems, wie zum Beispiel das, das in 5 erläutert wird, ruft hervor bzw. verursacht die MCU, dass der RF-Block die Sprachmerkmale an ein Mobiltelekommunikationsnetzwerk über einen Funkpfad zum weiteren Verarbeiten in eine entfernte nachgestellte Einheit überträgt. In einer Ausführungsform der vorliegenden Erfindung, fängt die Mobilstation Sprache mit seinem Mikrofon ein, extrahiert Merkmale, indem sie die MCU, das RAM und das ROM verwendet, und verwendet dann den RF-Block, um die Merkmale an die nachgestellte Einheit zu senden. Nachdem das ferne nachgestellte Ende eine Spracherkennung ausgeführt hat und die Sprache in Text umgewandelt hat, wird der Text zurück zu der MS über den Funkpfad übertragen und durch den RF-Block empfangen. Der Text kann dann auf der Anzeige angezeigt werden. In alternativen Ausführungsformen kann das Ergebnis von einer Spracherkennung zum Ausführen eines Befehls oder zum Wählen einer Nummer in Antwort auf den gesprochenen Befehl verwendet werden.
  • 7 zeigt ein Mobiltelekommunikationsnetzwerk MNW als ein Beispiel des Spracherkennungssystems gemäß der bevorzugten Ausführungsform der Erfindung. Eine nachgestellte Servereinheit BES wird an das MNW gekoppelt. Die nachgestellte Servereinheit wird als ein Computer mit einer Spracherkennungssoftware implementiert. Das Mobilnetzwerk kann eine Mehrzahl an Mobilstationen MS aufweisen, die über eine Mehrzahl an Funkpfaden verbunden sind. In einer Ausführungsform der Erfindung ist die nachgestellte Servereinheit ein Netzwerkelement des MNW, zum Beispiel ein Mobilvermittlungszentrum MSC. In einer alternativen Ausführungsform wird manche oder alle der Funktionalität der nachgestellten Servereinheit implementiert, indem gewidmete bzw. dedizierte hartverdrahtete logische Schaltkreise verwendet werden. In noch einer anderen Alternative ist die nachgestellte Servereinheit in einem anderen Netzwerk wie zum Beispiel dem Internet gelegen, so dass sie von innerhalb des Mobiltelekommunikationsnetzwerkes zugänglich bzw. zugreifbar ist.
  • Tabelle II zeigt Spracherkennungsergebnisse, die unter bestimmten Bedingungen erreicht werden, indem ein Spracherkennungssystem gemäß der bevorzugten Ausführungsform der vorliegenden Erfindung verwendet wird.
  • Tabelle II: Eine Spracherkennungsgenauigkeit unter verschiedenartigen Typen an Rauschen und Signal-zu-Rausch-Verhältnis (SNR), die mit einem Spracherkennungssystem im Vergleich zu bzw. verglichen mit Referenzergebnissen erreicht wird, die erhalten werden, indem ein Spracherkennungssystem gemäß des Standes der Technik verwendet wird.
    Figure 00340001
  • Die Zahlen, die in Tabelle II dargestellt werden, repräsentieren den Prozentsatz von korrekt erkannten Worten unter verschiedenartigen Umständen, die verschiedene Typen an Rauschen und verschiedene Signal-zu-Rauschpegel einschließen. Wie leicht von den Ergebnissen bestimmt werden kann, zum Beispiel, indem die Figuren in den Spalten, die mit 1 bis 5 beschriftet sind, mit jenen in der Referenzspalte verglichen werden, wobei die Proportion bzw. der Anteil an fehlerkannten Worten, verglichen mit korrekt erkannten Worten signifikant im Hinblick auf den Referenzpegel abnimmt, wenn das Spracherkennungsverfahren gemäß der Erfindung verwendet wird, insbesondere bei niedrigeren Signal-zu-Rauschverhältnissen.
  • Dieses Dokument präsentiert die Implementation und die Ausführungsformen der Erfindung mit der Hilfe von Beispielen. Es sollte für einen Fachmann offensichtlich sein, dass die Erfindung nicht auf Details der Ausführungsformen beschränkt ist, die oben dargestellt werden, und dass die Erfindung in anderen Ausführungsformen implementiert werden kann, ohne von den Charakteristiken der Erfindung abzuweichen. Somit sollten die präsentierten Ausführungsformen als erläuternd, aber nicht als einschränkend betrachtet werden. Hieraus werden die Möglichkeiten zum Implementieren und Verwenden der Erfindung nur durch die beigeschlossenen Patentansprüche beschränkt. Konsequenterweise gehören die verschiedenartigen Optionen des Implementierens der Erfindung wie durch die Ansprüche bestimmt, die äquivalente Implementierungen einschließen, ebenso zu dem Umfang bzw. Schutzbereich der vorliegenden Erfindung wie in den angehängten Ansprüchen definiert wird.

Claims (24)

  1. Spracherkennungs-Merkmalsextraktor (200, FE) zum Extrahieren von Sprachmerkmalen aus einem Sprachsignal, umfassend: – einen Zeit-zu-Frequenz Bereichswandler (230) zum Erzeugen von spektralen Werten im Frequenzbereich aus dem Sprachsignal; – ein Aufteilungsmittel (235) zum Erzeugen eines ersten Satzes von spektralen Werten im Frequenzbereich und eines zusätzlichen Satzes von spektralen Werten im Frequenzbereich; – einen ersten Merkmalsgenerator (240) zum Erzeugen einer ersten Gruppe von Sprachmerkmalen unter Verwendung des ersten Satzes von spektralen Werten; – einen zusätzlichen Merkmalsgenerator (250) zum Erzeugen einer zusätzlichen Gruppe von Sprachmerkmalen unter Verwendung des zusätzlichen Satzes von spektralen Werten; und – einen Assembler (260) zum Zusammensetzen eines Ausgabesatzes von Sprachmerkmalen aus mindestens einem Sprachmerkmal der ersten Gruppe von Sprachmerkmalen und mindestens einem Sprachmerkmal der zusätzlichen Gruppe von Sprachmerkmalen; dadurch gekennzeichnet, dass der zusätzliche Satz von spektralen Werten ein Teilsatz des ersten Satzes von spektralen Werten ist.
  2. Spracherkennungs-Merkmalsextraktor (200, FE) nach Anspruch 1, wobei der zusätzliche Merkmalsgenerator eingerichtet ist, parallel zu dem ersten Merkmalsgenerator betrieben zu werden.
  3. Spracherkennungs-Merkmalsextraktor (200, FE) nach Anspruch 1 oder 2, wobei der erste und der zusätzliche Satz von spektralen Werten aus einem gemeinsamen Frequenzbereich ausgewählt werden.
  4. Spracherkennungs-Merkmalsextraktor (200, FE) nach irgendeinem der vorhergehenden Ansprüche, wobei der erste Satz von spektralen Werten einer vollen für Spracherkennung zu verwendenden Bandbreite entspricht.
  5. Spracherkennungs-Merkmalsextraktor (200, FE) nach irgendeinem der vorhergehenden Ansprüche, wobei der erste Merkmalsgenerator weiter umfasst: – einen Zeit-zu-Frequenz Bereichswandler zum Umwandeln von Sprachblöcken im Zeitbereich in spektrale Werte im Frequenzbereich; – einen Frequenzbereich-Filterblock zum Erzeugen von Teilband-Werten aus den spektralen Werten; – ein Kompressionsblock zum Komprimieren der Teilband-Werte durch Anwenden einer Kompression auf jeden Teilband-Wert; – einen Wandlerblock zum Erhalten eines Satzes von unkorrelierten Merkmalskoeffizienten aus den Teilband-Werten.
  6. Spracherkennungs-Merkmalsextraktor (200, FE) nach Anspruch 5, wobei der erste Merkmalsgenerator einen Verarbeitungsblock umfasst, um einen Mittelwertabschätzungs-Term zu den Teilband-Werten hinzuzufügen, wobei der Verarbeitungsblock zum Hinzufügen des Mittelwertabschätzungs-Terms der Kompression der Teilband-Werte entweder vorhergeht oder nachfolgt.
  7. Spracherkennungs-Merkmalsextraktor (200, FE) nach irgendeinem der vorhergehenden Ansprüche, wobei der zusätzliche Merkmalsgenerator die folgenden Blöcke umfasst: – einen Frequenzbereich-Filterblock zum Erzeugen von Teilband-Werten; – einen Kompressionsblock zum Komprimieren der Teilband-Werte; und – einen Wandlerblock zum Erhalten eines Satzes von unkorrelierten Merkmalskoeffizienten aus den Teilband-Werten.
  8. Spracherkennungs-Merkmalsextraktor (200, FE) nach Anspruch 7 und 5, wobei mindestens der erste Merkmalsgenerator oder der zusätzliche Merkmalsgenerator weiter einen Differenziationsblock umfasst, um erste Ableitungen und zweite Ableitungen für jeden der unkorrelierten Merkmalskoeffizienten zu erzeugen.
  9. Spracherkennungs-Merkmalsextraktor (200, FE) nach Anspruch 8, wobei mindestens der erste Merkmalsgenerator oder der zusätzliche Merkmalsgenerator weiter einen Normalisierungsblock umfasst, um normalisierte Sprachmerkmale aus den unkorrelierten Merkmalskoeffizienten, ersten Zeitableitungen und zweiten Zeitableitungen zu erzeugen.
  10. Spracherkennungs-Merkmalsextraktor (200, FE) nach irgendeinem der Ansprüche 5–9, wobei der zusätzliche Merkmalsgenerator einen Block umfasst, um einen Mittelwertabschätzungs-Term zu den Teilband-Werten hinzuzufügen, wobei der Verarbeitungsblock zum Hinzufügen des Mittelwertabschätzungs-Terms der Kompression der Teilband-Werte entweder vorhergeht oder nachfolgt.
  11. Spracherkennungs-Merkmalsextraktor nach irgendeinem der vorhergehenden Ansprüche, wobei der Merkmalsextraktor einen Satz von zusätzlichen Merkmalsgeneratoren umfasst, um zusätzliche Sätze von spektralen Werten im Frequenzbereich zu empfangen, um zusätzliche Gruppen von Sprachmerkmalen zu erzeugen, wobei jeder der Merkmalsgeneratoren eingerichtet ist, einen Unter-Teil der spektralen Werte zu empfangen, um eine zusätzliche Gruppen von Sprachmerkmalen zu erzeugen, und jeder zusätzliche Satz von spektralen Werten einen Unter-Teil der spektralen Werte bildet.
  12. Spracherkennungs-Merkmalsextraktor nach Anspruch 11, wobei jeder Unter-Teil sich von den anderen Unter-Teilen durch mindestens einen spektralen Wert unterscheidet.
  13. Spracherkennungs-Merkmalsextraktor nach Anspruch 11 oder 12, wobei jeder der Unter-Teile eine unterschiedliche Anzahl von spektralen Werten umfasst.
  14. Spracherkennungs-Merkmalsextraktor nach irgendeinem der Ansprüche 11 bis 13, wobei mindestens zwei der Unter-Teile sich teilweise überlappen.
  15. Spracherkennungs-Merkmalsextraktor nach Anspruch 10, wobei der Mittelwertabschätzungs-Term berechnet wird aus komprimierten spektralen Werten, die eine Reihe von mindestens zwei aufeinander folgenden Sprachblöcken repräsentieren.
  16. Nachgestellte Einrichtung (back-end) zum Erkennen von gesprochener Information aus Sprachmerkmalen, umfassend: – eine Datenbank zum Pflegen von statistischen Modellen von gesprochener Information; – einen Block zum Empfangen von Sprachmerkmalen, die sich auf zwei verschiedene Frequenzbereiche eines Sprachblocks beziehen; und – einen Erkennungsblock zum Auswählen eines Modells gesprochener Information aus der Datenbank, das am besten den empfangenen Sprachmerkmalen entspricht; dadurch gekennzeichnet, dass einer der Frequenzbereiche ein Teilbereich des anderen Frequenzbereichs ist.
  17. Spracherkennungssystem, umfassend: – Spracherkennungs-Merkmalsextraktor zum Extrahieren von Sprachmerkmalen aus einem Sprachsignal; und – eine nachgestellte Einrichtung zum Erkennen von gesprochener Information aus Sprachmerkmalen; wobei der Spracherkennungs-Merkmalsextraktor umfasst: – einen Zeit-zu-Frequenz Bereichswandler (210) zum Erzeugen von spektralen Werten im Frequenzbereich aus dem Sprachsignal; – ein Aufteilungsmittel (235) zum Erzeugen eines ersten Satzes von spektralen Werten im Frequenzbereich und eines zusätzlichen Satzes von spektralen Werten im Frequenzbereich; – einen ersten Merkmalsgenerator (240) zum Erzeugen einer ersten Gruppe von Sprachmerkmalen unter Verwendung des ersten Satzes von spektralen Werten; – einen zusätzlichen Merkmalsgenerator (250) zum Erzeugen einer zusätzlichen Gruppe von Sprachmerkmalen unter Verwendung des zusätzlichen Satzes von spektralen Werten; und – einen Assembler (260) zum Zusammensetzen eines Ausgabesatzes von Sprachmerkmalen aus mindestens einem Sprachmerkmal der ersten Gruppe von Sprachmerkmalen von spektralen Werten und mindestens einem Sprachmerkmal der zusätzlichen Gruppe von Sprachmerkmalen; und wobei die nachgestellte Einrichtung umfasst: – eine Datenbank zum Pflegen von statistischen Modellen von gesprochener Information; – einen Block zum Empfangen von Sprachmerkmalen, die sich auf zwei verschiedene Frequenzbereiche eines Sprachblocks beziehen; und – einen Erkennungsblock zum Auswählen eines Modells gesprochener Information aus der Datenbank, das am besten den empfangenen Sprachmerkmalen entspricht; dadurch gekennzeichnet, dass der zusätzliche Satz von spektralen Werten ein Teil-Satz des ersten Satzes von spektralen Werten ist.
  18. Mobiltelekommunikationsnetzwerk, umfassend: – einen Funk-Sender/Empfänger zum Empfangen von Sprachmerkmalen von einer Mobilstation; und – eine nachgestellte Einrichtung zum Erkennen gesprochener Information aus Sprachmerkmalen, wobei die nachgestellte Einrichtung umfasst: – eine Datenbank zum Pflegen von statistischen Modellen von gesprochener Information; – einen Block zum Empfangen von Sprachmerkmalen, die sich auf zwei verschiedene Frequenzbereiche eines Sprachblocks beziehen; und – einen Erkennungsblock zum Auswählen eines Modells gesprochener Information aus der Datenbank, das am besten den empfangenen Sprachmerkmalen entspricht; dadurch gekennzeichnet, dass einer der Frequenzbereiche ein Teilbereich des anderen Frequenzbereichs ist.
  19. Spracherkennungs-Merkmalsextraktions-Verfahren zum Extrahieren von Sprachmerkmalen aus einem Sprachsignal, umfassend die Schritte: – Erzeugen von spektralen Werten im Frequenzbereich aus einem Sprachsignal; – Erzeugen einer ersten Gruppe von Sprachmerkmalen unter Verwendung eines ersten Satzes von spektralen Werten im Frequenzbereich; – Erzeugen einer zusätzlichen Gruppe von Sprachmerkmalen unter Verwendung eines zusätzlichen Satzes von spektralen Werten im Frequenzbereich; und – Zusammensetzen eines Ausgabesatzes von Sprachmerkmalen aus mindestens einem Sprachmerkmal der ersten Gruppe von Sprachmerkmalen und mindestens einem Sprachmerkmal der zusätzlichen Gruppe von Sprachmerkmalen; dadurch gekennzeichnet, dass der zusätzliche Satz von spektralen Werten ein Teil-Satz des ersten Satzes von spektralen Werten ist.
  20. Verfahren zum Erkennen gesprochener Information aus Sprachmerkmalen, umfassend die Schritte: – Pflegen statistischer Modelle gesprochener Information; – Empfangen von Sprachmerkmalen, die sich auf zwei verschiedene Frequenzbereiche eines Sprachblocks beziehen; und – Auswählen eines Modells gesprochener Information, das am besten mit den empfangenen Sprachmerkmalen entspricht; dadurch gekennzeichnet, dass einer der Frequenzbereiche ein Teilbereich des anderen Frequenzbereichs ist.
  21. Verfahren zum Erkennen gesprochener Information aus einem Sprachsignal, umfassend die Schritte: – Erzeugen von spektralen Werten im Frequenzbereich aus dem Sprachsignal; – Erzeugen eines ersten Satzes von spektralen Werten im Frequenzbereich und eines zusätzlichen Satzes von spektralen Werten im Frequenzbereich; – Erzeugen einer ersten Gruppe von Sprachmerkmalen unter Verwendung des ersten Satzes von spektralen Werten; – Erzeugen einer zusätzlichen Gruppe von Sprachmerkmalen unter Verwendung des zusätzlichen Satzes von spektralen Werten; und – Zusammensetzen eines Ausgabesatzes von Sprachmerkmalen aus mindestens einem Sprachmerkmal der ersten Gruppe von Sprachmerkmalen und mindestens einem Sprachmerkmal der zusätzlichen Gruppe von Sprachmerkmalen; – Pflegen statistischer Modelle gesprochener Information; – Auswählen eines Modells gesprochener Information, das am besten den Sprachmerkmalen des Ausgabesatzes von Sprachmerkmalen entspricht; dadurch gekennzeichnet, dass der zusätzliche Satz von spektralen Werten ein Teilsatz des ersten Satzes von spektralen Werten ist.
  22. Computerprogrammprodukt zum Extrahieren von Sprachmerkmalen aus einem Sprachsignal, umfassend: – einen computerlesbaren Code, um einen Computer zu veranlassen, spektrale Werte im Frequenzbereich aus dem Sprachsignal zu erzeugen; – einen computerlesbaren Code, um einen Computer zu veranlassen, einen ersten Satz von spektralen Werten im Frequenzbereich und einen zusätzlichen Satz von spektralen Werten im Frequenzbereich erzeugen; – einen computerlesbaren Code, um einen Computer zu veranlassen, eine erste Gruppe von Sprachmerkmalen unter Verwendung des ersten Satzes von spektralen Werten zu erzeugen; – einen computerlesbaren Code, um einen Computer zu veranlassen, eine zusätzliche Gruppe von Sprachmerkmalen unter Verwendung des zusätzlichen Satzes von spektralen Werten zu erzeugen; und – einen computerlesbaren Code, um einen Computer zu veranlassen, einen Ausgabesatz von Sprachmerkmalen aus mindestens einem Sprachmerkmal der ersten Gruppe von Sprachmerkmalen und mindestens einem Sprachmerkmal der zusätzlichen Gruppe von Sprachmerkmalen zusammenzusetzen; dadurch gekennzeichnet, dass der zusätzliche Satz von spektralen Werten ein Teilsatz des ersten Satzes von spektralen Werten ist.
  23. Computerprogrammprodukt zum Erkennen gesprochener Information aus Sprachmerkmalen, umfassend: – einen computerlesbaren Code, um einen Computer zu veranlassen, statistische Modelle gesprochener Information zu pflegen; – einen computerlesbaren Code, um einen Computer zu veranlassen, Sprachmerkmale zu empfangen, die sich auf zwei verschiedene Frequenzbereiche eines Sprachblocks beziehen; und – einen computerlesbaren Code, um einen Computer zu veranlassen, ein Modell gesprochener Information auszuwählen, das am besten empfangenen Sprachmerkmalen entspricht; dadurch gekennzeichnet, dass einer der Frequenzbereiche ein Teilbereich des anderen Frequenzbereichs ist.
  24. Computerprogrammprodukt zum Erkennen gesprochener Information aus einem Sprachsignal, umfassend: – einen computerlesbaren Code, um einen Computer zu veranlassen, spektrale Werte im Frequenzbereich aus dem Sprachsignal zu erzeugen; – einen computerlesbaren Code, um einen Computer zu veranlassen, einen ersten Satz von spektralen Werten im Frequenzbereich und einen zusätzlichen Satz von spektralen Werten im Frequenzbereich zu erzeugen; – einen computerlesbaren Code, um einen Computer zu veranlassen, eine erste Gruppe von Sprachmerkmalen unter Verwendung des ersten Satzes von spektralen Werten zu erzeugen; – einen computerlesbaren Code, um einen Computer zu veranlassen, eine zusätzliche Gruppe von Sprachmerkmalen unter Verwendung des zusätzlichen Satzes von spektralen Werten zu erzeugen; und – einen computerlesbaren Code, um einen Computer zu veranlassen, einen Ausgabesatz von Sprachmerkmalen aus mindestens einem Sprachmerkmal der ersten Gruppe von Sprachmerkmalen und mindestens einem Sprachmerkmal der zusätzlichen Gruppe von Sprachmerkmalen zusammenzusetzen; – einen computerlesbaren Code, um einen Computer zu veranlassen, statistische Modelle gesprochener Information zu pflegen; und – einen computerlesbaren Code, um einen Computer zu veranlassen, ein Modell gesprochener Information auszuwählen, das am besten den Sprachmerkmalen des Ausgabesatzes von Sprachmerkmalen entspricht; dadurch gekennzeichnet, dass der zusätzliche Satz von spektralen Werten ein Teil-Satz des ersten Satzes von spektralen Werten ist.
DE60025748T 1999-10-29 2000-10-27 Spracherkennung Expired - Lifetime DE60025748T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI992350A FI19992350A (fi) 1999-10-29 1999-10-29 Parannettu puheentunnistus
FI992350 1999-10-29
PCT/FI2000/000939 WO2001031633A2 (en) 1999-10-29 2000-10-27 Speech recognition

Publications (2)

Publication Number Publication Date
DE60025748D1 DE60025748D1 (de) 2006-04-13
DE60025748T2 true DE60025748T2 (de) 2006-08-03

Family

ID=8555534

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60025748T Expired - Lifetime DE60025748T2 (de) 1999-10-29 2000-10-27 Spracherkennung

Country Status (7)

Country Link
US (1) US6721698B1 (de)
EP (1) EP1250699B1 (de)
AT (1) ATE316678T1 (de)
AU (1) AU1149601A (de)
DE (1) DE60025748T2 (de)
FI (1) FI19992350A (de)
WO (1) WO2001031633A2 (de)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
DE60104091T2 (de) * 2001-04-27 2005-08-25 CSEM Centre Suisse d`Electronique et de Microtechnique S.A. - Recherche et Développement Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
CA2359544A1 (en) * 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time speech recognition system using an oversampled filterbank
JP2003143256A (ja) * 2001-10-30 2003-05-16 Nec Corp 端末装置と通信制御方法
US7197456B2 (en) * 2002-04-30 2007-03-27 Nokia Corporation On-line parametric histogram normalization for noise robust speech recognition
US7027979B2 (en) * 2003-01-14 2006-04-11 Motorola, Inc. Method and apparatus for speech reconstruction within a distributed speech recognition system
US7672838B1 (en) 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US7480641B2 (en) * 2006-04-07 2009-01-20 Nokia Corporation Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation
US8355913B2 (en) * 2006-11-03 2013-01-15 Nokia Corporation Speech recognition with adjustable timeout period
US7983916B2 (en) * 2007-07-03 2011-07-19 General Motors Llc Sampling rate independent speech recognition
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
US9406313B2 (en) * 2014-03-21 2016-08-02 Intel Corporation Adaptive microphone sampling rate techniques
US10089989B2 (en) 2015-12-07 2018-10-02 Semiconductor Components Industries, Llc Method and apparatus for a low power voice trigger device
CN109997186B (zh) 2016-09-09 2021-10-15 华为技术有限公司 一种用于分类声环境的设备和方法
CN108369813B (zh) * 2017-07-31 2022-10-25 深圳和而泰智能家居科技有限公司 特定声音识别方法、设备和存储介质
US10431242B1 (en) * 2017-11-02 2019-10-01 Gopro, Inc. Systems and methods for identifying speech based on spectral features
CN110288981B (zh) * 2019-07-03 2020-11-06 百度在线网络技术(北京)有限公司 用于处理音频数据的方法和装置
CN113592003B (zh) * 2021-08-04 2023-12-26 智道网联科技(北京)有限公司 一种图片传输方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535293A (ja) 1991-08-01 1993-02-12 Fujitsu Ltd 音声認識装置における認識候補数設定方式
WO1994022132A1 (en) 1993-03-25 1994-09-29 British Telecommunications Public Limited Company A method and apparatus for speaker recognition
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
US6370504B1 (en) * 1997-05-29 2002-04-09 University Of Washington Speech recognition on MPEG/Audio encoded files
US6292776B1 (en) * 1999-03-12 2001-09-18 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition

Also Published As

Publication number Publication date
FI19992350A (fi) 2001-04-30
ATE316678T1 (de) 2006-02-15
WO2001031633A3 (en) 2002-08-15
US6721698B1 (en) 2004-04-13
WO2001031633A8 (en) 2004-04-22
EP1250699B1 (de) 2006-01-25
AU1149601A (en) 2001-05-08
EP1250699A2 (de) 2002-10-23
DE60025748D1 (de) 2006-04-13
WO2001031633A2 (en) 2001-05-03

Similar Documents

Publication Publication Date Title
DE60025748T2 (de) Spracherkennung
DE60314128T2 (de) Parametrische online-histogramm normierung zur rauschrobusten spracherkennung
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69827667T2 (de) Vokoder basierter spracherkenner
US6804643B1 (en) Speech recognition
DE102004036154B3 (de) Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
US6957183B2 (en) Method for robust voice recognition by analyzing redundant features of source signal
DE69127961T2 (de) Verfahren zur Spracherkennung
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
DE602005001048T2 (de) Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE69920461T2 (de) Verfahren und Vorrichtung zur robusten Merkmalsextraktion für die Spracherkennung
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
DE112014003337T5 (de) Sprachsignaltrennung und Synthese basierend auf auditorischer Szenenanalyse und Sprachmodellierung
EP0747880B1 (de) Spracherkennungssystem
DE112009000805T5 (de) Rauschreduktion
EP0508547B1 (de) Schaltungsanordnung zur Spracherkennung
DE112014000945B4 (de) Sprachbetonungsgerät
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition