DE60122257T2

DE60122257T2 - Vorrichtung zur spracherkennung mit referenztransformationsmitteln

Info

Publication number: DE60122257T2
Application number: DE60122257T
Authority: DE
Inventors: F. Heinrich BARTOSIK
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nuance Communications Austria GmbH
Priority date: 2000-02-25
Filing date: 2001-02-12
Publication date: 2007-06-28
Anticipated expiration: 2021-02-13
Also published as: WO2001063597A1; EP1185976B1; JP5425280B2; EP1185976A1; JP2003524217A; US20010025240A1; JP5105682B2; ATE336776T1; US7146317B2; JP2012234204A; DE60122257D1

Description

Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung gemäß Anspruch 1, auf ein Spracherkennungsverfahren gemäß Anspruch 4 und auf ein Computerprogrammprodukt gemäß Anspruch 7.
Eine derartige Spracherkennungsvorrichtung, ein derartiges Spracherkennungsverfahren, ein derartiges Referenzermittlungsverfahren und ein derartiges Computerprogrammprodukt sind beispielsweise aus dem Dokument US-A 5.890.113 bekannt. Die bekannte Spracherkennungsvorrichtung weist Referenzspeichermittel zum Speichern einer Referenzinformation auf. Die Referenzinformation wird von einem Hersteller der Spracherkennungsvorrichtung bei einem Referenzermittlungsverfahren durch Analyse der Art der Aussprache von Wörtern durch eine Mehrzahl von Referenzsprechern ermittelt. Hierfür spricht jeder dieser Referenzsprecher einen bestimmten Text in ein Mikrofon und Analysemittel ermitteln aus einer von dem Mikrofon abgegebenen Sprachinformation so genannte Featurevektoren, die den zeitlichen Verlauf von Frequenzkomponenten der Sprachinformation der Referenzsprecher beschreiben. Durch eine Mittelwertbildung der Featurevektoren aller Referenzsprecher bei der Aussprache jedes Phonems von Wörtern des Texts werden die Eigenarten der einzelnen Referenzsprecher gemittelt und die so ermittelte Referenzinformation ist für eine sprecherunabhängige Spracherkennungsvorrichtung geeignet. Da die Featurevektoren der Sprachinformation der Referenzsprecher auch von den Verzerrungen des einen Empfangskanal bildenden Eingabegeräts (Mikrofon, Telefon, ...) abhängig sind, wird bei dem Referenzermittlungsverfahren von den Referenzsprechern ein Mikrofon verwendet, das möglichst geringe Verzerrungen der Featurevektoren der Sprachinformation zur Folge hat. Die in den Referenzspeichermittel gespeicherte Referenzinformation der bekannten Spracherkennungsvorrichtung kann von einem Benutzer an das von dem Benutzer verwendete Eingabegerät angepasst werden, um die Erkennungsrate der Spracherkennungsvorrichtung zu verbessern. Hierfür weist die bekannte Spracherkennungsvorrichtung Empfangskanalanpassungsmittel zum Anpassen der in den Referenzspeichermitteln gespeicherten Referenzinformation an durch das Eingabegerät verursachte Verzerrungen der von Analysemitteln der Spracherkennungsvorrichtung ermittelten Frequenzvektoren der Sprachinformation auf.
Die in den Referenzspeichermittel gespeicherte Referenzinformation der bekannten Spracherkennungsvorrichtung kann weiterhin an die Art der Aussprache von Wörtern durch den Benutzer der Spracherkennungsvorrichtung angepasst werden, um die Erkennungsrate der Spracherkennungsvorrichtung für diesen Benutzer zusätzlich zu verbessern. Hierfür weist die bekannte Spracherkennungsvorrichtung Benutzeranpassungsmittel zum Anpassen der in den Referenzspeichermitteln gespeicherten und bereits an den von dem Benutzer verwendeten Empfangskanal angepassten Referenzinformation an die Art der Aussprache von Wörtern durch den Benutzer auf. Die an den Empfangskanal und den Benutzer angepasste Referenzinformation wird dann von Spracherkennungsmitteln der Spracherkennungsvorrichtung zur Ermittlung einer der Sprachinformation bzw. den aus der Sprachinformation ermittelten Featurevektoren zuzuordnende Textinformation verwendet.
Bei der bekannten Spracherkennungsvorrichtung, dem bekannten Spracherkennungsverfahren, dem bekannten Referenzermittlungsverfahren und dem bekannten Computerprogrammprodukt hat sich als Nachteil erwiesen, dass der Benutzer bei Verwendung unterschiedlicher Eingabegeräte die Referenzinformation an jedes dieser Eingabegeräte anpassen muss. Dies trifft beispielsweise auf einen Benutzer zu, der üblicherweise Texte mit einem an einen Computer angeschlossenen Mikrofon diktiert, jedoch manchmal per Telefon Kommandos an den Computer abgibt und manchmal unterwegs ein digitales Diktiergerät zum Diktieren von Texten verwendet, die später mit der durch den Computer gebildeten Spracherkennungsvorrichtung erkannt werden sollen. Hierbei muss der Benutzer für jedes seiner Eingabegeräte einen vorgegebenen Text mit dem jeweiligen Eingabegerät eingeben, um die Referenzinformation an den Benutzer und das Eingabegerät anzupassen und eine vergleichbar gute Erkennungsrate bei Verwendung der unterschiedlichen Eingabegeräte zu erhalten.
Die Erfindung hat zur Aufgabe, die vorstehend angeführten Schwierigkeiten zu beseitigen und eine Spracherkennungsvorrichtung, ein Spracherkennungsverfahren, ein Referenzermittlungsverfahren und ein Computerprogrammprodukt gemäß der in dem ersten Absatz angegebenen Art zu schaffen, bei dem das Anpassen der Referenzinformation an unterschiedliche Empfangskanäle durch den Benutzer entfällt. Diese Aufgabenstellung wird bei einer derartigen Spracherkennungsvorrichtung gemäß den Maßnahmen des kennzeichnenden Teils des Anspruchs 1, bei einem derartigen Spracherkennungsverfahren gemäß den Maßnahmen des kennzeichnenden Teils des Anspruchs 4, bei einem derartigen Referenzermittlungsverfahren gemäß den Maßnahmen des kennzeichnenden Teils des Anspruchs 7 und bei einem derartigen Computerprogrammprodukt gemäß den Maßnahmen des kennzeichnenden Teils des Anspruchs 9 gelöst.
Hierdurch ist erreicht, dass bereits bei dem Referenzermittlungsverfahren zusätzlich zu der an einen typischen Empfangskanal angepassten Referenzinformation für jeden weiteren typischen Empfangskanal eine Transformationsmatrix ermittelt wird, um die ermittelte Referenzinformation an andere typische Empfangskanäle anzupassen. Hierdurch erhält man den Vorteil, dass ein Benutzer der Spracherkennungsvorrichtung die Referenzinformation nur mit einem dieser typischen Eingabegeräte an die Art der Aussprache von Wörtern durch den Benutzer anpassen muss, um eine praktisch gleichmäßig gute Erkennungsrate mit allen diesen Eingabegeräten zu erreichen. Referenztransformationsmittel ermitteln hierauf aus dieser für den Benutzer und das typische Empfangsgerät angepassten Referenzinformation für weitere von dem Benutzer verwendbare typische Empfangsgeräte bzw. typische Empfangskanäle geeignete angepasste Referenzinformationen. Es können beispielsweise für folgende typische Empfangskanäle Transformationsmatrizen und angepasste Referenzinformationen ermittelt werden, bei denen die Sprachinformation mit einem Mikrofon, von einem Telefon über ein analoges oder digitales Telefonnetz, einem Mobiltelefon oder von einem digitalen Diktiergerät empfangen werden.
Es ist anzumerken, dass Soulas T. et al. in „Adapting PSN recognition models to the GSM environment by using spectral transformation", IEEE Comp.soc.press, 21. April 1997, ein sprecherunabhängiges System zur Erkennung von isolierten Worten beschreibt und eine „lineare Mehrfachregressions"-Transformation zum Transformieren der sprecherunabhängigen Referenzinformation verwendet. Dieses beschriebene System nutzt keine an den Benutzer angepasste Referenzinformation und die auf dieses Weise transformierte benutzerunabhängige Referenzinformation liefert nicht die gleichen guten Erkennungsresultate wie die in den Ansprüchen beschriebene Spracherkennungsvorrichtung mit benutzerabhängiger Referenzinformation.
Durch die Maßnahmen gemäß Anspruch 2 oder Anspruch 5 wird die an den Benutzer und einen dieser typischen Empfangskanäle angepasste Referenzinformation automatisch und ohne weiteres Zutun durch den Benutzer an sämtliche anderen typischen Empfangskanäle angepasst.
Durch die Maßnahmen gemäß Anspruch 3 oder Anspruch 6 werden die Fre quenzteilbereiche von die Sprachinformation in diesen Frequenzteilbereichen charakterisierenden Featurevektoren derart festgelegt, um das von dem jeweiligen Empfangskanal empfangene Frequenzspektrum mit den Featurevektoren möglichst gut abzubilden. Wenn beispielsweise von einem typischen Empfangskanal eine Sprachinformation mit einem Frequenzspektrum von bis zu 4 kHz empfangen wird, dann werden zur Beschreibung der empfangenen Sprachinformation keine Featurevektoren festgelegt, die die Sprachinformation in Frequenzteilbereichen mit höheren Frequenzen als 4 kHz beschreiben.
Die Erfindungen wird im Folgenden anhand von einem in der 1 dargestellten Ausführungsbeispiel einer Transformationsmatrixerzeugungsvorrichtung und einem in der 2 dargestellten Ausführungsbeispiel einer Spracherkennungsvorrichtung mit Referenztransformationsmitteln beschrieben, wobei die Erfindung nicht auf diese Ausführungsbeispiele beschränkt zu sehen ist, sondern durch die beigefügten unabhängigen Ansprüche definiert ist. Es zeigen:
1 schematisch in Form eines Blockschaltbilds einen Computer mit dem eine Referenzermittlungssoftware abgearbeitet wird und der hierbei eine Transformationsmatrixerzeugungsvorrichtung zum Erzeugen von Transformationsmatrizen bildet; und
2 schematisch in Form eines Blockschaltbilds einen Computer mit dem eine Spracherkennungssoftware abgearbeitet wird und der hierbei eine Spracherkennungsvorrichtung mit Referenztransformationsmitteln bildet.
1 zeigt einen Computer, in dessen Hauptspeicher ein erstes Computerprogrammprodukt ladbar ist, das Softwarecodeabschnitte umfasst und durch eine Referenzermittlungssoftware gebildet ist. Wenn der Computer die Referenzermittlungssoftware abarbeitet, dann bildet der Computer eine Transformationsmatrixerzeugungsvorrichtung 1 und arbeitet entsprechend einem Referenzermittlungsverfahren. Bei dem Referenzermittlungsverfahren werden einerseits Referenzinformationen RI für drei unterschiedliche typische Empfangskanäle ermittelt und andererseits werden Transformationsmatrizen T1-2, T1-3 und T2-3 zur Transformation der ermittelten Referenzinformation RI eines der typischen Empfangskanäle in die ermittelte Referenzinformation RI eines anderen der typischen Empfangskanäle ermittelt.
Hierbei wird eine erste Referenzinformation RI1 für einen ersten typischen Empfangskanal 2 ermittelt, der durch zehn unterschiedliche Mikrofone 3-1 bis 3-10 nachgebildet wird. Ferner wird eine zweite Referenzinformation RI2 für einen zweiten typi schen Empfangskanal 4 ermittelt, der durch zehn unterschiedliche Telefone 5-1 bis 5-10 und Telefonleitungen nachgebildet wird. Zusätzlich wird eine dritte Referenzinformation RI3 für einen dritten typischen Empfangskanal 6 ermittelt, der durch zehn unterschiedliche digitale Diktiergeräte 7-1 bis 7-10 nachgebildet wird. Jeder dieser typischen Empfangskanäle 2, 4 und 6 weist eine unterschiedliche Übertragungseigenschaft für eine von einem Benutzer in eines der Mikrofone 3, eines der Telefone 5 oder eines der digitalen Diktiergeräte 6 gesprochenen Sprachinformation SI auf, weshalb die der Transformationsmatrixerzeugungsvorrichtung 1 zugeführte Sprachinformation SI durch den jeweils verwendeten Empfangskanal 2, 4 oder 6 gefärbt ist.
Die Färbung der Sprachinformation SI durch den jeweiligen Empfangskanal 2, 4 oder 6 wird dadurch bewirkt, dass Frequenzen der Sprachinformation SI über den ersten Empfangskanal 2 bis zu 8 kHz, über den zweiten Empfangskanal 4 bis zu 3,7 kHz und über den dritten Empfangskanal 6 bis zu 4 kHz übertragen werden und höherfrequente Anteile der Sprachinformation SI nicht übertragen werden. Zusätzlich wird die Sprachinformation SI durch den jeweiligen Empfangskanal 2, 4 oder 6 gefärbt, da einzelne Frequenzanteile der übertragenen Sprachinformation SI durch den jeweiligen Empfangskanal unterschiedlich stark gedämpft werden.
Die mit der Transformationsmatrixerzeugungsvorrichtung 1 erzeugte erste Referenzinformation RI1 des ersten typischen Empfangskanals 2 und die ermittelten Transformationsmatrizen T1-2, T1-3 und T2-3 sind ein Teil einer Spracherkennungssoftware, die ein zweites Computerprogrammprodukt bildet und die von einem in einer 2 dargestellten Computer abgearbeitet wird. Wenn der Computer die Spracherkennungssoftware abarbeitet, dann bildet der Computer eine Spracherkennungsvorrichtung 8 und arbeitet entsprechend einem Spracherkennungsverfahren zum Erkennen einer Textinformation TI, die einer der Spracherkennungsvorrichtung 8 zugeführten Sprachinformation SI zuzuordnenden ist. Hierbei wird von der Spracherkennungsvorrichtung 8 die erste, zweite oder dritte Referenzinformation RI ausgewertet.
Die in der von einem Benutzer gesprochenen Sprachinformation SI enthaltene akustische Information ist mit ca. 40 Phonemen beschreibbar, wie dies seit langem bekannt ist. Die Spracherkennungsvorrichtung 8 erkennt die einer empfangenen Sprachinformation SI zuzuordnende Textinformation TI unter anderem dadurch, dass ermittelt wird, welche der 40 Phoneme in welcher Reihenfolge in der Sprachinformation SI enthalten sind. Die akustische Information jedes in der Sprachinformation SI enthaltenen Phonems wird aber von dem durch den Benutzer zur Eingabe der Sprachinformation SI gewählten Eingabegerät bzw. Empfangskanal 2, 4 oder 6 gefärbt. Um eine hohe Erkennungsrate der Spracherkennungsvorrichtung 8 zu erhalten ist es nötig, dass die Spracherkennungsvorrichtung 8 bei der Abarbeitung des Spracherkennungsverfahrens die jeweilige für den von dem Benutzer gewählten Empfangskanal 2, 4 oder 6 ermittelte erste, zweite oder dritte Referenzinformation RI auswertet, um der Färbung der Sprachinformation SI durch den jeweiligen Empfangskanal 2, 4 oder 6 entsprechend Rechnung zu tragen.
Jeder Benutzer spricht ein Wort und dessen Phoneme etwas unterschiedlich aus, weshalb die akustische Information jedes in der Sprachinformation SI enthaltenen Phonems auch von dem tatsächlichen Benutzer der Spracherkennungsvorrichtung 8 abhängig ist. Die erste, zweite oder dritte Referenzinformation RI wird daher zur Erreichung einer besonders hohen Erkennungsrate der Spracherkennungsvorrichtung 8 durch Benutzeranpassungsmittel auch an den jeweiligen Benutzer angepasst, worauf nachfolgend näher eingegangen.
Die Transformationsmatrixerzeugungsvorrichtung 1 weist einen ersten Audioanschluss 9, einen zweiten Audioanschluss 10 und einen dritten Audioanschluss 11 auf. Dem ersten Audioanschluss 9 und dem zweiten Audioanschluss 10 der Transformationsmatrixerzeugungsvorrichtung 1 kann ein analoges Audiosignal AS zugeführt werden, das eine Sprachinformation SI enthält. Dem dritten Audioanschluss 11 der Transformationsmatrixerzeugungsvorrichtung 1 können digitale Audiodaten AD zugeführt werden, die ebenfalls in einer Sprachinformation SI enthalten sind.
Die Transformationsmatrixerzeugungsvorrichtung 1 weist einen ersten A/D-Umsetzer 12 und einen zweiten A/D-Umsetzer 13 auf, um an den ersten Audioanschluss 9 und den zweiten Audioanschluss 10 abgegebene Audiosignale AS zu digitalisieren. Die in dem analogen Audiosignal AS enthaltene Sprachinformation SI ist von dem ersten A/D-Umsetzer 12 und von dem zweiten A/D-Umsetzer 13 als digitale Audiodaten AD abgebbar.
Die Transformationsmatrixerzeugungsvorrichtung 1 weist ferner Analysemittel 14 auf, denen von dem ersten A/D-Umsetzer 12 und von dem zweiten A/D-Umsetzer 13 abgegebene Audiodaten AD und von dem dritten Audioanschluss 11 abgegebene Audiodaten AD zugeführt werden können. Die Analysemittel 14 werden zum Analysieren der in den zugeführten Audiodaten AD enthaltenen Sprachinformation SI und zum Ermitteln der die Färbung jedes der 40 Phoneme durch den jeweiligen Empfangskanal 2, 4, oder 6 kennzeichnenden Referenzinformation RI benutzt.
Hierfür ermitteln die Analysemittel 14 alle 10 Millisekunden einen 32 Komponenten aufweisenden Featurevektor. 16 der 32 Komponenten des Featurevektores beschreiben die Amplitudenwerte der Sprachinformation SI in 16 Frequenzteilbereichen des gesamten von dem jeweiligen Empfangskanal übertragenen Frequenzbereichs. Die restlichen 16 der 32 Komponenten des Featurevektores beschreiben die zeitliche Änderung der 16 Amplitudenwerte. Jedes der 40 Phoneme kann durch einen solchen 32 Komponenten aufweisenden Featurevektor beschrieben werden. Um den Unterschieden der akustischen Information eines Phonems in unterschiedlichen Umgebungen (benachbarte Phoneme) Rechnung zu tragen, wird jedes der 40 Phoneme durch 400 typische Muster des 32 Komponenten aufweisenden Featurevektors des Phonems beschrieben.
Von den Analysemitteln 14 werden somit als Ergebnis der Analyse einer großen Anzahl von der Transformationsmatrixerzeugungsvorrichtung 1 über den ersten Empfangskanal 2 zugeführten Audiodaten AD für jedes der 40 Phoneme 400 typische Muster der 32 Komponenten aufweisenden Featurevektoren als erste Referenzinformation RI1 ermittelt. Es werden somit von den Analysemitteln 14 insgesamt 400 × 32 × 40 = 512.000 Zahlenwerte als erste Referenzinformation RI1 zur Kennzeichnung der durch den ersten Empfangskanal 2 gefärbten 40 Phoneme ermittelt. Ebenso viele Zahlenwerte werden von den Analysemitteln 14 auch als zweite Referenzinformation RI2 zur Kennzeichnung der durch den zweiten Empfangskanal 4 gefärbten 40 Phoneme und als dritte Referenzinformation RI3 zur Kennzeichnung der durch den dritten Empfangskanal 6 gefärbten 40 Phoneme ermittelt.
Von der Transformationsmatrixerzeugungsvorrichtung 1 werden Referenzinformationen RI ermittelt, die weitgehend von der Art der Aussprache von Wörtern durch einzelne Sprecher unabhängig sind und auch als sprecherunabhängige Referenzinformationen RI bezeichnet werden. Hierfür sprechen bei dem Referenzermittlungsverfahren eine Vielzahl von Benutzern einen vorgegebenen Text in die Eingabegeräte 3, 5 und 7, um die Unterschiede der einzelnen Sprecher statistisch zu mitteln, wie dies allgemein bekannt ist. Hierauf wird anhand eines Anwendungsbeispiels der Transformationsmatrixerzeugungsvorrichtung 1 nachfolgend näher eingegangen.
Die Transformationsmatrixerzeugungsvorrichtung 1 weist ferner erste Referenzspeichermittel 15 zum Speichern der ersten Referenzinformation RI1, zweite Referenzspeichermittel 16 zum Speichern der zweiten Referenzinformation RI2 und dritte Referenzspeichermittel 17 zum Speichern der dritten Referenzinformation RI3 auf. Die Transforma tionsmatrixerzeugungsvorrichtung 1 weist nunmehr weiterhin Transformationsmatrixerzeugungsmittel 18 auf, die zum Auslesen der in den Referenzspeichermitteln 15, 16 und 17 gespeicherten Referenzinformationen RI und zum Vergleichen der 32 komponentigen Featurevektoren benutzt werden. Als Ergebnis des Vergleichs der Transformationsmatrixerzeugungsmittel 18 sind von den Transformationsmatrixerzeugungsmitteln 18 die Transformationsmatrizen T1-2, T1-3 und T2-3 ermittelbar, die 32 Reihen und 32 Spalten zur Abbildung der 32 komponentigen Featurevektoren aufweisen.
Die von den Transformationsmatrixerzeugungsmitteln 18 ermittelten Transformationsmatrizen T1-2, T1-3 und T2-3 haben die Eigenschaft, dass aus einer in den Referenzspeichermitteln 15, 16 und 17 gespeicherten Referenzinformation RI1, RI2 und RI3 mit zwei dieser drei Transformationsmatrizen T1-2, T1-3 und T2-3 jeweils die anderen beiden in den Referenzspeichermitteln gespeicherte Referenzinformationen RI1, RI2 und RI3 ermittelt werden können. Hierbei kann beispielsweise durch Anwendung der Transformationsmatrix T1-2 auf die in den ersten Referenzspeichermitteln 15 gespeicherte erste Referenzinformation RI1 die in den zweiten Referenzspeichermitteln 16 gespeicherte zweite Referenzinformation RI2 berechnet werden. Für den Fachmann ist durch diese Beschreibung der Eigenschaft der Transformationsmatrix T1-2 die Ermittlung der Transformationsmatrix T1-2 durch die Transformationsmatrixerzeugungsmittel 18 ausreichend beschrieben. Die von den Transformationsmatrixerzeugungsmitteln 18 ermittelten Transformationsmatrizen T1-2, T1-3 und T2-3 können in Referenztransformationsmitteln 19 der Transformationsmatrixerzeugungsvorrichtung 1 gespeichert werden.
Im Folgenden ist anhand eines Anwendungsbeispiels der Transformationsmatrixerzeugungsvorrichtung 1 gemäß 1 die Erzeugung der Transformationsmatrizen T1-2, T1-3 und T2-3 näher erläutert. Das Referenzermittlungsverfahren wird mit dem Computer einer Firma abgearbeitet, die die Spracherkennungssoftware für die Spracherkennungsvorrichtung 8 entwickelt. Die Firma möchte Referenzinformationen RI ermitteln, die bereits an typische Eingabegeräte für die Spracherkennungsvorrichtung 8, also an Mikrofone 3, an Telefone 5 und an digitale Diktiergeräte 7, angepasst sind. Ferner sollen die Referenzinformationen RI und die Transformationsmatrizen T1-2, T1-3 und T2-3 für die deutsche Sprache ermittelt werden.
Hierfür lädt die Firma innerhalb mehrerer Wochen insgesamt 100 deutschsprachige Sprecher ein, die während einer Stunde einen Text vorlesen und auch als so genannte Referenzsprecher bezeichnet werden. Die hierbei von den ersten zehn Sprechern abgegebene Sprachinformation SI wird dem Mikrofon 3-1, dem Telefon 5-1 und dem digitalen Diktiergerät 7-1 zugeführt, die von den nächsten zehn Sprechern abgegebene Sprachinformation SI wird dem Mikrofon 3-2, dem Telefon 5-2 und dem digitalen Diktiergerät 7-2 zugeführt und die von den jeweils weiteren zehn Sprechern abgegebene Sprachinformation SI wird jeweils den weiteren Mikrofonen 3-3 bis 3-10, den jeweils weiteren Telefonen 5-3 bis 5-10 und den jeweils weiteren digitalen Diktiergeräten 7-3 bis 7-10 zugeführt.
Da jedes dieser zehn Eingabegeräte der Empfangskanäle 2, 4 und 6 eine etwas unterschiedliche Übertragungseigenschaft besitzt, werden den Analysemitteln 14 Audiodaten AD zugeführt, die für die Empfangskanäle 2, 4 und 6 typisch sind. Hierdurch erhält man den Vorteil, dass von der Transformationsmatrixerzeugungsvorrichtung 1 für typische Eingabegeräte Referenzinformationen RI ermittelbar sind. Durch die große Anzahl an Sprechern und die große Datenmenge in den den Analysemitteln 14 zugeführten Audiodaten AD ermitteln die Analysemitteln 14 an den jeweiligen Empfangskanal 2, 4 oder 6 angepasste sprecherunabhängige Referenzinformationen RI1, RI2 und RI3.
Hierfür ermitteln die Analysemittel 14, wie vorstehend beschrieben, den zeitlichen Verlauf des 32 komponentigen Featurevektores für die von den unterschiedlichen Empfangskanälen 2, 4 und 6 zugeführten Audiodaten AD. Hierbei legen die Analysemittel 14 die 16 Frequenzteilbereiche des Featurevektores für die Empfangskanäle 2, 4 und 6 so fest, dass der in dem jeweiligen Empfangskanal übertragene Frequenzbereich durch den Featurevektor optimal beschrieben wird. So wird beispielsweise der in dem ersten Empfangskanal 2 von bis zu 8 kHz übertragene Frequenzbereich durch 8.000 Hz/16 = 500 Hz Frequenzteilbereiche (0 bis 500 Hz, 500 Hz bis 1.000 Hz ... 7.500 Hz bis 8.000 Hz) beschrieben und der in dem dritten Empfangskanal 6 von bis zu 4 kHz übertragene Frequenzbereich durch 4.000 Hz/16 = 250 Hz Frequenzteilbereiche (0 bis 250 Hz, 250 Hz bis 500 Hz ... 3.750 Hz bis 4.000 Hz) beschrieben.
Hierdurch erhält man den Vorteil, dass jeder der 32 komponentige Featurevektoren einen Frequenzteilbereich beschreibt, in dem tatsächlich Audiodaten AD von dem jeweiligen Empfangskanal 2, 4 oder 6 empfangenen werden. Es wird somit vorteilhafterweise vermieden, dass beispielsweise über den dritten Empfangskanal 6 empfangene Audiodaten AD, die Sprachinformation SI in dem Frequenzbereich bis 4 kHz enthalten, durch 8 Komponenten des Featurevektors in Frequenzteilbereichen von 4 kHz bis 8 kHz beschrieben werden, in denen überhaupt keine Sprachinformation SI enthalten ist.
Die von den Analysemitteln 14 für die drei Empfangskanäle 2, 4 und 6 er mittelten Referenzinformationen RI1, RI2 und RI3 werden in den Referenzspeichermitteln 15, 16 und 17 gespeichert. Die Transformationsmatrixerzeugungsmittel 18 berechnen hierauf die Transformationsmatrizen T1-2, T1-3 und T2-3, wie dies vorstehend beschrieben wurde. Zusätzlich sei erwähnt, dass mehrere Komponenten des Featurevektors eines Phonems einer der Referenzinformationen RI1, RI2 und RI3 bei der Transformation mit einer der Transformationsmatrizen T1-2, T1-3 und T2-3 das Ergebnis einer Komponente der Featurevektoren dieses Phonems der transformierten Referenzinformation RI1, RI2 und RI3 beeinflussen, weshalb die Transformationsmatrizen T1-2, T1-3 und T2-3 auch außerhalb der Diagonale der Transformationsmatrizen T1-2, T1-3 und T2-3 Zahlenwerte enthalten. So beeinflussen beispielsweise die beiden den Frequenzteilbereich von 0 bis 250 Hz und von 250 Hz bis 500 Hz beschreibenden Komponenten der 400 Muster der Featurevektoren eines Phonems der dritten Referenzinformation RI3 bei der Transformation mit der Transformationsmatrix T1-3 die den Frequenzteilbereich 0 Hz bis 500 Hz beschreibende Komponente des Featurevektors dieses Phonems der ersten Referenzinformation RI1.
Durch die Ermittlung der 32 Zeilen und 32 Spalten – also insgesamt je 1024 Zahlenwerte – aufweisenden Transformationsmatrizen T1-2, T1-3 und T2-3 erhält man den Vorteil, dass in der Spracherkennungssoftware nur die 512.000 Zahlenwerte aufweisende Referenzinformation RI eines Empfangskanals und die nur je 1024 Zahlenwerte aufweisenden Transformationsmatrizen T1-2, T1-3 und T2-3 gespeichert werden müssen, um Referenzinformationen RI für jeden der drei Empfangskanäle 2, 4 und 6 für die Abarbeitung des Spracherkennungsverfahrens durch die Spracherkennungsvorrichtung 8 zur Verfügung zu haben. Die Spracherkennungssoftware benötigt daher vorteilhafterweise relativ wenig Speicherplatz des Computers.
Zusätzlich kann mit den Transformationsmatrizen T1-2, T1-3 und T2-3 auch die bereits an einen Benutzer der Spracherkennungsvorrichtung 8 angepasste Referenzinformation RI eines Empfangskanals 2, 4 oder 6 unmittelbar für einen der anderen Empfangskanäle 2, 4 oder 6 nutzbar gemacht werden, was sehr vorteilhaft ist. Hierauf wird bei der nachfolgenden Beschreibung der Spracherkennungsvorrichtung 8 näher eingegangen.
Es kann erwähnt werden, dass Analysemittel einer Matrixerzeugnisvorrichtung auch nur die Referenzinformation RI1 für den ersten Empfangskanal 2 ermitteln und in den ersten Referenzspeichermitteln 15 speichern könnten. Diese Analysemittel könnten dann unmittelbar die Audiodaten AD von gleichen Textteilen, die aber über unterschiedliche Empfangskanäle empfangen wurden, vergleichen, um eine nur geringe Anzahl an Refe renzinformationen RI abzugeben, die ausschließlich Unterschiede zu der gespeicherten ersten Referenzinformation RI1 kennzeichnen. Transformationsmatrixerzeugungsmittel dieser Transformationsmatrixerzeugungsvorrichtung könnten aus diesen Referenzinformationen RI unmittelbar entsprechende Transformationsmatrizen T1-2, T1-3 und T2-3 ermitteln. Dies hätte den Vorteil, dass auf das Ermitteln der gesamten 512.000 Zahlenwerte der zweiten Referenzinformation RI2 und das Ermitteln der gesamten 512.000 Zahlenwerte der dritten Referenzinformation RI3 verzichtet werden könnte.
Es kann erwähnt werden, dass auch eine andere Anzahl an Komponenten eines Featurevektors von den Analysemitteln 14 zur Beschreibung der in den Audiodaten AD enthaltenen Phoneme der Sprachinformation SI festgelegt werden kann. So könnte die Sprachinformation SI in dem über den jeweiligen Empfangskanal 2, 4 oder 6 übertragenen Frequenzbereich auch nur in 8 oder aber auch in 64 Frequenzteilbereiche aufgeteilt durch eine oder zwei Komponenten des Featurevektors je Frequenzteilbereich beschrieben werden.
Es kann erwähnt werden, dass der in einem Empfangskanal übertragene Frequenzbereich nicht wie vorstehend beschrieben gleichmäßig in Frequenzteilbereiche aufgeteilt werden muss. Es ist vorteilhaft für Frequenzteilbereiche mit niedrigeren Centerfrequenzen des Frequenzteilbereichs eine kleinere Frequenzspanne vorzusehen, da auch das menschliche Gehör für niedrigere Frequenzen empfindlicher ist. So könnten beispielsweise folgende Mittenfrequenzen für Frequenzteilbereiche nach folgender Vorschrift festgelegt werden: Mittenfrequenz des nächsten Frequenzteilbereichs = Mittenfrequenz des Frequenzteilbereichs × 1,5. Beispielsweise wären daher folgende Mittenfrequenzen beginnend mit einer Mittenfrequenz von 100 Hz zu ermitteln: 100 Hz, 150 Hz, 225 Hz, 338 Hz, 506 Hz ... (erster Frequenzteilbereich: 75 Hz bis 125 Hz = 50 Hz Frequenzspanne; vierte Frequenzteilbereich: 282 Hz bis 422 Hz = 140 Hz Frequenzspanne).
Im Folgenden wird nunmehr der Aufbau und die Funktionsweise der Spracherkennungsvorrichtung 8 näher erläutert. Der Spracherkennungsvorrichtung 8 kann über ein Mikrofon 20, das einen ersten Empfangskanal 21 bildet, eine von einem Benutzer gesprochene Sprachinformation SI an einem ersten Audioanschluss 22 zugeführt werden. Ferner kann der Spracherkennungsvorrichtung 8 an einem zweiten Audioanschluss 23 eine Sprachinformation SI zugeführt werden, die ein Benutzer in ein Telefon 24 gesprochen hat, das samt den Telefonleitungen des Telefonnetzes bis zu dem zweiten Audioanschluss 23 einen zweiten Empfangskanal 25 bildet. Schließlich kann der Spracherkennungsvorrichtung 8 an einem dritten Audioanschluss 26 die Sprachinformation SI eines Benutzers zugeführt werden, die der Benutzer in ein digitales Diktiergerät 27 gesprochen und mit diesem aufgezeichnet hat. Die Färbung der Sprachinformation SI bei der Aufzeichnung und anschließenden Wiedergabe durch das digitale Diktiergerät 27 bildet hierbei die Übertragungseigenschaft eines dritten Empfangskanals 28.
Die Spracherkennungsvorrichtung 8 weist Spracherkennungsmittel 29 auf, die Analysemittel 30 und Erkennermittel 31 enthalten. Die Spracherkennungsmittel 29 sind zum Erkennen einer der zugeführten Sprachinformation SI zuzuordnenden Textinformation TI ausgebildet. Die von den Spracherkennungsmitteln 29 ermittelte Textinformation TI ist über einen Monitoranschluss 32 an einen Monitor 33 abgebbar und mit diesem darstellbar.
Eine der Spracherkennungsvorrichtung 8 als Audiosignal AS an dem ersten Audioanschluss 22 zugeführte Sprachinformation SI ist über einen ersten A/D-Umsetzer 34 den Analysemitteln 30 als digitale Audiodaten AD zuführbar. Ebenso ist die der Spracherkennungsvorrichtung 8 als Audiosignal AS an dem zweiten Audioanschluss 23 zugeführte Sprachinformation SI über einen zweiten A/D-Umsetzer 35 den Analysemitteln 30 als digitale Audiodaten AD zuführbar. Ferner sind den Analysemitteln 30 die der Spracherkennungsvorrichtung 8 an dem dritten Audioanschluss 26 zugeführten Audiodaten AD unmittelbar zuführbar.
Die Analysemittel 30 sind nunmehr zum Detektieren ausgebildet, von welchem der drei Audioanschlüsse 22, 23 oder 26 die Sprachinformation SI empfangen wird und bilden hierbei Kanaldetektionsmittel. Von den Analysemitteln 30 kann eine Kanaldetektionsinformation KDI erzeugt werden, die kennzeichnet, ob der Benutzer die Sprachinformation SI über das Mikrofon 20, das Telefon 24 oder das digitale Diktiergerät 27 an die Spracherkennungsvorrichtung 8 abgegeben hat.
Hierdurch erhält man den Vorteil, dass die Spracherkennungsvorrichtung 8, die jeweils für den von dem Benutzer gewählten Empfangskanal 21, 25 oder 28 geeignete Referenzinformation RI bei der Abarbeitung des Spracherkennungsverfahrens verwendet. Hierauf wird anhand eines Anwendungsbeispiels der Spracherkennungsvorrichtung 8 nachfolgend noch näher eingegangen.
Die Analysemittel 30 sind ferner, wie die vorstehend beschriebenen Analysemittel 14 der Transformationsmatrixerzeugungsvorrichtung 1, zum Analysieren der an sie abgegebenen Audiodaten AD und alle 10 Millisekunden zum Abgeben eines 32 Komponenten aufweisenden Featurevektors FV ausgebildet, der die in diesen Audiodaten AD ent haltene Sprachinformation SI beschreibt. Vorteilhafterweise legen die Analysemittel 30 die 16 Frequenzteilbereiche des Featurevektors FV in Abhängigkeit von der ermittelten Kanalidentifikationsinformation KDI fest. Es werden also beispielsweise für über den dritten Empfangskanal 28 empfangene Audiodaten AD 32 Komponenten des Featurevektors aus 16 Frequenzteilbereichen mit einem Frequenzbereich von je 250 Hz festgelegt, wie dies vorstehend beschrieben wurde. Der von den Analysemitteln 30 ermittelte Featurevektor FV kann den Erkennermittel 31 zugeführt werden.
Die Erkennermittel 31 sind zum Abarbeiten eines Spracherkennungsverfahrens ausgebildet, wie dies beispielsweise aus dem Dokument WO99/35640 bekannt ist. Bei der Abarbeitung des Spracherkennungsverfahrens werden in Referenzspeichermitteln der Spracherkennungsvorrichtung 8 gespeicherte an den tatsächlichen Benutzer und den tatsächlich verwendeten Empfangskanal 21, 25 oder 28 angepasste Referenzinformationen RI von den Erkennermitteln 31 ausgewertet. Die an typische Empfangskanäle angepasste gespeicherte Referenzinformationen werden bei der Abarbeitung eines Trainingsverfahrens durch die Spracherkennungsvorrichtung 8 an den tatsächlichen Benutzer der Spracherkennungsvorrichtung 8 angepasst.
Zum Anpassen der mit der Transformationsmatrixerzeugungsvorrichtung 1 ermittelten und in Referenzspeichermitteln 36 gespeicherten ersten Referenzinformation RI1 des ersten typischen Empfangskanals 2 weist die Spracherkennungsvorrichtung 8 Benutzeranpassungsmittel 37 auf. Die Benutzeranpassungsmittel 37 enthalten die mit der Transformationsmatrixerzeugungsvorrichtung 1 erzeugte erste Transformationsmatrix T1-2, zum Transformieren der ersten Referenzinformationen RI1 in die zweite Referenzinformation RI2, und die zweite Transformationsmatrix T1-3, zum Transformieren der ersten Referenzinformation RI1 in die dritte Referenzinformation RI3.
Einem ersten Schalter 38 können die erste Referenzinformation RI1 von den Referenzspeichermitteln 36, die mit der ersten Transformationsmatrix T1-2 ermittelte zweite Referenzinformation RI2 und die mit der zweiten Transformationsmatrix T1-3 ermittelte dritte Referenzinformation RI3 zugeführt werden. Dem ersten Schalter 38 ist ferner von den Analysemitteln 30 die Kanaldetektionsinformation KDI zuführbar. Von dem ersten Schalter 38 ist je nach zugeführter Kanaldetektionsinformation KDI eine der drei Referenzinformation RI1, RI2 oder RI3 an Vergleichsmittel 39 der Benutzeranpassungsmittel 37 abgebbar. Die Analysemittel 30 und der erste Schalter 38 bilden hierbei Empfangskanalanpassungsmittel zum Anpassen der gespeicherten Referenzinformation RI an den von dem Benutzer gewählten Empfangskanal 21, 25 oder 28.
Den Vergleichsmitteln 39 ist von den Analysemitteln 30 alle 10 Millisekunden der Featurevektor FV der Audiodaten AD zuführbar, die bei der Abarbeitung des Trainingsverfahrens der Spracherkennungsvorrichtung 8 zugeführt und mit den Analysemitteln 30 analysiert wurden. Die Vergleichsmittel 39 sind bei der Abarbeitung des Trainingsverfahrens zum Vergleichen der ihr zugeführten Featurevektoren FV einzelner Phoneme mit den 400 typischen Mustern der Featurevektoren von Phonemen der ihr zugeführten Referenzinformation RI ausgebildet. Ergebnisse des Vergleichs der Featurevektoren FV werden zum Anpassen der Referenzinformation RI an die jeweilige Eigenart der Aussprache des tatsächlichen Benutzers der Spracherkennungsvorrichtung 8 ausgewertet.
Die von den Benutzeranpassungsmitteln 37 an den Benutzer angepasste Referenzinformation ARI ist je nach dem für die Anpassung der Referenzinformation RI an den Benutzer von dem Benutzer gewählten Empfangskanal 21, 25 oder 28 über einen zweiten Schalter 40 in ersten angepassten Referenzspeichermitteln 41, zweiten angepassten Referenzspeichermitteln 42 oder dritten angepassten Referenzspeichermitteln 43 speicherbar. Die angepassten Referenzspeichermittel 41, 42 und 43 bilden hierbei Referenzspeichermittel zum Speichern der an den tatsächlichen Benutzer der Spracherkennungsvorrichtung 8 und an je einen der Empfangskanäle 21, 25 und 28 angepassten Referenzinformation ARI. Zur Weiterleitung der an den Benutzer und an einen der Empfangskanäle 21, 25 und 28 angepassten Referenzinformation ARI an die jeweils richtigen angepassten Referenzspeichermittel 41, 42 oder 43 ist dem zweiten Schalter 40 die Kanalidentifikationsinformation KDI von den Analysemitteln 30 zuführbar.
Die bei der Abarbeitung des Trainingsverfahrens für einen der Empfangskanäle 21, 25 oder 28 und den Benutzer angepasste und in einem der angepassten Referenzspeichermittel 41, 42 oder 43 gespeicherte angepasste Referenzinformation ARI1, ARI2 oder ARI3 ist mittels der mit der Transformationsmatrixerzeugungsvorrichtung 1 erzeugten Transformationsmatrizen T1-2, T1-3 und T2-3 in die jeweils anderen an den Benutzer angepassten Referenzinformationen ARI1, ARI2 oder ARI3 transformierbar und in den anderen angepassten Referenzspeichermitteln 41, 42 oder 43 speicherbar. Die Transformationsmatrizen T1-2, T1-3 und T2-3 bilden hierbei Referenztransformationsmittel zum Transformieren der angepassten Referenzinformation ARI.
Die Spracherkennungsvorrichtung 8 weist einen dritten Schalter 44 auf, dem ebenfalls die Kanaldetektionsinformation KDI zuführbar ist, und über den bei der Abarbei tung des Spracherkennungsverfahrens durch die Erkennermittel 31 die an den Benutzer und an den von dem Benutzer verwendeten Empfangskanal 21, 25 oder 28 angepasste Referenzinformation ARI an die Erkennermittel 31 abgebbar ist. Die Analysemittel 30 und der dritte Schalter 44 bilden hierbei Empfangskanalanpassungsmittel zum Anpassen der gespeicherten Referenzinformation ARI an den von dem Benutzer gewählten Empfangskanal 21, 25 oder 28.
Im Folgenden wird anhand eines Anwendungsbeispiels der Abarbeitung des Trainingsverfahrens mit der Spracherkennungsvorrichtung 8 das Anpassen der mit der Transformationsmatrixerzeugungsvorrichtung 1 ermittelten sprecherunabhängigen Referenzinformation RI an den tatsächlichen Benutzer der Spracherkennungsvorrichtung 8 angepasste Referenzinformation ARI näher erläutert. Gemäß dem Anwendungsbeispiel wird angenommen, dass Herr Müller die Spracherkennungsvorrichtung 8 erstmals zum Diktieren von Texten verwenden möchte. Um die Erkennungsrate der Spracherkennungsvorrichtung 8 zu verbessern, wird in dem Handbuch der Spracherkennungsvorrichtung 8 geraten, die Spracherkennungsvorrichtung 8 an den Benutzer anzupassen.
Herr Müller aktiviert hierauf das Trainingsverfahren der Spracherkennungsvorrichtung 8 und spricht einen in dem Handbuch vorgegebenen Trainingstext, der ebenfalls in den Vergleichsmitteln 39 gespeichert ist, in das Mikrofon 20. Die Sprachinformation SI des gesprochenen Trainingstexts gelangt über den ersten Audioanschluss 22 und den ersten A/D-Umsetzer 34 in die Analysemittel 30, welche entsprechende Featurevektoren FV an die Vergleichsmittel 39 abgeben. Die Analysemittel 30 geben ferner die den ersten Empfangskanal 21 kennzeichnende Kanaldetektionsinformation KDI an den ersten Schalter 38 ab, worauf der erste Schalter 38 die Vergleichsmittel 39 mit den ersten Referenzspeichermitteln 36 verbindet.
In den ersten Referenzspeichermitteln 36 ist die von den Transformationsmatrixerzeugungsmitteln 1 für einen typischen Mikrofon-Empfangskanal – also den ersten Empfangskanal 2 – angepasste erste Referenzinformation RI1 gespeichert. Die Vergleichsmittel 39 ermitteln anhand der von den Analysemittel 30 ermittelten Featurevektoren FV und dem den Vergleichsmitteln 39 bekannten Trainingstext, die Art der Aussprache jedes Phonems durch Herrn Müller und passen die erste Referenzinformation RI1 entsprechend an Herrn Müller an. Die von den Vergleichsmitteln 39 ermittelte an Herrn Müller und den ersten Empfangskanal 21 angepasste erste angepasste Referenzinformation ARI1 wird hierauf über den zweiten Schalter 40 in den ersten angepassten Referenzspeichermit teln 41 gespeichert.
Als Abschluss des Trainingsverfahrens wird die erste angepasste Referenzinformation ARI1 mit der ersten Transformationsmatrix T1-2 in die an den zweiten Empfangskanal 25 und Herrn Müller angepasste zweite angepasste Referenzinformation ARI2 transformiert und in den zweiten angepassten Referenzspeichermitteln 42 gespeichert. Ebenso wird mittels der zweiten Transformationsmatrix T1-3 die an den dritten Empfangskanal 28 und Herrn Müller angepasste dritte angepasste Referenzinformation ARI3 ermittelt und in den dritten angepassten Referenzspeichermitteln 43 gespeichert.
Durch das vorstehend beschriebene Trainingsverfahren erhält man den Vorteil, dass der Benutzer der Spracherkennungsvorrichtung 8 die Spracherkennungsvorrichtung 8 über einen der möglichen Empfangskanäle 21, 25 oder 28 an die Aussprache des Benutzers anpassen kann und hierbei auch die Referenzinformationen RI für die anderen Empfangskanäle 21, 25 oder 28 automatisch angepasst werden und auch für diese Empfangskanäle eine gute Erkennungsrate des Spracherkennungsverfahrens erzielt wird.
Es kann erwähnt werden, dass Herr Müller das Trainingsverfahren auch von einem anderen Ort aus mit dem Telefon 24 hätte durchführen können. In diesem Fall wären die von der ersten Referenzinformation RI1 mittels der ersten Transformationsmatrix T1-2 transformierte zweite Referenzinformation RI2 von den Vergleichsmitteln 39 angepasst und als angepasste zweite Referenzinformation ARI2 in den zweiten angepassten Referenzspeichermitteln 42 gespeichert worden. Die mit der ersten Transformationsmatrix T1-2 transformierte erste angepasste Referenzinformation ARI1 wäre hierauf in den ersten angepassten Referenzspeichermitteln 41 und die mit der dritten Transformationsmatrix T2-3 transformierte dritte angepasste Referenzinformation ARI3 wäre hierauf in den dritten angepassten Referenzspeichermitteln 43 gespeichert worden.
Hieraus ist der Vorteil ersichtlich, dass die Spracherkennungsvorrichtung 8 über einen beliebigen der Empfangskanäle 21, 25 und 28 trainiert und hierbei für sämtliche der Empfangskanäle an den Benutzer angepasst werden kann.
Im Folgenden werden anhand eines Anwendungsbeispiels der Abarbeitung des Spracherkennungsverfahrens mit der Spracherkennungsvorrichtung 8 die Vorteile der Spracherkennungsvorrichtung 8 näher erläutert. Gemäß dem Anwendungsbeispiel wird angenommen, dass Herr Müller auf Reisen ein Diktat mit dem digitalen Diktiergerät 27 aufgezeichnet hat. Wieder zu Hause angekommen steckt Herr Müller das Diktiergerät 27 an den dritten Audioanschluss 26 an, betätigt die Wiedergabetaste des Diktiergeräts 27 und aktiviert das Spracherkennungsverfahren der Spracherkennungsvorrichtung 8.
Die Analysemittel 30 geben hierauf entsprechende Featurevektoren FV an die Erkennermittel 31 und eine den dritten Empfangskanal 28 kennzeichnende Kanaldetektionsinformation KDI an den dritten Schalter 44 ab. Der dritte Schalter 44 verbindet hierauf die dritten angepassten Referenzspeichermittel 43 mit den Erkennermitteln 31. Die Erkennermittel 31 werten somit bei der Abarbeitung des Spracherkennungsverfahrens die an Herrn Müller und einen typischen Diktiergeräte-Empfangskanal angepasste Referenzinformation ARI3 aus und geben eine der Sprachinformation SI entsprechende Textinformation TI über den Monitoranschluss 32 an den Monitor 33 ab.
Hierdurch ist vorteilhafterweise erreicht, dass obwohl die Spracherkennungsvorrichtung 8 bei der Abarbeitung des Trainingsverfahrens mit dem Mikrofon 20 an Herrn Müller angepasst wurde, die Erkennungsrate des Spracherkennungsverfahrens bei einer mit dem Diktiergerät 27 von Herrn Müller eingegebenen Sprachinformation SI besonders hoch ist. Ebenso hat das Spracherkennungsverfahren eine hohe Erkennungsrate für mit dem Telefon 24 von Herrn Müller an den Computer abgegebene Befehle.
Es kann erwähnt werden, dass vergleichbar hohe Erkennungsraten ebenso bei sämtlichen anderen Kombinationen erreicht werden, wie beispielsweise, wenn die Spracherkennungsvorrichtung 8 mit dem zweiten Empfangskanal 25 trainiert wird und anschließend zum Erkennen einer der über den ersten Empfangskanal 21 empfangenen Sprachinformation SI zuzuordnenden Textinformation TI verwendet wird. Besonders vorteilhaft ist es jedoch die Spracherkennungsvorrichtung 8 mit dem Mikrofon 20 zu trainieren, da mit den meisten Mikrofonen die Sprachinformation SI in einem relativ großen Frequenzbereich (bis 8 kHz) übertragen wird. Es wäre somit auch möglich, bei den Benutzeranpassungsmitteln 37 auf die erste Transformationsmatrix T1-2 und die zweite Transformationsmatrix T1-3 zu verzichten und bei der Abarbeitung des Trainingsverfahrens die Eingabe der Sprachinformation SI des Trainingstextes durch den Benutzer über das Mikrofon 20 von dem Benutzer zu verlangen. In diesem Fall könnte auch auf die dritte Transformationsmatrix T2-3 zur Transformation der zweiten angepassten Referenzinformation ARI2 in die dritte angepasste Referenzinformation ARI3 und umgekehrt verzichtet werden.
Es kann erwähnt werden, dass von der Transformationsmatrixerzeugungsvorrichtung 1 auch Referenzinformationen für einen typischen Empfangskanal eines Mobiltelefons oder eines über ein digitales oder ein analoges Telefonnetz mit dem zweiten Audioanschluss 10 verbundenen Telefons 5 ermittelt werden könnten. Dem Fachmann ist eine Vielzahl weiterer möglicher typischer Empfangskanäle bekannt.
Es kann erwähnt werden, dass aus den Transformationsmatrizen T1-2, T1-3 und T2-3 auch inverse Transformationsmatrizen ermittelt werden könnten, mit denen die an die Analysemittel 30 abgegebenen Audiodaten AD vorverarbeitet werden könnten, bevor diese von den Analysemitteln 30 wie vorstehend beschrieben analysiert werden.
Es kann erwähnt werden, dass das Referenzermittlungsverfahren nicht unbedingt von einem Computer des Herstellers der Spracherkennungssoftware abgearbeitet werden muss, sondern auch Teil der Spracherkennungssoftware sein und auf dem Computer des Benutzers der Spracherkennungsvorrichtung abgearbeitet werden kann. Hierbei könnten bei der Abarbeitung des Spracherkennungsverfahrens durch die Erkennermittel ermittelte Informationen über den tatsächlich verwendeten Empfangskanal zur Anpassung der Referenzinformation und zur Ermittlung von Transformationsmatrizen oder inversen Transformationsmatrizen verwendet werden.

Claims

Spracherkennungsvorrichtung (8), der über einen ersten Empfangskanal (21) und einen zweiten Empfangskanal (25, 28) eine durch den jeweiligen Empfangskanal (21, 25, 28) gefärbte Sprachinformation (SI) zuführbar ist, mit Referenzspeichermitteln (36) zum Speichern einer die Art der Aussprache von Wörtern durch einer Mehrzahl von Referenzsprechern kennzeichnende Referenzinformation (RI1) und mit Empfangskanalanpassungsmitteln (30, 38, 44) zum Anpassen der gespeicherten Referenzinformation (RI, ARI) an den von einem Benutzer verwendeten ersten oder zweiten Empfangskanal (21, 25, 28) und mit Benutzeranpassungsmitteln (37) zum Anpassen der gespeicherten Referenzinformation (RI1, RI2, RI3) an die Art der Aussprache von Wörtern durch den Benutzer der Spracherkennungsvorrichtung (8) und mit Spracherkennungsmitteln (29) zum Erkennen einer der zugeführten Sprachinformation (SI) zuzuordnenden Textinformation (TI), wobei eine von den Empfangskanalanpassungsmitteln (30, 38, 44) und von den Benutzeranpassungsmittel (37) angepasste Referenzinformation (ARI1, ARI2, ARI3) ausgewertet wird, dadurch gekennzeichnet, dass die Empfangskanalanpassungsmittel (30, 38, 44) Referenztransformationsmittel (T1-2, T1-3, T2-3) enthalten, die zum Transformieren einer an den ersten Empfangskanal (21) angepassten ersten Referenzinformation (RI1, ARI1) in eine an den zweiten Empfangskanal (25, 28) angepasste zweite Referenzinformation (RI2, RI3, ARI2, ARI3) entsprechend einer Transformationsmatrix (T1-2, T1-3, T2-3) ausgebildet sind, wobei die von den Referenztransformationsmitteln (T1-2, T1-3, T2-3) zu transformierende angepasste erste Referenzinformation (RI1, ARI1) von den Benutzeranpassungsmitteln (37) bereits an den Benutzer angepasst wurde.
Spracherkennungsvorrichtung (8) gemäß Anspruch 1, dadurch gekennzeichnet, dass Kanaldetektionsmittel (30) vorgesehen sind, die zum Detektieren des von dem Benutzer zur Eingabe der Sprachinformation (SI) gewählten ersten Empfangskanals (21) oder zweiten Empfangskanals (25, 28) ausgebildet sind, und dass Auswahlmittel (44) vorgesehen sind, die zum Auswählen der an den gewählten ersten Empfangskanal (21) oder zweiten Empfangskanal (25, 28) angepassten ersten Referenzinformation (ARI1) oder zweiten Referenzinformation (ARI2, ARI3) zur Auswertung durch die Spracherkennungsmittel (29) ausgebildet sind.
Spracherkennungsvorrichtung (8) gemäß Anspruch 1, dadurch gekennzeichnet, dass die erste Referenzinformation (RI1, ARI1) und die zweite Referenzinformation (RI2, RI3, ARI2, ARI3) durch Featurevektoren (FV) gebildet sind, wobei je ein Featurevektor (FV) die Sprachinformation (SI) in je einem Frequenzteilbereich charakterisiert, und dass die Featurevektoren (FV) der ersten Referenzinformation (RI1, ARI1) die Sprachinformation (SI) in anderen Frequenzteilbereiche als die Featurevektoren (FV) der zweiten Referenzinformation (RI2, RI3, ARI2, ARI3) charakterisieren.
Spracherkennungsverfahren (8) zum Erkennen einer einer Sprachinformation (SI) zuzuordnenden Textinformation (TI), wobei die Sprachinformation (SI) durch einen ersten Empfangskanal (21) oder einen zweiten Empfangskanal (25, 28) gefärbt ist und wobei das Spracherkennungsverfahren (8) folgende Schritte enthält: Anpassen (30, 38, 44) einer die Art der Aussprache von Wörtern durch eine Mehrzahl von Referenzsprechern kennzeichnende Referenzinformation (RI1, RI2, RI3) an den von einem Benutzer verwendeten ersten oder zweiten Empfangskanal (21, 25, 28) und Anpassen (37) der Referenzinformation (RI1, RI2, RI3) an die Art der Aussprache von Wörtern durch den Benutzer des Spracherkennungsverfahrens und Erkennen der der Sprachinformation (SI) zuzuordnenden Textinformation (TI), wobei die an den ersten Empfangskanal (21) oder den zweiten Empfangskanal (25, 28) und an den Benutzer angepasste Referenzinformation (ARI1, ARI2, ARI3) ausgewertet wird, dadurch gekennzeichnet, dass eine an den ersten Empfangskanal (21) angepasste erste Referenzinformation (RI1, ARI1) in eine an den zweiten Empfangskanal (25, 28) angepasste zweite Referenzinformation (RI2, RI3, ARI2, ARI3) transformiert wird, wobei die zu transformierende angepasste erste Referenzinformation (RI1, ARI1) bereits an den Benutzer angepasst wurde.
Spracherkennungsverfahren (8) gemäß Anspruch 4, dadurch gekennzeichnet, dass detektiert (30) wird, welcher der Empfangskanäle (21, 25, 28) von dem Benutzer zur Eingabe der Sprachinformation (SI) gewählten wurde, und dass die an den gewählten Empfangskanal (21, 25, 28) angepasste erste Referenzinformation (ARI1) oder zweite Referenzinformation (ARI2, ARI3) zur Auswertung durch die Spracherkennungsmittel (29) verwendet wird.
Spracherkennungsverfahren (8) gemäß Anspruch 5, dadurch gekennzeichnet, dass die erste Referenzinformation (RI1, ARI1) und die zweite Referenzinformation (RI2, RI3, ARI2, ARI3) durch Featurevektoren (FV) gebildet wird, wobei je ein Featurevektor (FV) die Sprachinformation (SI) in je einem Frequenzteilbereich charakterisiert, und dass die Featurevektoren (FV) der ersten Referenzinformation (RI1, ARI1) die Sprachinformation (SI) in anderen Frequenzteilbereichen als die Featurevektoren (FV) der zweiten Referenzinformation (RI2, RI3, ARI2, ARI3) charakterisieren.
Computerprogrammprodukt (1, 8), das direkt in den internen Speicher eines digitalen Computers geladen werden kann und Softwarecodeabschnitte umfasst, dadurch gekennzeichnet, dass mit dem Computer jeder der Schritte des Spracherkennungsverfahrens (8) gemäß Anspruch 4 abgearbeitet wird, wenn das Produkt auf dem Computer läuft.
Computerprogrammprodukt gemäß Anspruch 7, dadurch gekennzeichnet, dass es auf einem computerlesbaren Medium gespeichert ist.