DE102008017993A1 - Sprachsuchvorrichtung - Google Patents

Sprachsuchvorrichtung Download PDF

Info

Publication number
DE102008017993A1
DE102008017993A1 DE102008017993A DE102008017993A DE102008017993A1 DE 102008017993 A1 DE102008017993 A1 DE 102008017993A1 DE 102008017993 A DE102008017993 A DE 102008017993A DE 102008017993 A DE102008017993 A DE 102008017993A DE 102008017993 A1 DE102008017993 A1 DE 102008017993A1
Authority
DE
Germany
Prior art keywords
language model
search
division
text
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102008017993A
Other languages
English (en)
Other versions
DE102008017993B4 (de
Inventor
Toshiyuki Chiyoda Hanazawa
Youhei Chiyoda Okato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE102008017993A1 publication Critical patent/DE102008017993A1/de
Application granted granted Critical
Publication of DE102008017993B4 publication Critical patent/DE102008017993B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Eine eine Sprache verwendende Textdatensuche ist herkömmlich eine Volltextsuche, die ein Wort als ein Indexwort für einen als ein Wort in einer eingegebenen Sprache erkannten Teil verwendet. Daher wird, wenn einer der als die Wörter erkannten Teile falsch erkannt wird, die Suchgenauigkeit herabgesetzt. Bei der vorliegenden Erfindung führt unter Bezugnahme auf ein Sprachmodell, das von einem Sprachmodell-Erzeugungsteil (10) aus Textdaten erzeugt wird, die einer Suche zu unterziehen sind, was durch ein Lerndaten-Teilungsteil (9) in einen linguistischen Teil und ein akustisches Modell, das durch Formen von Sprachmerkmalen erhalten ist, geteilt wird, ein Spracherkennungsteil (3) eine Spracherkennung bei der eingegebenen Sprache durch, um eine phonemische Darstellung auszugeben. Ein Anpassungseinheiten-Umwandlungsteil (4) teilt die phonemische Darstellung in dieselben Einheiten wie diejenigen eines Textsuch-Wörterbuchs, was erhalten ist durch Teilen der der Suche zu unterziehenden Textdaten in die Einheiten, die kleiner sind als diejenigen des Sprachmodells. Ein Textsuchteil (5) verwendet das Ergebnis der Teilung, um eine Suche bei dem Textsuch-Wörterbuch durchzuführen.

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf eine Vorrichtung, die Spracherkennung verwendet, um verschiedene Texte wie ein Dokument zu suchen.
  • 2. Beschreibung des Standes der Technik
  • Als eine Technik zum Suchen verschiedener Texte wie eines Dokuments durch Verwendung einer Sprache ist ein Verfahren zur Verwendung einer Diktatspracherkennung, um eine Sprache in einen Text umzuwandeln für die Durchführung einer Volltextsuche bei einem Text, üblich. Gemäß diesem Verfahren ist jedoch die Anzahl von erkennbaren Wörtern auf mehrere Tausend oder mehrere Zehntausend begrenzt. Daher ist es erforderlich, wenn ein Dokument, das Wörter enthält, die außerhalb des Bereichs der erkennbaren Wörter sind, durch eine Suche zu finden ist, die Anwesenheit von unbekannten Wörtern in Betracht zu ziehen.
  • Um das vorbeschriebene Problem zu bewältigen, offenbart die Japanische Patentanmeldungs-Offenlegungsschrift Nr. 2003-271629 die folgende Technik. In einem durch eine Suche zu findenden Dokument werden nur die oberen K Wörter, die die am häufigsten erscheinenden Wörter sind, als Wörter erkannt, während die anderen Wörter in Einheiten von Silben erkannt werden. Dann wird eine Volltextsuche durchgeführt durch Verwendung der herausgezogenen Wörter als den Ergebnissen der Erkennung, um vorbereitend ein Dokument auszuwählen. Danach wird der als eine Silbenkette erkannte Teil als ein Wort geschätzt, um ein endgültiges Ergebnis der Suche zu erhalten.
  • Bei dem vorbeschriebenen Stand der Technik wird eine Volltextsuche durchgeführt durch Verwendung der Wörter als Indexwörter für die Teile, die als in einer Eingangssprache enthaltene Wörter erkannt wurden. Daher wird, wenn irgendeiner der als die Wörter erkannten Teile fälschlicherweise erkannt wird, die Suchgenauigkeit nachteilig verringert. Selbst wenn beispielsweise eine Sprache gleich "wakayamanonachiotaki" ist und das Ergebnis der Erkennung vollständig als Wörter "okayama no machi otaku" erhalten wird, kann ein Dokument enthaltend "wakayamanonachiotaki" durch die Suche nicht gefunden werden.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung wurde gemacht, um das vorbeschriebene Problem zu lösen, und sie hat die Aufga be, eine Suche zu ermöglichen, solange wie eine Sprache akustisch ähnlich dem Ergebnis der Spracherkennung ist, selbst wenn eine Buchstabendarstellung der Sprache und die des Ergebnisses der Spracherkennung nicht einander identisch sind.
  • Die vorliegende Erfindung hat eine andere Aufgabe des Vorsehens einer Technik zum Verhindern, dass eine Erkennungsrate herabgesetzt wird, selbst bei einem ein unbekanntes Wort enthaltenden Dokument.
  • Die vorliegende Erfindung hat eine weitere Aufgabe des Vorsehens einer Technik zum Reduzieren einer unvollständigen Suche, selbst wenn die Sprache kurz ist und nur wenige Schlüssel für die Suche liefert.
  • Eine Sprachsuchvorrichtung gemäß der vorliegenden Erfindung enthält:
    eine Lerndaten-Teilungsvorrichtung zum Teilen von einer Suche zu unterziehenden Textdaten wie eines Dokuments in vorbestimmte linguistische Einheiten und zum Ausgeben eines Ergebnisses der Teilung;
    eine Sprachmodell-Erzeugungsvorrichtung zum Erzeugen eines Sprachmodells für Spracherkennung auf der Grundlage des Ergebnisses der Teilung;
    eine Textwörterbuch-Erzeugungsvorrichtung zum Teilen der der Suche zu unterziehenden Textdaten wie des Dokuments in Einheiten, wobei jede kleiner ist als die in der Lerndaten-Teilungsvorrichtung, um ein Textsuch-Wörterbuch zu erzeugen;
    eine Spracherkennungsvorrichtung zur Verwendung des Sprachmodells, um eine Eingangssprache zu erkennen und ein Ergebnis der Spracherkennung als einen Text auszugeben;
    eine Anpassungseinheiten-Umwandlungsvorrichtung zum Teilen des Ergebnisses der Spracherkennung in dieselben Teilungseinheiten wie diejenigen in der Textwörterbuch-Erzeugungsvorrichtung und zum Ausgeben eines Ergebnisses der Teilung; und
    eine Textsuchvorrichtung zum Empfangen eines Ausgangssignals von der Anpassungseinheiten-Umwandlungsvorrichtung als ein Eingangssignal, um eine Textsuche durchzuführen unter Verwendung des Textsuch-Wörterbuchs.
  • Gemäß der vorliegenden Erfindung wird unter Bezugnahme auf das Sprachmodell, das durch Teilen der Textdaten in linguistische Einheiten erhalten wurde, und ein akustisches Modell, das durch Formen von Sprachmerkmalen erhalten wurde, eine Spracherkennung für eine Eingangssprache durchgeführt, um eine phonemische Darstellung auszugeben. Die Anpassungseinheiten-Umwandlungsvorrichtung teilt die phonemische Darstellung in dieselben Einheiten wie diejenigen des Textsuch-Wörterbuchs, wobei jede der Einheiten kleiner als die des Sprachmodells ist. Die Textsuchvorrichtung verwendet das Ergebnis der Teilung, um eine Suche in dem Textsuch-Wörterbuch durchzuführen. Als eine Folge hat die vorliegende Erfindung die Wirkung, dass es möglich ist, eine gewünschte Einrichtung durch die Suche zu finden, selbst wenn ein Teil einer Wortreihe entsprechend dem Ergebnis der Erkennung falsch erkannt ist.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • In den begleitenden Zeichnungen:
  • 1 ist ein Blockschaltbild, das eine Konfiguration eines ersten Ausführungsbeispiels einer Sprachsuchvorrichtung gemäß der vorliegenden Erfindung illustriert;
  • 2 ist eine erläuternde Ansicht eines beispielhaften Inhalts eines Sprachmodell-Datenspeichers;
  • 3 ist eine erläuternde Ansicht eines beispielhaften Inhalts eines Textsuch-Wörterbuchs;
  • 4 ist eine erläuternde Ansicht eines beispielhaften Inhalts einer Gewichtsfaktortabelle bei einem zweiten Ausführungsbeispiel;
  • 5 ist ein Flussdiagramm für die Erzeugung eines Sprachmodells gemäß dem zweiten Ausführungsbeispiel;
  • 6 ist ein Blockschaltbild, das eine Konfiguration eines dritten Ausführungsbeispiels illustriert;
  • 7 ist ein Flussdiagramm für die Erzeugung des Sprachmodells gemäß dem dritten Ausführungsbeispiel;
  • 8 ist ein Blockschaltbild, das eine Konfiguration eines vierten Ausführungsbeispiels illustriert;
  • 9 ist eine erläuternde Ansicht eines beispielhaften Inhalts einer Spracherkennungs-Kandidatenanzahltabelle bei dem vierten Ausführungsbeispiel; und
  • 10 ist ein Flussdiagramm einer Textsuche durch die Textsuchvorrichtung gemäß dem vierten Ausführungsbeispiel.
  • DETAILLIERTE BECHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • Erstes Ausführungsbeispiel
  • 1 ist ein Blockschaltbild, das eine Konfiguration eines ersten Ausführungsbeispiels einer Sprachsuchvorrichtung gemäß der vorliegenden Erfindung illustriert.
  • In 1 enthält die Sprachsuchvorrichtung einen Spracheingangsanschluss 1, eine Eingangssprache 2, eine Spracherkennungsvorrichtung 3, eine Anpassungseinheiten-Umwandlungsvorrichtung 4 zum Umwandeln einer Anpassungseinheit, die für das Ergebnis einer Spracherkennung verwendet wird, in eine andere Einheit, eine Textsuchvorrichtung 5, einen Sprachmodellspeicher 6, einen Audiomodellspeicher 7, einen Sprachmodell-Lerndatenspeicher 8, eine Lerndaten-Teilungsvorrichtung 9, eine Sprachmodell-Erzeugungsvorrichtung 10, eine Textsuchwörterbuch-Erzeugungsvorrichtung 11, einen Textsuch-Wörterbuchspeicher 12 und ein Suchergebnis 13. Der Audiomodellspeicher 7 speichert ein Audiomodell, das durch Formen von Sprachmerkmalen erhalten wurde. Bei diesem Ausführungsbeispiel ist das Audiomodell beispielsweise ein HMM (Verstecktes Markov-Modell).
  • Bei diesem ersten Ausführungsbeispiel wird der folgende Fall als ein Beispiel beschrieben. Ein Name von jeder von Einrichtungen und touristischen Punkten in Japan (nachfolgend werden die Einrichtungen und die touristischen Punkte insgesamt aus Gründen der Einfachheit als Einrichtungen bezeichnet) wird als ein Textdokument betrachtet, das aus mehreren Wörtern zusammengesetzt ist. Der Name der Einrichtung wird durch eine Suche unter Verwendung einer Spracherkennung gefunden. Die Suche des Einrichtungsnamens, die nicht innerhalb des Rahmens von Spracherkennung allgemeiner Wörter durchgeführt wird, sondern innerhalb des Rahmens einer Textsuche, ist dahingehend vorteilhaft, dass selbst eine teilweise Übereinstimmung ermöglicht, einen Einrichtungsnamen durch die Suche zu finden, selbst wenn ein Benutzer den durch die Suche zu findenden Einrichtungsnamen nicht genau kennt.
  • Die Arbeitsweise der Sprachsuchvorrichtung gemäß diesem ersten Ausführungsbeispiel wird nun beschrieben. Vor der Spracherkennung und einer Suche werden vorher ein Sprachmodell und ein Textsuch-Wörterbuch erzeugt, um in dem Sprachmodellspeicher 6 bzw. dem Textsuch-Wörterbuchspeicher 12 gespeichert zu werden.
  • Zuerst wird ein Verfahren des Erzeugens des Sprachmodells beschrieben. Eine ID-Nummer, eine Kana/chinesische Zeichendarstellung und eine phonemische Darstellung von jeder der der Suche zu unterziehenden Einrichtungen werden in dem Sprachmodell-Lerndatenspeicher 8 vorgespeichert. Ein beispielhafter Inhalt des Sprachmodell-Lerndatenspeichers 8 ist in 2 gezeigt.
  • Die Lerndaten-Teilungsvorrichtung 9 empfängt Ein gangssignale für die Zeichendarstellung und die phonemische Darstellung jeder Einrichtung, die in dem Sprachmodell-Lerndatenspeicher 8 gespeichert sind, um eine morphologische Analyse zur Teilung einer Zeichenreihe beispielsweise in Wörter durchzuführen.
  • Beispielsweise wird, wenn die Zeichendarstellung gleich "wakayamanonachiotaki" ist und die phonemische Darstellung gleich "wakayamanonaciootaki" ist, die Zeichenreihe geteilt als "(wakayama)/(no)/(naci)/(ootaki)". Die Klammern "()" zeigen an, dass die Zeichenreihe in den Klammern die phonemische Darstellung ist. Das Zeichen "/" zeigt die Position der Teilung an und ist nicht in den Lerndaten des Sprachmodells enthalten.
  • Die Lerndaten-Teilungsvorrichtung 9 führt die vorbeschriebene Verarbeitung für alle Einrichtungsnamen durch, die in dem Sprachmodell-Lerndatenspeicher 8 gespeichert sind, und gibt dann die Ergebnisse der Teilung zu der Sprachmodell-Erzeugungsvorrichtung 10 aus.
  • Die Sprachmodell-Erzeugungsvorrichtung 10 empfängt die Eingangssignale für die Ergebnisse der Teilung für alle Einrichtungen, um das Sprachmodell zu erzeugen, und speichert das erzeugte Sprachmodell in dem Sprachmodellspeicher 6. Das Sprachmodell ist bei diesem ersten Ausführungsbeispiel beispielsweise ein Trigram-Modell.
  • Als Nächstes wird ein Verfahren der Erzeugung des Textsuch-Wörterbuchs beschrieben. Die Textsuchwörterbuch-Erzeugungsvorrichtung 11 empfängt die Eingangssignale für die phonemische Darstellung und die ID-Nummer von jeder der Einrichtungen, die in dem Sprachmodell-Lerndatenspeicher 8 gespeichert sind, um die phonemische Darstellung zu teilen. Eine Einheit der Teilung in der Textsuchwörterbuch-Erzeugungsvorrichtung 11 ist kleiner als das Wort entsprechend der Einheit der Teilung in der Lerndaten-Teilungsvorrichtung 9. Die Einheit der Teilung ist beispielsweise bei diesem ersten Ausführungsbeispiel eine Silbe. Für die Einrichtung mit der ID-Nummer 1, die in dem Sprachmodell-Lerndatenspeicher 8 gespeichert ist, ist die phonemische Darstellung "wakayamanonaciootaki", und das Ergebnis der Teilung wird erhalten als "wa/ka/ya/ma/no/na/ci/o/o/ta/ki".
  • Die Textsuchwörterbuch-Erzeugungsvorrichtung 11 führt die vorbeschriebene Verarbeitung für alle Einrichtungsnamen durch, die in dem Sprachmodell-Lerndatenspeicher 8 gespeichert sind. Dann wird jede der Silben als ein Indexwort verwendet, um beispielsweise eine invertierte Datei zu erzeugen. Die erzeugte invertierte Datei wird als das Textsuch-Wörterbuch in dem Textsuch-Wörterbuchspeicher gespeichert. 3 illustriert ein Beispiel für das von den Einrichtungen mit den ID-Nummern 1 und 2 erzeugte Textsuch-Wörterbuch.
  • Als Nächstes werden der Spracherkennungs- und der Suchvorgang beschrieben.
  • Bei Empfang des Eingangssignals der Sprache 2 von dem Spracheingangsanschluss 1 verwendet die Spracherkennungsvorrichtung 3 das in dem Sprachmodellspeicher 6 gespeicherte Sprachmodell und das in dem akustischen Modellspeicher 7 gespeicherte akustische Modell, um die Spracherkennung durchzuführen. Als ein Ergebnis der Spracherkennung gibt die Spracherkennungsvorrichtung die phonemische Darstellung der Wortreihe aus.
  • Wenn beispielsweise eine Sprache als die Eingangssprache gleich "wakayamanonachiotaki" ist und das Ergebnis der Erkennung gleich "okayama/no/machi/otaku" ist, gibt die Spracherkennungsvorrichtung 3 "okayama/no/maci/ootaku" entsprechend der phonemischen Darstellung des Ergebnisses der Erkennung aus.
  • Bei Empfang eines Eingangssignals der phonemischen Darstellung teilt die Anpassungseinheiten-Umwandlungsvorrichtung 4 die phonemische Darstellung in Einheiten, die kleiner als das Wort sind, und gibt das Ergebnis der Teilung aus. Die Einheit der Teilung ist dieselbe wie die in der Textsuchwörterbuch-Erzeugungsvorrichtung 11 verwendete. Insbesondere ist, wie vorstehend beschrieben ist, da die Einheit der Teilung in der Textsuchwörterbuch-Erzeugungsvorrichtung 11 bei diesem Ausführungsbeispiel die Silbe ist, die Einheit der Teilung in der Anpassungseinheiten-Umwandlungsvorrichtung 4 ebenfalls die Silbe. Daher gibt bei diesem ersten Ausführungsbeispiel die Anpassungseinheiten-Umwandlungsvorrichtung 4 "o/ka/ya/ma/no/ma/ci/o/o/ta/ku aus.
  • Als Nächstes empfängt die Textsuchvorrichtung 5 das Ergebnis der Teilung als ein Eingangssignal und bezieht sich auf die in dem Textsuch-Wörterbuchspeicher 12 gespeicherte invertierte Datei aufeinander folgend von der ersten Silbe des Ergebnisses der Teilung. Dann addiert die Textsuchvorrichtung 5 eins zu einem Treffer der Einrichtung enthaltend die interessierende Silbe in dem Ergebnis der Teilung. Die Textsuchvorrichtung 5 führt die vorbeschriebene Verarbeitung von der ersten Silbe bis zu der letzten Silbe des Ergebnisses der Teilung durch. Dann gibt die Textsuchvorrichtung 5 die Einrichtung mit einem Trefferwert aus, der gleich einem oder höher als ein vorbestimmter Schwellenwert S ist, als ein Ergebnis der Suche. Der Schwellenwert S ist beispielsweise das 0,8-fache der Anzahl von Silben, die in dem Ergebnis der Erkennung enthalten sind. Insbesondere wird bei dem vorliegenden Ausführungsbeispiel ein Wert, der durch Multiplizieren von elf entsprechend der Anzahl von eingegebenen Silben mit 0,8 erhalten wird, d. h., 11·0,8 = 8,8 als der Schwellenwert S verwendet.
  • Als ein Ergebnis stimmt die eingegebene Silbenreihe "o/ka/ya/ma/no/ma/ci/o/o/ta/ku" mit der Silbenreihe "wa/ka/ya/ma/no/na/ci/o/o/ta/ki" entsprechend einer korrekten Sprache "wakayamanonachiotaki" mit Ausnahme der letzten Silbe "ku" überein. Daher kann der Einrichtungsname "wakayamanonachiotaki" mit zehn als einer Trefferzahl als das Ergebnis der Suche ausgegeben werden.
  • Wie vorstehend beschrieben ist, teilt gemäß der vorliegenden Erfindung die Anpassungseinheiten-Umwandlungsvorrichtung 4 die phonemische Darstellung in Einheiten, von denen jede kleiner als die für die Spracherkennung verwendete ist, und die Textsuchvorrichtung 5 verwendet das Ergebnis der Teilung, um die Textsuche durchzuführen. Daher hat die vorliegende Erfindung die Wirkung, dass es möglich ist, eine gewünschte Einrichtung durch die Suche zu finden, selbst wenn ein Teil der als das Ergebnis der Erkennung erhaltenen Wortreihe falsch erkannt ist.
  • Zweites Ausführungsbeispiel
  • Bei dem zweiten Ausführungsbeispiel wird die Arbeitsweise der Lerndaten-Teilungsvorrichtung 9 und der Sprachmodell-Erzeugungsvorrichtung 10 wie folgt modi fiziert.
  • Die Lerndaten-Teilungsvorrichtung 9 empfängt die Zeichendarstellung und die phonemische Darstellung von jeder der in dem Sprachmodell-Lerndatenspeicher 8 gespeicherten Einrichtungen als Eingangssignale, um eine morphologische Analyse zur Teilung der Zeichenreihe in Wörter durchzuführen. In diesem Fall werden nur die oberen K Wörter, die die am häufigsten erscheinenden Wörter sind, als Wörter gelassen, während jedes der anderen Wörter weiter in eine Reihe von Silben geteilt wird.
  • Obgleich die Wörter, die ungeteilt bleiben sollen, auf der Grundlage einer Häufigkeit des Erscheinens bei diesem zweiten Ausführungsbeispiel ausgewählt werden, kann eine andere beliebige Bezugsgröße verwendet werden, um die Wörter auszuwählen, die ungeteilt bleiben sollen.
  • Ein Ausgangssignal der Sprachmodell-Erzeugungsvorrichtung 10 wird mit einer Kennmarke versehen, die anzeigt, ob die Einheit der Teilung der phonemischen Darstellung das Wort oder die Silbe ist. Die Erscheinungshäufigkeit K ist eine vorbestimmte Konstante, beispielsweise ist K = 500.
  • Wenn beispielsweise drei Wörter, d. h. "wakayama", "no" und "taki" in der Zeichendarstellung "wakayamanonachiotaki" der in dem in 2 illustrierten Sprachmodell-Lerndatenspeicher 8 gespeicherten Einrichtung in den Wörtern enthalten sind, die die oberen K Erscheinungshäufigkeiten haben, wird das Ergebnis der Teilung erhalten als "wakayama[w]/no[w]/na[s]/cm[s]/o[s]/o[s]/taki[w]", welches dann ausgegeben wird. In diesem Fall ist [] eine Kennmarke, die an zeigt, ob das Ergebnis der Teilung als das Wort oder die Silbe erhalten ist, wobei [w] anzeigt, dass das Ergebnis der Teilung als das Wort erhalten ist, und [s] anzeigt, dass das Ergebnis der Teilung als die Silbe erhalten ist. Wenn andererseits die Wörter, die in einer Zeichendarstellung "tokyonochiyodakuyakusyo" enthalten sind, alle in den Wörtern mit den oberen K Erscheinungshäufigkeiten enthalten sind, wird das Ergebnis der Teilung erhalten als "tookjoo[w]/no[w]/ciyoda[w]/kuyakusjo[w]".
  • Die Lerndaten-Teilungsvorrichtung 9 führt die vorbeschriebene Verarbeitung für alle Einrichtungsnamen durch, die in dem Sprachmodell-Lerndatenspeicher 8 gespeichert sind, und gibt dann die Ergebnisse der Teilung zu der Sprachmodell-Erzeugungsvorrichtung 10 aus.
  • Die Sprachmodell-Erzeugungsvorrichtung 10 empfängt den Eingang der Ergebnisse der Teilung, um das Sprachmodell zu erzeugen. In diesem Fall jedoch lernt die Sprachmodell-Erzeugungsvorrichtung 10 die Lerndaten von jeder der Einrichtungen, während die Lerndaten in der folgenden Weise gewichtet werden.
  • Ein Vorgang der Erzeugung des Sprachmodells durch die Sprachmodell-Erzeugungsvorrichtung 10 ist in 5 illustriert. Bei Empfang des Eingangs des Ergebnisses der Teilung von der Lerndaten-Teilungsvorrichtung 9 berechnet die Sprachmodell-Erzeugungsvorrichtung 10 eine Rate von Silben (nachfolgend als eine Silbenrate bezeichnet) Rs in dem Ergebnis der Teilung gemäß der folgenden Formel (1) (ST101). Rs = Ns/N (1) worin Ns die Anzahl von Silben in dem Ergebnis der Teilung ist und N eine Gesamtzahl von Wörtern und Silben, die durch die Teilung erhalten wurden, ist. Beispielsweise sind in "wakayama[w]/no[w]/na[s]/ci[s]/o[s]/o[s]/taki[w]" NS gleich 4 und N gleich 7. Daher wird Rs = 4/7 = 0,57 erhalten. In dem Fall von "tookjoo[w]/no[w]/ciyoda[w]/kuyakusjo[w]" ist Ns gleich 0 und N gleich 4. Daher wird Rs = 0/4 = 0 erhalten.
  • Als Nächstes wird unter Bezugnahme auf eine Gewichtsfaktortabelle, die die Beziehungen zwischen den Silbenraten Rs und den in der Sprachmodell-Erzeugungsvorrichtung 10 gespeicherten Gewichtsfaktoren beschreibt, ein Gewichtsfaktor w für jede Einrichtung bestimmt (ST102). Ein Beispiel für die Gewichtsfaktortabelle ist in 4 illustriert.
  • Da Rs = 4/7 = 0,57 für "wakayama[w]/no[w]/na[s]/ci[s]/o[s]/o[s]/taki[w]" erhalten wird, wird der Gewichtsfaktor w als 4 bestimmt. Dann betrachtet die Sprachmodell-Erzeugungsvorrichtung 10 die Einrichtung als viermal erschienen. Insbesondere vervierfacht die Sprachmodell-Erzeugungsvorrichtung 10 eine Verkettungsfrequenz zwischen Wörtern und Silben, die von der Einrichtung erhalten wurden (ST103).
  • Andererseits wird, da Rs = 0 für "tookjoo[w]/no[w]/ciyoda[w]/kuyakusjo[w]" erhalten wird, der Gewichtsfaktor als 1 erhalten. Daher verbleibt eine Verkettungsfrequenz zwischen Wort und Silben, die von dieser Einrichtung erhalten wurden, als eins.
  • Die Sprachmodell-Erzeugungsvorrichtung 10 führt die vorbeschriebene Verarbeitung für alle Einrichtungen durch, die in dem Sprachmodell-Lerndatenspeicher 8 gespeichert sind, um eine Verkettungsfrequenz zwischen Wörtern und Silben für die Erzeugung des Sprachmodells zu akkumulieren (ST105). Das Sprachmodell ist beispielsweise ein Trigram-Modell. Da der restliche Vorgang derselbe wie der bei dem ersten Ausführungsbeispiel ist, wird die Beschreibung hiervon hier weggelassen.
  • Im Stand der Technik hat die Einrichtung mit dem großenteils durch Silben dargestellten Teilungsergebnis eine geringe linguistische Wahrscheinlichkeit, die von dem Sprachmodell berechnet wird, und hat daher die Tendenz zu einer verringerten Erkennungsrate. Durch Erzeugen des Sprachmodells in der vorbeschriebenen Weise gemäß diesem Ausführungsbeispiel wird jedoch die Erscheinungshäufigkeit für die Einrichtung mit dem Ergebnis der Teilung, das groß dargestellt ist, groß eingestellt, wenn das Sprachmodell erzeugt wird. Als ein Ergebnis kann die linguistische Wahrscheinlichkeit erhöht werden, um ein Absinken der Erkennungsrate zu vermeiden.
  • Drittes Ausführungsbeispiel
  • Dieses dritte Ausführungsbeispiel wird erhalten durch Hinzufügen eines Sprachmodell-Zwischenspeichers 14 und eines Sprachdaten-Teilungsergebnisspeichers 15 zu dem vorbeschriebenen zweiten Ausführungsbeispiel. 6 illustriert eine beispielhafte Konfiguration des dritten Ausführungsbeispiels. Weiterhin wird die Arbeitsweise der Sprachmodell-Erzeugungsvorrichtung 10 wie folgt modifiziert.
  • Die Arbeitsweise der Sprachmodell-Erzeugungsvorrichtung 10 ist in 7 illustriert. Die Sprachmodell-Erzeugungsvorrichtung 10 empfängt dasselbe Eingangs signal wie bei dem zweiten Ausführungsbeispiel von der Lerndaten-Teilungsvorrichtung 9. Dann setzt die Sprachmodell-Erzeugungsvorrichtung 10 zuerst alle addierten Gewichte für die Verkettungsfrequenzen zwischen Wörtern und Silben in den Daten der jeweiligen Einrichtungen auf 1, um das Sprachmodell zu erzeugen. Die Sprachmodell-Erzeugungsvorrichtung 10 speichert das erzeugte Sprachmodell als ein Zwischensprachmodell in dem Zwischensprachmodellspeicher 14. Das Zwischensprachmodell ist das Trigram bei diesem dritten Ausführungsbeispiel. Die Ergebnisse der Teilung der Eingangsdaten für alle Einrichtungen werden in dem Lerndaten-Teilungsergebnisspeicher 15 gespeichert (ST201).
  • Als Nächstes wird das Ergebnis der Teilung für jede der Einrichtungen, das in dem Lerndaten-Teilungsergebnisspeicher 15 gespeichert ist, für jede Einrichtung i aufgenommen. Dann verwendet die Sprachmodell-Erzeugungsvorrichtung 10 das in dem Zwischensprachmodellspeicher 14 gespeicherte Zwischensprachmodell, um eine linguistische Wahrscheinlichkeit P(i) gemäß der folgenden Formel (2) zu berechnen (ST2O2). P(i) = Πj=1,Jp(wj|wj-2, wj-1) (2)worin p(wj|wj-2, Wj-1) eine Trigram-Wahrscheinlichkeit für eine Teilungseinheitsreihe wj-2, wj-1 und w ist, und J die Anzahl von Malen der Teilung der Einrichtung i ist. Dann wird ein Gewichtsfaktor w(i) für die Einrichtung i durch die folgende Formel (3) erhalten (ST203). w(i) = f((Σi=1,NP(i))/P(i)) (3)worin N eine Gesamtzahl von der Suche zu unterziehen den Einrichtungen ist, und f(x) eine Funktion zum Mildern einer Veränderung von x ist. Beispielsweise wird für f(x) f(x) = x1/4 (4)verwendet.
  • Wie aus der vorstehenden Formel (3) ersichtlich ist, hat der Gewichtsfaktor w(i) einen größeren Wert für die Einrichtung mit der kleineren linguistischen Wahrscheinlichkeit P(i) in dem Zwischensprachmodell.
  • Die Sprachmodell-Erzeugungsvorrichtung 10 betrachtet die Einrichtung so, als ob sie die Anzahl von Malen erschienen ist, die gleich dem erhaltenen Gewichtsfaktor w(i) ist. Insbesondere wird die Verkettungshäufigkeit zwischen Wörtern und Silben, die von der Einrichtung erhalten wurde, mit w(i) multipliziert, um die Verkettungshäufigkeit zu akkumulieren (ST204).
  • Die Sprachmodell-Erzeugungsvorrichtung 10 führt die vorbeschriebene Verarbeitung für alle Ergebnisse der Teilung der jeweiligen Einrichtungen, die in dem Lerndaten-Teilungsergebnisspeicher 15 gespeichert sind, durch, um zu bestimmen, ob ein nicht verarbeitetes Ergebnis der Teilung für irgendeine der Einrichtungen besteht oder nicht (ST205). Dann wird die Verkettungshäufigkeit zwischen Wörtern oder Silben akkumuliert, um das Sprachmodell zu erzeugen. Das erzeugte Sprachmodell wird in dem Sprachmodellspeicher 6 gespeichert (ST206). Das Sprachmodell ist beispielsweise das Trigram-Modell. Da der restliche Vorgang derselbe ist wie bei dem zweiten Ausführungsbeispiel, wird die Beschreibung hiervon hier weggelassen.
  • Im Stand der Technik hat die Einrichtung, deren Ergebnis der Teilung groß in Silben dargestellt ist, eine niedrige linguistische Wahrscheinlichkeit, die durch das Sprachmodell berechnet ist, und hat daher die Tendenz, eine verringerte Erkennungsrate zu haben. Gemäß diesem dritten Ausführungsbeispiel ist jedoch die Erscheinungshäufigkeit bei der Erzeugung des Sprachmodells für die Einrichtung mit einer geringen linguistischen Wahrscheinlichkeit in dem Zwischensprachmodell groß eingestellt, wenn das Sprachmodell erzeugt wird. Als eine Folge kann die linguistische Wahrscheinlichkeit erhöht werden, um zu verhindern, dass die Erkennungsrate absinkt.
  • Viertes Ausführungsbeispiel
  • Das vierte Ausführungsbeispiel wird erhalten durch Hinzufügen einer Spracherkennungs-Kandidatenanzahl-Steuervorrichtung 16 jeweils zu dem ersten bis dritten Ausführungsbeispiel, und weiterhin durch Modifizieren der Arbeitsweise der Spracherkennungsvorrichtung 3, der Anpassungseinheiten-Umwandlungsvorrichtung 4 und der Textsuchvorrichtung 5 in der nachfolgend beschriebenen Weise. Eine beispielhafte Konfiguration des vierten Ausführungsbeispiels ist in 8 illustriert.
  • Bei diesem vierten Ausführungsbeispiel wird der Fall beschrieben, in welchem die Spracherkennungs-Kandidatenanzahl-Steuervorrichtung 16 zu der Erfindung des ersten Ausführungsbeispiels hinzugefügt ist. Vor der Spracherkennung werden das Sprachmodell und das Textsuch-Wörterbuch in derselben Weise wie bei dem ersten Ausführungsbeispiel erzeugt.
  • Der Spracherkennungs- und der Suchvorgang werden beschrieben. Bei Empfang des Eingangs der Sprache 2 von dem Spracheingangsanschluss 1 verwendet die Spracherkennungsvorrichtung 3 das in dem Sprachmodellspeicher 6 gespeicherte Sprachmodell und das in dem Akustikmodellspeicher 7 gespeicherte Akustikmodell, um die Spracherkennung durchzuführen. Dann gibt die Spracherkennungsvorrichtung 3 die phonemische Darstellung der Wortreihe als ein Ergebnis der Spracherkennung aus. Als das Ergebnis der Spracherkennung bei diesem vierten Ausführungsbeispiel werden jedoch die oberen L Kandidaten der phonemischen Darstellungen in absteigender Reihenfolge der Erkennungstreffer ausgegeben. in diesem Fall ist L eine Konstante gleich oder größer als 2 und bei diesem Ausführungsbeispiel gleich 3. Wenn beispielsweise eine Sprache "oze" gegeben wird und das erstrangige Ergebnis der Erkennung gleich "tone" ist, das zweitrangige Ergebnis gleich "oze" ist und das drittrangige Ergebnis gleich "tobe" ist, werden die phonemischen Darstellungen entsprechend dem erst- bis drittrangigen Ergebnis der Erkennung, "tone", "oze" und "tobe" aufeinander folgend ausgegeben.
  • Die Anpassungseinheiten-Umwandlungsvorrichtung 4 empfängt die phonemischen Darstellungen entsprechend den L Ergebnissen der Spracherkennung, um jede der als die Ergebnisse der Spracherkennung erhaltenen phonemischen Darstellungen in die Einheiten zu teilen, von denen jede kleiner als das Wort ist, in derselben Weise wie bei dem ersten Ausführungsbeispiel. Dann gibt die Anpassungseinheiten-Umwandlungsvorrichtung 4 das erhaltene Ergebnis der Teilung aus. Wie bei dem ersten Ausführungsbeispiel ist die Einheit der Teilung bei diesem vierten Ausführungsbeispiel dieselbe.
  • Die Arbeitsweise der Anpassungseinheiten-Umwandlungsvorrichtung 4 unterscheidet sich von der bei dem ersten Ausführungsbeispiel dadurch, dass die Anpassungseinheiten-Umwandlungsvorrichtung 4 L Eingangssignale in absteigender Reihenfolge der Erkennungstreffer empfängt und L Ergebnisse der Teilung in derselben Reihenfolge ausgibt. Bei diesem Ausführungsbeispiel gibt die Anpassungseinheiten-Umwandlungsvorrichtung 4 "to/ne", "o/ze" und "to/be" in dieser Reihenfolge aus.
  • Die Spracherkennungs-Kandidatenanzahl-Steuervorrichtung 16 empfängt die L Ergebnisse der Teilung als Eingangssignale und bezieht sich auf die Anzahl von Silben von "to/ne" entsprechend dem Silbenteilungsergebnis des erstrangigen Kandidaten und eine Spracherkennungs-Kandidatenanzahltabelle, die in der Spracherkennungs-Kandidatenanzahl-Steuervorrichtung 16 gespeichert ist, um die Anzahl von zu der Textsuchvorrichtung auszugebenden Kandidaten zu steuern.
  • Der Inhalt der Spracherkennungs-Kandidatenanzahltabelle ist in 9 illustriert. Die Anzahl von auszugebenden Kandidaten ist vorher als größer eingestellt, wenn die Anzahl von Silben in dem Silbenteilungsergebnis des erstrangigen Kandidaten kleiner wird. Da die Anzahl von Silben in dem Silbenteilungsergebnis des erstrangigen Kandidaten bei diesem Ausführungsbeispiel gleich 2 ist, wird die Anzahl von auszugebenden Kandidaten mit Bezug auf die Spracherkennungs-Kandidatenanzahltabelle als 3 bestimmt.
  • Als Nächstes empfängt die Textsuchvorrichtung 5 die drei Ergebnisse der Teilung als Eingangssignale. Dann wird unter Bezugnahme auf die invertierte Datei, die als das in dem Textsuch-Wörterbuchspeicher 12 gespei cherte Textsuch-Wörterbuch dient, ein Vorgang des Addierens von 1 zu dem Treffer der Einrichtung enthaltend die interessierende Silbe für die erste Silbe bis zu der letzten Silbe für jedes der drei Ergebnisse der Teilung aufeinander folgend durchgeführt. Dann gibt die Textsuchvorrichtung 5 die Einrichtung mit der Trefferzahl gleich dem oder höher als der vorbestimmte Schwellenwert S als ein Ergebnis der Suche aus. Der Schwellenwert S ist auf einen Wert gesetzt, der das 0,8-fache der Anzahl von Silben in dem erstrangigen Erkennungsergebnis ist. Insbesondere wird, da die Anzahl von eingegebenen Silben bei diesem Ausführungsbeispiel gleich 2 ist, der Schwellenwert S als 2·0,8 = 1,6 erhalten. Indem die Suche auf diese Weise durchgeführt wird, enthält das zweitrangige Erkennungsergebnis "o/ze" bei diesem vierten Ausführungsbeispiel. Daher hat "oze" entsprechend dem richtigen Wort zwei als eine Suchtrefferzahl und kann als ein Suchergebniskandidat ausgegeben werden.
  • Ein spezifischer Verarbeitungsinhalt wird mit Bezug auf 10 entsprechend einem Flussdiagramm eines Arbeitsvorgangs der Textsuchvorrichtung 5 beschrieben. Zuerst werden als anfängliche Verarbeitung Trefferzahlen für alle Einrichtungen auf 0 gesetzt (ST301). Als Nächstes führt die Textsuchvorrichtung 5 für das erste der drei Ergebnisse der Teilung unter Bezugnahme auf die invertierte Datei den Vorgang des Addierens von 1 zu der Trefferzahl der die interessierende Silbe enthaltenden Einrichtung aufeinander folgend für die erste Silbe bis zur letzten Silbe des Ergebnisses der Teilung durch (ST302).
  • Als Nächstes bestimmt die Textsuchvorrichtung 5, ob noch ein weiteres Ergebnis der Teilung, das einzugeben ist, vorhanden ist oder nicht (ST303). Wenn eines vorhanden ist, wird dieselbe Verarbeitung für das nächste Ergebnis der Teilung als ein Eingangssignal durchgeführt. Dann akkumuliert die Textsuchvorrichtung eine Trefferzahl für jede der Einrichtungen (ST302). Andererseits wird, wenn kein weiteres Ergebnis der Teilung einzugeben ist, die Trefferakkumulationsverarbeitung beendet. Dann wird der Kandidat mit der Trefferzahl, die gleich dem oder höher als der Schwellenwert ist, als ein Ergebnis der Suche ausgegeben (ST304).
  • Wie vorstehend beschrieben ist, steuert die Spracherkennungs-Kandidatenzahl-Steuervorrichtung 16 die Anzahl von Kandidaten, die in die Textsuchvorrichtung eingegeben werden, derart, dass sie größer ist, wenn die Anzahl von Silben in dem Ergebnis der Spracherkennung kleiner wird. Daher werden, wenn das Ergebnis der Erkennung eine kleine Anzahl von Silben hat und daher eine geringe Möglichkeit besteht, dass der durch falsche Erkennung erhaltene Kandidat korrekte Silben enthalten kann, selbst niederrangige Kandidaten, die als die Ergebnisse der Erkennung erhalten werden, der Suche unterzogen. Auf diese Weise hat die vorliegende Erfindung die Wirkung der Herabsetzung der Möglichkeit des Versagens beim Finden einer gewünschten Einrichtung aufgrund einer unvollständigen Suche.
  • Die vorliegende Erfindung ist verfügbar für ein System, das eine Sprache verwendet, um eine Suche bei Textdaten enthaltend eine große Anzahl von Wörtern durchzuführen, und sie ist insbesondere beispielsweise auf ein Fahrzeugnavigationssystem anwendbar.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • - JP 2003-271629 [0003]

Claims (5)

  1. Sprachsuchvorrichtung, welche aufweist: eine Lerndaten-Teilungsvorrichtung zum Teilen von einer Suche zu unterziehenden Textdaten wie eines Dokuments in vorbestimmte linguistische Einheiten und zum Ausgeben eines Ergebnisses der Teilung; eine Sprachmodell-Erzeugungsvorrichtung zum Erzeugen eines Sprachmodells für eine Spracherkennung auf der Grundlage des Ergebnisses der Teilung; eine Textwörterbuch-Erzeugungsvorrichtung zum Teilen der der Suche zu unterziehenden Textdaten wie des Dokuments in Einheiten, wobei jede kleiner als die in der Lerndaten-Teilungsvorrichtung ist, um ein Textsuch-Wörterbuch zu erzeugen; eine Spracherkennungsvorrichtung zum Verwenden des Sprachmodells für die Erkennung einer eingegebenen Sprache und für die Ausgabe eines Ergebnisses der Spracherkennung als einen Text; eine Anpassungseinheiten-Umwandlungsvorrichtung zum Teilen des Ergebnisses der Spracherkennung in dieselben Teilungseinheiten wie diejenigen in der Textwörterbuch-Erzeugungsvorrichtung und zum Ausgeben eines Ergebnisses der Teilung; und eine Textsuchvorrichtung zum Empfangen eines Ausgangssignals von der Anpassungseinheiten-Umwandlungsvorrichtung als ein Eingangssignal, um eine Textsuche durch Verwendung des Textsuch-Wörterbuchs durchzuführen.
  2. Sprachsuchvorrichtung nach Anspruch 1, bei der die Sprachmodell-Erzeugungsvorrichtung das Sprachmodell erzeugt, während eine akkumulierte Häufigkeit einer Statistik jedes der Dokumente gewichtet wird, um eine Differenz der linguistischen Wahrscheinlichkeit zwischen den Dokumenten herabzusetzen, wobei die linguistische Wahrscheinlichkeit auf der Grundlage des Sprachmodells berechnet wird.
  3. Sprachsuchvorrichtung nach Anspruch 2, bei der eine größere Einheit und eine kleinere Einheit verwendet werden als die Einheit der Teilung für die Textdaten durch die Lerndaten-Teilungsvorrichtung; und die Sprachmodell-Erzeugungsvorrichtung einen größeren Wert für das Gewicht der akkumulierten Häufigkeit der Statistik von jedem der Dokumente einstellt, wenn eine Rate der kleineren Einheiten in dem Ergebnis der Teilung größer wird.
  4. Sprachsuchvorrichtung nach Anspruch 2, bei der die Sprachmodell-Erzeugungsvorrichtung das Ausgangssignal von der Lerndaten-Teilungsvorrichtung verwendet, um ein Zwischensprachmodell zu erzeugen, und das erzeugte Zwischensprachmodell verwendet, um die linguistische Wahrscheinlichkeit für jedes der der Suche zu unterziehenden Dokumente zu berechnen; und das Gewicht der akkumulierten Häufigkeit der Statistik von jedem der Dokumente auf einen größeren Wert für das Dokument mit der geringeren linguistischen Wahrscheinlichkeit eingestellt wird.
  5. Sprachsuchvorrichtung nach Anspruch 1 oder 2, bei der die Spracherkennungsvorrichtung obere L( > 1) Ergebnisse der Spracherkennung ausgibt; und die Sprachsuchvorrichtung weiterhin eine Spracherkennungs-Kandidatenanzahl-Steuervorrichtung zum Steuern der Anzahl von Kandidaten entsprechend den Ergebnissen der Spracherkennung, die zu der Textsuchvorrichtung auszugeben sind, gemäß der Anzahl von Silben in einem erstrangigen Ergebnis der Erkennung.
DE102008017993.0A 2007-04-10 2008-04-07 Sprachsuchvorrichtung Expired - Fee Related DE102008017993B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007-102852 2007-04-10
JP2007102852A JP5072415B2 (ja) 2007-04-10 2007-04-10 音声検索装置

Publications (2)

Publication Number Publication Date
DE102008017993A1 true DE102008017993A1 (de) 2008-11-06
DE102008017993B4 DE102008017993B4 (de) 2014-02-13

Family

ID=39809810

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102008017993.0A Expired - Fee Related DE102008017993B4 (de) 2007-04-10 2008-04-07 Sprachsuchvorrichtung

Country Status (4)

Country Link
US (1) US8126714B2 (de)
JP (1) JP5072415B2 (de)
CN (1) CN101286170B (de)
DE (1) DE102008017993B4 (de)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5308786B2 (ja) * 2008-11-20 2013-10-09 Kddi株式会社 文書データ検索装置
WO2010098209A1 (ja) 2009-02-26 2010-09-02 国立大学法人豊橋技術科学大学 音声検索装置および音声検索方法
WO2010100977A1 (ja) * 2009-03-03 2010-09-10 三菱電機株式会社 音声認識装置
US20110320464A1 (en) 2009-04-06 2011-12-29 Mitsubishi Electric Corporation Retrieval device
JP5318230B2 (ja) * 2010-02-05 2013-10-16 三菱電機株式会社 認識辞書作成装置及び音声認識装置
JP5590549B2 (ja) * 2010-02-23 2014-09-17 国立大学法人豊橋技術科学大学 音声検索装置および音声検索方法
JP5404563B2 (ja) * 2010-09-10 2014-02-05 三菱電機株式会社 検索装置
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
US8700594B2 (en) * 2011-05-27 2014-04-15 Microsoft Corporation Enabling multidimensional search on non-PC devices
KR101289085B1 (ko) * 2012-12-12 2013-07-30 오드컨셉 주식회사 객체 기반 영상 검색시스템 및 검색방법
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
JP5866084B2 (ja) * 2014-01-16 2016-02-17 三菱電機株式会社 検索装置
GB201401046D0 (en) * 2014-01-22 2014-03-05 Iedutainments Ltd Searching and content delivery system
JP6248717B2 (ja) * 2014-03-12 2017-12-20 三菱電機株式会社 エレベータ制御装置
JP6400936B2 (ja) 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
US20170154546A1 (en) * 2014-08-21 2017-06-01 Jobu Productions Lexical dialect analysis system
JP6003972B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP6003971B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
ES2811771T3 (es) * 2015-03-06 2021-03-15 Zetes Ind S A Método y sistema de postratamiento de un resultado de reconocimiento de voz
US20180247644A1 (en) * 2017-02-27 2018-08-30 Intel Corporation Queueing spoken dialogue output
CN112259100B (zh) * 2020-09-15 2024-04-09 科大讯飞华南人工智能研究院(广州)有限公司 语音识别方法及相关模型的训练方法和相关设备、装置
CN112530213B (zh) * 2020-12-25 2022-06-03 方湘 一种汉语音调学习方法及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271629A (ja) 2002-03-18 2003-09-26 National Institute Of Advanced Industrial & Technology 音声入力によるテキスト検索方法およびその装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61182100A (ja) 1985-02-07 1986-08-14 株式会社リコー 音声認識後処理方式
JPS63300298A (ja) 1987-05-30 1988-12-07 キヤノン株式会社 音声認識装置
US5832428A (en) * 1995-10-04 1998-11-03 Apple Computer, Inc. Search engine for phrase recognition based on prefix/body/suffix architecture
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
JP2000259645A (ja) * 1999-03-05 2000-09-22 Fuji Xerox Co Ltd 音声処理装置及び音声データ検索装置
JP2000267693A (ja) * 1999-03-12 2000-09-29 Fuji Xerox Co Ltd 音声処理装置及び索引作成装置
JP2000315095A (ja) 1999-04-28 2000-11-14 Sony Corp 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体
JP3476008B2 (ja) * 1999-09-10 2003-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
CN1328321A (zh) * 2000-05-31 2001-12-26 松下电器产业株式会社 通过语音提供信息的装置和方法
JP3639776B2 (ja) 2000-07-28 2005-04-20 シャープ株式会社 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP3846896B2 (ja) 2000-10-13 2006-11-15 日本電信電話株式会社 音声入力された複合名詞の検索装置、検索方法およびデータベース
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
JP2003036093A (ja) * 2001-07-23 2003-02-07 Japan Science & Technology Corp 音声入力検索システム
WO2004034378A1 (ja) * 2002-10-08 2004-04-22 Matsushita Electric Industrial Co., Ltd. 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
JP2004199839A (ja) * 2002-12-20 2004-07-15 Sanyo Electric Co Ltd 光ディスク記録装置
CN1221937C (zh) * 2002-12-31 2005-10-05 北京天朗语音科技有限公司 语速自适应的语音识别***
JP2006031385A (ja) * 2004-07-15 2006-02-02 Nec Corp 音声入力による検索システムと方法並びにプログラム
JP4604178B2 (ja) * 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
JP4802689B2 (ja) 2005-12-08 2011-10-26 株式会社日立製作所 情報認識装置及び情報認識プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271629A (ja) 2002-03-18 2003-09-26 National Institute Of Advanced Industrial & Technology 音声入力によるテキスト検索方法およびその装置

Also Published As

Publication number Publication date
CN101286170A (zh) 2008-10-15
CN101286170B (zh) 2010-08-11
US8126714B2 (en) 2012-02-28
JP2008262279A (ja) 2008-10-30
US20080255841A1 (en) 2008-10-16
DE102008017993B4 (de) 2014-02-13
JP5072415B2 (ja) 2012-11-14

Similar Documents

Publication Publication Date Title
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69029188T2 (de) Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung
DE69031284T2 (de) Verfahren und Einrichtung zur Spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE69030561T2 (de) Spracherkennungseinrichtung
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE3878541T2 (de) Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen.
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE112010006037B4 (de) Spracherkennungsvorrichtung und Navigationssystem
DE3135483C2 (de) Verfahren und Schaltungsanordnung zur Erkennung einer alphanumerischen Eingangszeichenkette
DE10306022B3 (de) Dreistufige Einzelworterkennung
DE68924134T2 (de) Spracherkennungssystem.
DE112013006770B4 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
DE69917960T2 (de) Phonembasierte Sprachsynthese
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8125 Change of the main classification

Ipc: G10L 15/26 AFI20080627BHDE

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R020 Patent grant now final

Effective date: 20141114

R084 Declaration of willingness to licence
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee