DE112006002989T5 - Spracherkennungsvorrichtung - Google Patents

Spracherkennungsvorrichtung Download PDF

Info

Publication number
DE112006002989T5
DE112006002989T5 DE112006002989T DE112006002989T DE112006002989T5 DE 112006002989 T5 DE112006002989 T5 DE 112006002989T5 DE 112006002989 T DE112006002989 T DE 112006002989T DE 112006002989 T DE112006002989 T DE 112006002989T DE 112006002989 T5 DE112006002989 T5 DE 112006002989T5
Authority
DE
Germany
Prior art keywords
time
speech recognition
environmental condition
recognition device
voice input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE112006002989T
Other languages
English (en)
Inventor
Ryo Iwamiya
Reiko Okada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=38162692&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE112006002989(T5) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112006002989T5 publication Critical patent/DE112006002989T5/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

Spracherkennungsvorrichtung, umfassend:
eine Spracherkennungseinrichtung zum Ausführen von Spracherkennung;
eine Steuereinrichtung zum Steuern des Empfangs einer Spracheingabe zu der Spracherkennungseinrichtung in Übereinstimmung mit einer Zeitabschaltzeit, die ein Ende des Empfangs einer Spracheingabe definiert, und zum Durchführen der Erkennung in Übereinstimmung mit einem Ergebnis der durch die Spracherkennungseinrichtung erlangten Spracherkennung;
eine Umgebungsbedingungserfassungseinrichtung zum Erfassen einer Umgebungsbedingung; und
eine Zeitabschaltzeit-Steuereinrichtung zum Ändern der Zeitabschaltzeit in Übereinstimmung mit der durch die Umgebungsbedingungserfassungseinrichtung erfassten Umgebungsbedingung.

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft eine Spracherkennungsvorrichtung, die eine eingegebene Sprache erkennt und eine Erkennung in Übereinstimmung mit dem Spracherkennungsergebnis ausgibt. Insbesondere betrifft sie eine Spracherkennungsvorrichtung, die in einem Bewegobjekt, wie zum Beispiel einem Fahrzeug montiert ist, um eine Anleitung in Übereinstimmung mit der eingegebenen Sprache bereitzustellen.
  • Hintergrund der Erfindung
  • Eine Spracherkennungsvorrichtung, die eine eingegebene Sprache erkennt und eine Erkennung in Übereinstimmung mit einem Spracherkennungsergebnis vornimmt, ist allgemein bekannt. Beispielsweise ist eine Spracherkennungsvorrichtung bereitgestellt worden, die in einem Bewegobjekt wie einem Fahrzeug montiert ist, und die derart aufgebaut ist, dass sie eine Anleitung für einen Fahrer in Übereinstimmung mit einer eingegebenen Sprache bereitstellt, um die Gefahr zu vermeiden, die aus der Beeinflussung einer Taste durch den Fahrer resultiert. Diese Art von Spracherkennungsvorrichtung ist mit einer Spracherkennungseinheit ausgerüstet, die eine eingegebene Sprache erkennt, und die Spracherkennungseinheit muss zwischen der eingegebenen Sprache und Störung wie zum Beispiel Rauschen unterscheiden, um die eingegebene Sprache zu erkennen.
  • Zudem ist eine Spracherkennungsvorrichtung bereitgestellt worden, die derart aufgebaut ist, dass sie, wenn sie Spracherkennung ausführt, wenn der Benutzer keinerlei Ton äußert, selbst nachdem eine vorbestimmte Zeit (d. h., eine Abschaltzeit) verstreicht. Wenn der Benutzer eine Spracheingabe in Übereinstimmung mit einem eine Sprachäußerung verlangenden Signal von der Spracherkennungsvorrichtung vornimmt unter Berücksichtung der Tatsache, dass im Allgemeinen die Zeit, die ein Benutzer braucht, um das erste Wort zu äußern, nachdem der Benutzer das die Äußerung fordernde Signal hört, länger ist als die, die der Benutzer benötigt, um danach weitere Wörter zu äußern, erfordert es in einer solchen Spracherkennungsvorrichtung von dem Benutzer viel Zeit, um das erste Wort zu äußern, und eine Zeitabschaltung tritt daher auf, bevor der Benutzer das erste Wort äußert.
  • Um dieses Problem zu lösen, ist üblicherweise eine Spracherkennungsvorrichtung bereitgestellt worden, die für Fahrzeuge gedacht war, die automatisch einen Unterscheidungsreferenzpegel, der zum Unterscheiden zwischen Rauschen und Sprache verwendet wird, in Übereinstimmung mit den Fahrbedingungen des Fahrzeugs wie der Geschwindigkeit und der Getriebeschaltposition des Fahrzeugs anpassen, um in sicherer Weise zwischen der eingegebenen Sprache und Rauschen quer über den Geschwindigkeitsbereich des Fahrzeugs von einer niedrigen Geschwindigkeit zu einer hohen Geschwindigkeit zu unterscheiden (um die eingegebene Sprache in sicherer Weise zu erkennen) (siehe beispielsweise Patentreferenz 1).
  • Zudem wurde eine Spracherkennungsvorrichtung bereitgestellt, die auf solche Weise aufgebaut ist, dass sie Abschaltzeiten variabel gestaltet, um das Auftreten einer Zeitabschaltung zu vermeiden, bevor der Benutzer das erste Wort äußert, insbesondere, um die Abschaltzeit zu verlängern, die ein Zeitintervall definiert, während dem der Benutzer das erste Wort äußern muss (siehe beispielsweise Patentreferenz 2).
    [Patentreferenz 1] JP,57-30913,A (siehe Seiten 2 bis 3 und 3 und 4)
    [Patentreferenz 2] JP,58-50598,A (siehe Seite 2 und 1 und 2)
  • Offenbarung der Erfindung
  • Konventionelle Spracherkennungsvorrichtungen sind wie oben erwähnt aufgebaut. Daher ist ein Problem bei der durch Patentreferenz 1 offenbarten Erfindung, dass, weil die Spracherkennungsvorrichtung dieser Druckschrift nur den zur Unterscheidung zwischen Rauschen und Sprache verwendeten Unterscheidungsreferenzpegel gemäß der Fahrbedingung des Fahrzeugs anpasst, sie keinen Zeitabschaltprozess ausführt und demnach die Wahrscheinlichkeit, dass Rauschen und Sprache gleichzeitig eingegeben werden, sehr hoch wird, wenn es lange dauert, bis der Benutzer eine Spracheingabe vornimmt, und es daher, selbst wenn der zur Unterscheidung zwischen Rauschen und Sprache verwendete Unterscheidungsreferenzpegel angepasst wird, schwierig wird, zwischen Rauschen und Sprache mit hohem Grad an Präzision zu unterscheiden und die Spracherkennungsrate verschlechtert wird.
  • Andererseits ist ein Problem bei der in Patentreferenz 2 offenbarten Erfindung, dass wenn die Zeitabschaltungszeit, die eine Zeitdauer definiert, während der der Benutzer das erste Wort zu äußern hat, ausgedehnt wird, eine Zeitdauer, während der Rauschen und Sprache gleichzeitig in die Spracherkennungsvorrichtung eingegeben werden können, durch die Zunahme Zeitabschaltungszeit länger wird, die Spracherkennungsvorrichtung die eingegebene Sprache beispielsweise nicht unter verrauschten Umgebungen korrekt erkennen kann.
  • Die vorliegende Erfindung wurde gemacht, um die oben erwähnten Probleme zu lösen und es ist demnach ein Ziel der vorliegenden Erfindung, eine Spracherkennungsvorrichtung bereitzustellen, die immer eine eingegebene Sprache mit einem hohen Grad an Präzision erkennen kann.
  • Eine Spracherkennungsvorrichtung in Übereinstimmung mit der vorliegenden Erfindung schließt ein: Eine Spracherkennungseinrichtung zum Vornehmen einer Spracherkennung; und eine Steuereinrichtung zum Steuern des Empfangs einer Spracheingabe in die Spracherkennungseinrichtung gemäß einer Zeitabschaltungszeit, die ein Ende des Empfangs einer Spracheingabe definiert, und zum Ausführen der Erkennung gemäß einem Ergebnis der durch die Spracherkennungsvorrichtung erlangten Spracherkennung. Zudem ist diese Spracherkennungsvorrichtung dadurch gekennzeichnet, dass die Steuereinrichtung den Empfang von Sprache gemäß einer Abschaltzeit, die das Ende des Empfangs einer Sprache definiert, steuert, und die Spracherkennungsvorrichtung ferner eine Umgebungsbedingungserfassungseinrichtung einschließt zum Erfassung einer Umgebungsbedingung, und eine Zeitabschaltsteuereinrichtung zum Ändern der Zeitabschaltungszeit gemäß der durch die Umgebungsbedingungserfassungseinrichtung erfassten Umgebungsbedingung.
  • Weil die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung derart aufgebaut ist, dass die Zeitablaufzeit auf der Basis der Umgebungsbedingung geändert wird, wird ein Vorteil bereitgestellt, imstande zu sein, immer eine geeignete Zeitabschaltungszeit gemäß der Umgebungsbedingung festzulegen, um die Wahrscheinlichkeit zu reduzieren, die zu einer fehlerhaften Erkennung führt, und immer eine eingegebene Sprache mit einem hohen Grad an Präzision zu erkennen.
  • Kurzbeschreibung der Figuren
  • Es zeigt:
  • 1 ein Blockdiagramm eines Beispiels einer Spracherkennungsvorrichtung in Übereinstimmung mit Ausführungsform 1 der vorliegenden Erfindung;
  • 2 ein Diagramm zum Erläutern erster bis dritter Zeitabschaltzeiten zur Verwendung in der in 1 gezeigten Spracherkennungsvorrichtung;
  • 3 ein Ablaufdiagramm zum Erläutern des Betriebsablaufs der in 1 gezeigten Spracherkennungsvorrichtung;
  • 4 ein Blockdiagramm eines Beispiels einer Spracherkennungsvorrichtung in Übereinstimmung mit Ausführungsform 2 der vorliegenden Erfindung;
  • 5 ein Ablaufdiagramm zum Erläutern des Betriebs der in 4 gezeigten Spracherkennungsvorrichtung;
  • 6 ein Diagramm zum Zeigen eines Beispiels einer Entscheidungstabelle zur Verwendung in der in 4 gezeigten Spracherkennungsvorrichtung;
  • 7 ein Blockdiagramm eines Beispiels einer Spracherkennungsvorrichtung in Übereinstimmung mit Ausführungsform 3 der vorliegenden Erfindung;
  • 8 ein Ablaufdiagramm zum Erläutern des Betriebs der in 7 gezeigten Spracherkennungsvorrichtung; und
  • 9 ein Diagramm zum Zeigen eines Beispiels einer Tabelle eines Schwierigkeitsgrads im Dialog zur Verwendung in der in 7 gezeigten Spracherkennungsvorrichtung.
  • Bevorzugte Ausführungsformen
  • Nachstehend werden die bevorzugten Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben, um diese Erfindung detaillierter zu erläutern.
  • Ausführungsform 1.
  • 1 ist ein Blockdiagramm zum Zeigen eines Beispiels einer Spracherkennungsvorrichtung in Übereinstimmung mit Ausführungsform 1 der vorliegenden Erfindung, und die dargestellte Spracherkennungsvorrichtung 10 ist in einem Bewegobjekt wie zum Beispiel einem Fahrzeug montiert. Die Spracherkennungsvorrichtung 10 hat eine Spracheingabeeinrichtung 11 wie zum Beispiel ein Mikrofon, eine Spracherkennungseinrichtung 12, eine Steuereinrichtung 13, einen Sprechschalter 14, eine Eingabeneustartsteuereinrichtung 15, eine Eingabezeitabschaltungszeit-Steuereinrichtung 16, eine Ausgabeeinrichtung 17 und eine Umgebungsbedingungserfassungseinrichtung 18. In der Umgebungsbedingungserfassungseinrichtung 18 ist beispielsweise ein Mikrofon 18a angeordnet.
  • Wenn ein Benutzer die Spracherkennungsvorrichtung 10 verwendet, schaltet er oder sie den Sprechschalter 14 ein (er oder sie drückt diesen Schalter). Hierdurch lässt die Steuereinrichtung 13 die Spracherkennungseinrichtung 12 in einen Zustand übergehen, in dem die Spracherkennungseinrichtung 12 arbeiten kann (d. h., einen Zustand, in dem die Spracherkennungseinrichtung eine Spracheingabe empfangen kann). Wenn der Benutzer eine Spracheingabe von der Spracheingabeeinrichtung 11 vornimmt, erkennt die Spracherkennungseinrichtung 12 die Spracheingabe und stellt ein Erkennungsergebnis für die Steuereinrichtung 13 bereit. Die Steuereinrichtung 13 stellt das Erkennungsergebnis als die Beschreibung dessen, was die Ausgabeeinrichtung 17 erkennt, bereit und stellt auch eine Erkenntnis (z. B. eine Anleitung oder Ähnliches) in Übereinstimmung mit dem Erkennungsergebnis für die Ausgabeeinrichtung 17 bereit. Die Ausgabeeinrichtung 17 gibt die Beschreibung des Erkennens/der Anleitung aus.
  • In der dargestellten Spracherkennungsvorrrichtung 10 extrahiert die Umgebungsbedingungserfassungseinrichtung Rauschen in einem angrenzenden Umfeld als Umgebungsrauschen und stellt dieses Umgebungsrauschen der Steuereinrichtung 13 bereit. Wie später erwähnt wird, stimmt die Eingabe-Zeitabschaltungszeit-Steuereinrichtung 16 eine Zeitabschaltungszeit zum Stoppen des Empfangs einer Spracheingabe in Übereinstimmung mit dem Umgebungsrauschen ab. Die Eingabeneustartsteuereinrichtung 15 steuert, ob der Empfang einer Spracheingabe in Übereinstimmung mit dem Umgebungsrauschen neugestaltet werden sollte, nachdem die Spracheingabe einer Zeitabschaltung beendet ist, wie später erwähnt wird.
  • Nun wird die oben erwähnte Zeitabschaltungszeit erläutert; wie in 2 gezeigt, schließt die Zeitabschaltungszeit erste bis dritte Zeitabschaltungszeiten T1 bis T3 ein. Die erste Zeitabschaltungszeit T1 ist eine Zeit, die ein Zeitintervall von Beginn des Empfangs einer Spracheingabe zum Beginn einer Sprachäußerung definiert. In ähnlicher Weise ist die zweite Zeitabschaltungszeit T2 eine Zeit, die ein Zeitintervall definiert von dem Beginn des Empfangs einer Spracheingabe bis zum Ende der Äußerung, und der folgende Zusammenhang: T1 < T2 ist eingerichtet. Die dritte Zeitabschaltungszeit T3 ist eine Zeit, die ein Zeitintervall definiert, das dem Ende der Äußerung des Benutzers folgt. Wenn die dritte Zeitabschaltungszeit T3 abläuft, beendet die Steuereinrichtung 13 den Empfang der Spracheingabe.
  • Wenn eine Zeit t1 von Beginn des Empfangs einer Spracheingabe bis zum Beginn einer Sprachäußerung die erste Zeitabschaltungszeit T1 übersteigt, beendet die Steuereinrichtung 13 den Empfang der Spracheingabe, und wenn eine Zeit t2 vom Beginn der Spracheingabe bis zum Ende der Äußerung die zweite Zeitabschaltungszeit T2 übersteigt, beendet die Steuereinrichtung 13 ebenfalls den Empfang der Spracheingabe.
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung erläutert.
  • Es wird Bezug genommen auf 1 bis 3, wenn die Spracherkennungsvorrichtung 10 eingeschaltet wird (EIN), schaltet die Steuereinrichtung 13 den automatischen Neustart des Empfangs einer Spracheingabe ab (AUS) (d. h., sie schaltet die Eingabeneustartsteuereinrichtung 15 aus (in einen Anfangszustand: Schritt ST1)), und dann bestimmt sie, ob der automatische Neustart des Empfangs einer Spracheingabe eingeschaltet wird oder nicht (Schritt ST2). Zu dieser Zeit bestimmt die Steuereinrichtung 13 dann, weil die Eingabeneustartsteuereinrichtung 15 in den AUS-Zustand versetzt ist, ob der Sprechschalter 14 gedrückt wird oder nicht (Schritt ST3) und geht in den Bereitschaftszustand über, bis der Sprechschalter 14 gedrückt wird. Wenn der Sprechschalter 14 gedrückt wird, wird der Empfang einer Spracheingabe durch die Steuereinrichtung 13 gestartet (Schritt ST4).
  • Das Umgebungsrauschen wird von der Umgebungsbedingungserfassungseinrichtung 18 für die Steuereinrichtung 13 bereitgestellt und die Eingabezeitabschaltungszeit-Steuereinrichtung 16 bestimmt, ob der Pegel des Umgebungsrauschens (d. h., der Rauschpegel) gleich oder höher als ein vorbestimmter Pegel ist oder nicht, gesteuert durch die Steuereinrichtung 13 (Schritt ST5). Wenn der Rauschpegel gleich oder höher als der vorbestimmte Pegel ist, beurteilt die Eingabezeitabschaltungszeit-Steuereinrichtung 16, dass Spracheingabe leicht durch das Umgebungsrauschen beeinflusst ist, d. h., die Erkennungsrate nimmt ab, und kürzt die ersten bis dritten Zeitabschaltungszeiten T1 bis T3 ausgehend von ersten bis dritten vorbestimmten Zeiten um erste bis dritte Zeitlängen, die im Voraus jeweils definiert worden sind (Schritt ST6). Wenn die ersten bis dritten Zeitabschaltungszeiten T1 bis T3 gekürzt worden sind, behält die Steuereinrichtung 13 den automatischen Neustart des Spracheingabeempfangs in dem AUS-Zustand (Schritt ST7).
  • Als Nächstes bestimmt die Zeitabschaltungszeit-Steuereinrichtung 16, ob die erste Zeitabschaltungszeit T1 verstrichen ist, seit der Empfang einer Spracheingabe begonnen worden ist (Schritt ST8). Wenn die Eingabezeitabschaltungszeit-Steuereinrichtung 16 bestimmt, dass die erste Zeitabschaltungszeit T1 verstrichen ist, seit der Empfang einer Spracheingabe gestartet worden ist, beendet die Steuereinrichtung 13 den Empfang einer Spracheingabe und kehrt zu Schritt ST2 zurück. Wenn demgegenüber die Eingabezeitabschaltungszeit-Steuereinrichtung bestimmt, dass die erste Zeitabschaltungszeit T1 nicht verstrichen ist, seit der Empfang der Spracheingabe begonnen worden ist, bestimmt die Steuereinrichtung 13, ob eine Äußerung begonnen hat oder nicht, und, wenn keine Äußerung begonnen hat, kehrt sie zum Schritt ST8 zurück.
  • Wenn eine Äußerung begonnen hat, bestimmt die Eingabezeitabschaltungszeit-Steuereinrichtung 16, ob die zweite Zeitabschaltzeit T2 verstrichen ist, seit der Empfang einer Spracheingabe begonnen worden ist (Schritt ST10). Wenn die Eingabezeitabschaltungszeit-Steuereinrichtung 16 bestimmt, dass die zweite Zeitabschaltungszeit T2 verstrichen ist, seit der Empfang einer Spracheingabe begonnen hat, beendet die Steuereinrichtung 13 den Empfang einer Spracheingabe und kehrt zurück zum Schritt ST2. Wenn demgegenüber die Eingabezeitabschaltungszeit-Steuereinrichtung bestimmt, dass die zweite Zeitabschaltzeit T2 nicht verstrichen ist, seit der Empfang einer Spracheingabe begonnen worden ist, bestimmt die Steuereinrichtung 13, ob die Äußerung abgeschlossen ist oder nicht, und, wenn die Äußerung nicht abgeschlossen ist, kehrt sie zurück zum Schritt ST10 und setzt den Prozess fort, oder beendet den Prozess andernfalls.
  • Wenn im Schritt ST5 der Rauschpegel geringer ist als der vorbestimmte Pegel, verlängert die Eingabezeitabschaltungszeit-Steuereinrichtung 16 die ersten bis dritten Zeitabschaltzeiten T1 bis T3, um im Voraus definierte Zeitlängen (Schritt ST12). Wenn die ersten bis dritten Zeitabschaltungszeiten T1 bis T3 verlängert sind, schaltet die Steuereinrichtung 13 den automatischen Neustart des Empfangs einer Spracheingabe EIN (d. h., schaltet die Eingabeneustartsteuereinrichtung 15 EIN: Schritt ST13) und führt Schritt ST8 aus.
  • Wenn die Eingabeneustartsteuereinrichtung 15 eingeschaltet wird, führt die Eingabeneustartsteuereinrichtung 15 in Übereinstimmung mit dem Rauschpegel eine Steuerung aus, ob der Empfang einer Spracheingabe neugestartet wird, nachdem eine Zeitabschaltung auftritt. Das heißt, wenn der Rauschpegel geringer als der vorbestimmte Pegel ist, startet die Eingabeneustartsteuereinrichtung 15 den Empfang einer Spracheingabe automatisch neu (mit anderen Worten, selbst wenn der Sprechschalter 14 nicht gedrückt ist).
  • Wie oben erwähnt, wird, weil die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1 auf solche Weise konstruiert ist, dass sie die ersten bis dritten Zeitabschaltzeiten T1 bis T3 verkürzt, wenn der Rauschpegel gleich oder höher als der vorbestimmte Pegel ist, d. h., das Umgebungsrauschen hoch ist, als ein Ergebnis des Einstellens der Zeitabschaltzeiten in Übereinstimmung mit dem Rauschpegel die Wahrscheinlichkeit, dass Rauschen und Sprache simultan in die Spracherkennungsvorrichtung eingegeben werden, gering und demnach ist die Wahrscheinlichkeit des Ergebnisses einer fehlerhaften Erkennung gering. Als ein Ergebnis wird ein Vorteil bereitgestellt, in der Lage zu sein, immer eine eingegebene Sprache mit hohem Grad an Präzision zu erkennen.
  • Wie oben erwähnt, wird, weil die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1 auf solche Weise konstruiert ist, dass sie den automatischen Neustart des Empfangs einer Spracheingabe einschaltet, wenn der Rauschpegel niedriger als der vorbestimmte Pegel ist, d. h., das Umgebungsrauschen gering ist, als ein Ergebnis automatischen Neustartens des Empfangs einer Spracheingabe, nachdem eine Zeitabschaltung auftritt, ein Vorteil bereitgestellt, imstande zu sein, den Benutzer in die Lage zu versetzen, die Operation des Drückens des Sprechschalters 14 zu unterlassen und so weiter.
  • Ausführungsform 2.
  • 4 ist ein Blockdiagramm zum Zeigen eines Beispiels einer Spracherkennungsvorrichtung in Übereinstimmung mit Ausführungsform 2 der vorliegenden Erfindung. In 4 sind dieselben Komponenten wie jene der Spracherkennungsvorrichtung, die in 1 gezeigt ist, durch dieselben Bezugsziffern gekennzeichnet wie jene in 1 gezeigten. Weil die Betriebsabläufe einer Steuereinrichtung und einer Eingabezeitabschaltsteuereinrichtung von jenen der Steuereinrichtung 13 und der Eingabezeitabschaltungszeit-Steuereinrichtung 16, die in der 1 gezeigt sind, abweichen, sind sie in der dargestellten Spracherkennungsvorrichtung 20 jeweils durch Bezugsziffern 21 bzw. 22 gekennzeichnet. In 4 hat eine Umgebungsbedingungserfassungseinrichtung 23 einen Geschwindigkeitssensor 23a, eine GPS-Antenne/einen GPS-Empfänger 23b, ein dreidimensionales bzw. 3D-Gyroskop 23c, einen Getriebenstufenpositionssensor 23d und eine Kartendatenbank (Karten-DB) 23e.
  • In 4 erfasst der Geschwindigkeitssensor 23a die Geschwindigkeit eines Fahrzeugs und gibt ein Fahrzeuggeschwindigkeitserfassungssignal aus. Die GPS-Antenne und Empfänger 23b erlangen ein GPS-Signal durch Empfangen des Signals mit einem GPS-Benutzer und das 3D-Gyroskop 23c gibt ein Gyroskoperfassungssignal aus, das die Position und die Fahrtrichtung des Fahrzeugs angibt. Der Gebtriebpositionssensor 23d erfasst die Getriebeposition des Fahrzeugs (d. h., die Gangstufe des Getriebes).
  • Die Umgebungsbedingungserfassungseinrichtung 23 erlangt die Momentanposition des Fahrzeugs mit dem GPS-Signal und korrigiert die Momentanposition in Übereinstimmung mit dem Gyroskop-Erfassungssignal bedarfsweise um die Momentanposition des Fahrzeugs zu erlangen. Die Umgebungsbedingungserfassungseinrichtung 23 durchsucht dann die Karten-DB 23e in Übereinstimmung mit der Momentanposition des Fahrzeugs, um als Fahrzeugmomentanpositionsinformation einen Straßentyp zu erlangen, entlang dem das Fahrzeug sich bewegt und den Typ eines Bereichs, in dem das Fahrzeug sich befindet (z. B. einen Typ, der angibt, ob der Bereich ein städtischer Bereich oder ein außerstädtischer Bereich ist) aus der Karte.
  • Die Umgebungsbedingungserfassungseinrichtung 23 erlangt auch als Fahrzustandinformation den Fahrzustand des Fahrzeugs gemäß dem Fahrzeuggeschwindigkeitserfassungssignal und dem Getriebepositionserfassungssignal. Diese Fahrzeugmomentanpositionsinformation und Fahrzustandsinformation werden der Steuereinrichtung 21 bereitgestellt und die Eingabezeitabschaltungszeit-Steuereinrichtung 22 stimmt die ersten bis dritten Zeitabschaltungszeiten T1 bis T3 auf der Basis der Fahrzeugmomentanpositionsinformation und der Fahrzustandsinformation ab, wie später erwähnt wird.
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung erläutert.
  • Es wird Bezug genommen auf 4 und 5, wenn die Spracherkennungsvorrichtung 20 eingeschaltet wird, versetzt die Steuereinrichtung 21 den automatischen Neustart des Empfangs einer Spracheingabe in den AUS-Zustand (Schritt ST14) und bestimmt dann, ob der automatische Neustart des Empfangs der Spracheingabe sich in dem EIN-Zustand befindet oder nicht (Schritt ST15). Zu dieser Zeit bestimmt die Steuereinrichtung 21, weil die Eingabeneustartsteuereinrichtung 15 sich in dem AUS-Zustand befindet, der Sprechschalter 14 gedrückt ist oder nicht (Schritt ST16) und verweilt im Bereitschaftszustand, bis der Sprechschalter 14 gedrückt wird. Wenn der Sprechschalter 14 gedrückt wird, wird der Empfang einer Spracheingabe durch die Steuereinrichtung 21 gestartet (Schritt ST17).
  • Als Nächstes bestimmt die Eingabezeitabschaltsteuereinrichtung gesteuert durch die Steuereinrichtung 21, ob eine weitere Bedingung erfüllt ist oder nicht (Schritt ST18). Es wird Bezug genommen auf 6, 6 ist ein Diagramm zum Zeigen eines Beispiels einer für die Steuereinrichtung 21 festgelegten Entscheidungstabelle. Im dargestellten Beispiel hat die Entscheidungstabelle eine Vielzahl von Aufzählungspunktnummern und alle Aufzählungspunktnummern entsprechende Bedingungen jeweils "ob der momentane Ort (Momentanposition) einer in der Nähe des Ziels ist "ob die Geschwindigkeit niedriger als 60 km/h ist", ob die Geschwindigkeit gleich oder höher als 60 km/h ist", "ob der Straßentyp eine untergeordnete Straße ist", ob der Gebietstyp ein Wohnbereich ist" und so weiter festgelegt und die ersten bis dritten Zeitabschaltzeiten (ms) werden für jeden der Vielzahl von Aufzählungspunkten definiert und "EIN" oder "AUS" des automatischen Neustarts (der automatische Neustart des Sprachempfangs) sind ebenfalls für jede Vielzahl von Aufzählungspunktnummer definiert.
  • Die Eingabezeitabschaltsteuereinrichtung 22 vergleicht die Momentanposition und den Fahrzustand des Fahrzeugs, die durch die oben erwähnte Fahrzeugmomentanpositionsinformation und Fahrzustandsinformation angegeben werden, mit der Entscheidungstabelle und bestimmt, ob die Entscheidungstabelle eine Aufzählungspunktnummer enthält, die der Momentanposition und dem Fahrzustand des Fahrzeugs entspricht, und, wenn die entsprechende Aufzählungspunktnummer in der Tabelle existiert, richtet sie die ersten bis dritten Zeitabschaltzeiten T1 bis T3 ein, die der entsprechenden Aufzählungspunktnummer entsprechen (Schritt ST19). Die Eingabeneustartsteuereinrichtung 15 richtet ferner den automatischen Neustart des Empfangs einer Spracheingabe in Entsprechung zu der entsprechenden Aufzählungspunktnummer ein (Schritt ST20).
  • Wie in 6 gezeigt, unterscheiden sich die ersten bis dritten Zeitabschaltzeit T3 und die automatische Produktionseinstellung in Übereinstimmung mit der Bedingung, und die ersten bis dritten Zeitabschaltzeiten T1 bis T3 werden eingerichtet und die EIN- oder AUS-Einstellung der automatischen Produktion wird vorgenommen auf der Basis sowohl der Fahrzeugmomentanpositionsinformation als auch der Fahrzustandsinformation. Gleichzeitig werden, wenn zwei oder mehr der durch die Aufzählungspunktnummern 1 bis 99 gezeigten Bedingungen simultan erfüllt sind, die ersten bis dritten Zeitabschaltzeiten T1 bis T3 und die automatische Reproduktion, die durch die Aufzählungspunktnummer 100 gezeigt werden, eingerichtet.
  • Nachdem die ersten bis dritten Zeitabschaltzeiten T1 bis T3 und die automatische Reproduktion derart eingerichtet worden sind, bestimmt die Eingabezeitabschaltsteuereinrichtung 22, ob die erste Zeitabschaltzeit T1 verstrichen ist, seitdem der Empfang der Spracheingabe gestartet worden ist (Schritt ST21). Wenn die Eingabezeitabschaltsteuereinrichtung 22 bestimmt, dass die erste Zeitabschaltzeit T1 verstrichen ist, seit der Empfang einer Spracheingabe gestartet worden ist, beendet die Steuereinrichtung 21 den Empfang einer Spracheingabe und kehrt zurück zu Schritt ST15. Wenn demgegenüber die Eingabezeitabschaltsteuereinrichtung bestimmt, dass die erste Zeitabschaltzeit T1 noch nicht verstrichen ist, seit der Empfang einer Spracheingabe gestartet worden ist, bestimmt die Steuereinrichtung 21, ob eine Sprachäußerung begonnen hat oder nicht (Schritt ST22), und, wenn noch kein Äußern begonnen hat, kehrt sie zurück zu Schritt ST21.
  • Wenn ein Äußern begonnen hat, bestimmt die Eingabezeitabschaltsteuereinrichtung 22, ob die zweite Zeitabschaltzeit T2 verstrichen ist, seit der Empfang einer Spracheingabe begonnen worden ist (Schritt ST23). Wenn die Eingabezeitabschaltsteuereinrichtung 22 bestimmt, dass die zweite Zeitabschaltzeit T2 verstrichen ist, seit der Empfang einer Spracheingabe begonnen worden ist, beendet die Steuereinrichtung 21 den Empfang einer Spracheingabe und kehrt zurück zu Schritt ST15. Wenn demgegenüber die Eingabezeitabschaltsteuereinrichtung bestimmt, dass die zweite Zeitabschaltzeit T2 noch nicht verstrichen ist, seit der Empfang einer Spracheingabe begonnen worden ist, bestimmt die Steuereinrichtung 21, ob die Äußerung beendet ist (Schritt ST24) und, wenn das Äußern noch nicht abgeschlossen ist, kehrt sie zurück zu Schritt ST23 und setzt den Prozess fort, oder findet andernfalls den Prozess.
  • Wie oben erwähnt, ist, weil die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2 derart aufgebaut ist, dass sie die ersten bis dritten Zeitabschaltzeiten T1 bis T3 in Übereinstimmung mit der Momentanposition und dem Fahrzustand des Fahrzeugs einrichtet, die Wahrscheinlichkeit, dass ein von der Momentanposition und dem Fahrzustand des Fahrzeugs herrührendes Rauschen in die Spracherkennungsvorrichtung gemeinsam mit einer Spracheingabe eingegeben wird, gering, und demnach wird die Wahrscheinlichkeit einer resultierenden fehlerhaften Erkennung niedrig. Als ein Ergebnis wird ein Vorteil bereitgestellt, in der Lage zu sein, immer eine eingegebene Sprache mit einem hohen Grand an Präzision zu erkennen.
  • Wie oben erwähnt, wird, weil die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2 auf solche Weise konstruiert ist, sie gemäß der Momentanposition und dem Fahrzustand des Fahrzeugs bestimmt, ob der automatische Neustart des Empfangs einer Spracheingabe vorgenommen werden soll, als ein Ergebnis des automatischen Neustart des Empfangs einer Spracheingabe in Übereinstimmung mit der Momentanposition und dem Fahrzustand des Fahrzeugs, nachdem eine Zeitabschaltung auftritt, ein Vorteil bereitgestellt, imstande zu sein, den Benutzer in die Lage zu versetzen, das Betätigen des Drückens des Sprechschalters 14 wegzulassen und so weiter.
  • Ausführungsform 3.
  • 7 ist ein Blockdiagramm zum Zeigen eines Beispiels einer Spracherkennungsvorrichtung in Übereinstimmung mit Ausführungsform 3 der vorliegenden Erfindung. In 7 sind dieselben Komponenten wie jene der in 1 gezeigten Spracherkennungsvorrichtung durch dieselben Bezugsziffern gekennzeichnet wie jene in 1 gezeigten. In der dargestellten Spracherkennungsvorrichtung 30 sind, weil die Betriebsabläufe einer Steuereinrichtung, einer Eingabezeitabschaltsteuereinrichtung und einer Eingabeneustartsteuereinrichtung sich von jenen der Steuereinrichtung 13, der Eingabezeitabschaltungszeit-Steuereinrichtung 16 und der Eingabeneustartsteuereinrichtung 15, die in 1 gezeigt werden, unterscheiden, diese jeweils durch Bezugsziffern 31, 32 bzw. 33 gekennzeichnet. In 7 ist eine Umgebungsbedingungserfassungseinrichtung 34 mit einer Dialoginhalte-Datenbank bzw. Dialoginhalte-DB 34a vorgesehen.
  • Dialoginhalte, mit denen die Spracherkennungsvorrichtung 30 jeweils mit dem Benutzer interagiert, werden in dieser Dialoginhalte-DB 34a gespeichert, und die Umgebungsbedingungserfassungseinrichtung 34 stellt einen Dialoginhalt (z. B. eine Frage), die in der Dialoginhalte-DB 34a gespeichert ist, der Steuereinrichtung 31 in Übereinstimmung mit den Umgebungsbedingungen des Fahrzeugs bereit und die Steuereinrichtung 31 gibt diese Frage mit Hilfe der Ausgabeeinrichtung 17 aus. Die Eingabezeitabschaltsteuereinrichtung 32 stimmt dann die ersten bis dritten Zeitabschaltzeiten T1 bis T3 in Übereinstimmung mit einem Grad an Schwierigkeit im Dialog ab, welcher später erläutert wird, gesteuert durch die Steuereinrichtung 31. Zudem bringt die Eingabeneustartsteuereinrichtung 33 den automatischen Neustart des Empfangs einer Eingabe in den EIN- oder AUS-Zustand in Übereinstimmung mit dem Grad an Schwierigkeit im Dialog gesteuert durch die Steuereinrichtung 31.
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung erläutert.
  • Es wird Bezug genommen auf 7 und 8, wenn die Spracherkennungsvorrichtung 30 eingeschaltet wird, versetzt die Steuereinrichtung 31 den automatischen Neustart des Empfangs der Spracheingabe in den AUS-Zustand (Schritt ST25) und bestimmt dann, ob der automatische Neustart des Empfangs einer Spracheingabe sich in dem EIN-Zustand befindet oder nicht (Schritt ST26). Zu dieser Zeit bestimmt die Steuereinrichtung 31, weil die Eingabeneustartsteuereinrichtung 33 in den AUS-Zustand versetzt ist, ob der Sprechschalter 14 gedrückt ist oder nicht (Schritt ST27) und verharrt im Bereitschaftszustand, bis der Sprechschalter 14 gedrückt wird. Wenn der Sprechschalter 14 gedrückt wird, wird der Empfang einer Spracheingabe durch die Steuereinrichtung 31 gestartet (Schritt ST28).
  • Daraufhin gibt die Steuereinrichtung 31 mit Hilfe der Ausgabeeinrichtung 17 eine in der Dialoginhalte-DB 34a gespeicherte Frage aus. Eine Tabelle der Schwierigkeitsgrade im Dialog (nachstehend Dialogschwierigkeitsgradtabelle), wie sie beispielsweise in 9 gezeigt wird, ist in der Dialoginhalte-DB 34a gespeichert und dieser Dialogschwierigkeitsgradtabelle wird ein Schwierigkeitsgrad im Dialog (d. h., eine Bewertungszahl) in Entsprechung zu jedem der Dialoginhalte (d. h., jeder Frage) eingerichtet. Die Steuereinrichtung 31 akquiriert einen Schwierigkeitsgrad (d. h., eine Bewertungszahl) in Entsprechung zu dem Dialoginhalt unter Bezugnahme auf die Dialogschwierigkeitsgradtabelle und beurteilt die Bewertungszahl (Schritt ST29).
  • Wenn die Bewertungszahl kleiner als 20 ist, kürzt die Eingabezeitabschaltsteuereinrichtung 32 die ersten bis dritten Zeitabschaltzeiten T1 bis T3 von den ersten bis dritten vorbestimmten Zeiten jeweils um erste bis dritte Zeitlängen, die im Voraus festgelegt worden sind (Schritt ST30). Die Steuereinrichtung 13 behält auch den automatischen Neustart des Spracheingabeempfangs in dem AUS-Zustand (Schritt ST31). Als Nächstes bestimmt die Eingabezeitabschaltsteuereinrichtung 32, ob die erste Zeitabschaltzeit T1 verstrichen ist, seit der Empfang einer Spracheingabe gestartet worden ist (Schritt ST32).
  • Wenn die Eingabezeitabschaltsteuereinrichtung 32 bestimmt, dass die erste Zeitabschaltzeit T1 verstrichen ist, seit der Empfang einer Spracheingabe gestartet worden ist, beendet die Steuereinrichtung 31 den Empfang einer Spracheingabe und kehrt zum Schritt ST26 zurück. Wenn demgegenüber die Eingabezeitabschaltsteuereinrichtung bestimmt, dass die erste Zeitabschaltzeit T1 noch nicht verstrichen ist, seit der Empfang einer Spracheingabe gestartet worden ist, bestimmt die Steuereinrichtung 31, ob ein Äußern begonnen hat oder nicht (Schritt ST33) und, wenn noch nicht mit einer Äußerung begonnen worden ist, kehrt sie zurück zum Schritt S32).
  • Wenn mit einer Äußerung begonnen worden ist, bestimmt die Eingabezeitabschaltsteuereinrichtung 32, ob die zweite Zeitabschaltzeit T2 verstrichen ist, seit der Empfang einer Spracheingabe gestartet worden ist (Schritt ST34). Wenn die Eingabezeitabschaltsteuereinrichtung 32 bestimmt, dass die zweite Zeitabschaltzeit T2 verstrichen ist, seit der Empfang einer Spracheingabe begonnen hat, beendet die Steuereinrichtung 31 den Empfang einer Spracheingabe und kehrt zurück zum Schritt ST26. Wenn demgegenüber die Eingabezeitabschaltsteuereinrichtung bestimmt, dass die zweite Zeitabschaltzeit T2 nicht verstrichen ist, seit der Empfang einer Spracheingabe begonnen worden ist, bestimmt die Steuereinrichtung 31, ob das Äußern abgeschlossen ist oder nicht (Schritt ST35), und, wenn das Äußern nicht abgeschlossen ist, kehrt sie zurück zum Schritt ST34 und setzt den Prozess fort, oder beendet andernfalls den Prozess.
  • Wenn im Schritt ST29 die Bewertungszahl gleich oder größer als 20 ist und kleiner als 30, legt die Eingabezeitabschaltsteuereinrichtung 32 die ersten bis dritten Zeitabschaltzeiten T1 bis T3 jeweils auf die ersten bis dritten vorbestimmten Zeiten fest und geht dann zu Schritt ST32.
  • Wenn demgegenüber im Schritt ST29 die Bewertungszahl gleich oder größer als 30 ist, verlängert die Eingabezeitabschaltsteuereinrichtung 32 die ersten bis dritten Zeitabschaltzeiten T1 bis T3 von den ersten bis dritten vorbestimmten Zeiten jeweils um erste bis dritte im Voraus definierte Zeitlängen (Schritt ST36). Zudem schaltet die Steuereinrichtung 31 den automatischen Neustart des Spracheingabeempfangs ein (Schritt ST37). Daraufhin wird der Schritt ST32 ausgeführt. Wenn die Eingabeneustartsteuereinrichtung 33 eingeschaltet wird, steuert die Eingabeneustartsteuereinrichtung 33, ob der Empfang einer Spracheingabe gemäß der Bewertungszahl neu gestartet wird, nachdem eine Zeitabschaltung auftritt. Das heißt, die Eingabeneustartsteuereinrichtung 33 startet den Empfang einer Spracheingabe automatisch neu, wenn die Bewertungszahl gleich oder größer als 30 ist.
  • Wie oben erwähnt, kann der Benutzer, weil die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 3 auf solche Weise konstruiert ist, dass sie die ersten bis dritten Zeitabschaltzeiten T1 bis T3 verlängert, wenn der Schwierigkeitsgrad des Dialoginhalts hoch ist, sich mit ausreichender Zeit äußern und die Akzeptanzrate der Äußerung kann verbessert werden. Als ein Ergebnis können die durch die Bedienung bedingte Belastung und der mentale Stress des Benutzers reduziert werden.
  • Weil die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 3 auf solche Weise konstruiert ist, dass sie den automatischen Neustart des Empfangs einer Spracheingabe in Übereinstimmung mit dem Grad an Schwierigkeit des Dialoginhalts einschaltet, wird als ein Ergebnis des automatischen Neustart des Empfangs einer Spracheingabe, nachdem eine Zeitabschaltung auftritt, ein Vorteil bereitgestellt, den Benutzer in die Lage zu versetzen, die Operation des Drückens des Sprechschalters 14 wegzulassen und so weiter.
  • Gewerbliche Anwendbarkeit
  • Wie oben erwähnt, ist die Spracherkennungsvorrichtung in Übereinstimmung mit der vorliegenden Erfindung geeignet zum Vorsehen einer Spracherkennungsvorrichtung, die eine eingegebene Sprache mit einem hohen Grad an Präzision erkennen kann.
  • Zusammenfassung
  • Spracherkennungsvorrichtung
  • Eine Spracherkennungsvorrichtung 10 schließt eine Spracherkennungseinrichtung 12 ein zum Durchführen von Spracherkennung und eine Steuereinrichtung zum Steuern des Empfangs einer Spracheingabe in die Spracherkennungseinrichtung, und zum Durchführen der Erkennung in Übereinstimmung mit einem Ergebnis der durch die Spracherkennungseinrichtung akquirierten Spracherkennung. In dieser Spracherkennungsvorrichtung steuert die Steuereinrichtung den Empfang einer Sprache in Übereinstimmung mit einer Zeitabschaltzeit, die das Ende des Empfangs einer Sprache definiert. Die Spracherkennungsvorrichtung schließt ferner eine Umgebungsbedingungserfassungseinrichtung 18 ein zum Erfassen einer Umgebungsbedingung, und eine Zeitabschaltzeit-Steuereinrichtung 16 zum Ändern der Zeitabschaltzeit in Übereinstimmung mit der durch die Umgebungsbedingungserfassungseinrichtung erfassten Umgebungsbedingung.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • - JP 57-30913 A [0005]
    • - JP 58-50598 A [0005]

Claims (8)

  1. Spracherkennungsvorrichtung, umfassend: eine Spracherkennungseinrichtung zum Ausführen von Spracherkennung; eine Steuereinrichtung zum Steuern des Empfangs einer Spracheingabe zu der Spracherkennungseinrichtung in Übereinstimmung mit einer Zeitabschaltzeit, die ein Ende des Empfangs einer Spracheingabe definiert, und zum Durchführen der Erkennung in Übereinstimmung mit einem Ergebnis der durch die Spracherkennungseinrichtung erlangten Spracherkennung; eine Umgebungsbedingungserfassungseinrichtung zum Erfassen einer Umgebungsbedingung; und eine Zeitabschaltzeit-Steuereinrichtung zum Ändern der Zeitabschaltzeit in Übereinstimmung mit der durch die Umgebungsbedingungserfassungseinrichtung erfassten Umgebungsbedingung.
  2. Spracherkennungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Zeitabschaltzeit eine erste Zeitabschaltzeit einschließt, die ein Zeitintervall von einem Beginn des Empfangs einer Spracheingabe bis zum Beginn der Sprachäußerung definiert ist, und eine zweite Zeitabschaltzeit, die ein Zeitintervall definiert von dem Beginn des Empfangs einer Spracheingabe bis zu dem Ende der Sprachäußerung, und eine dritte Zeitabschaltzeit, die ein Zeitintervall definiert, das dem Ende der Sprachäußerung folgt.
  3. Spracherkennungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Vorrichtung eine Empfangsneustartsteuereinrichtung einschließt zum Bestimmen, ob der Empfang einer Spracheingabe neu gestaltet werden soll, in Übereinstimmung mit der durch die Umgebungsbedingungserfassungseinrichtung erfassten Umgebung, nachdem der Empfang einer Spracheingabe per Zeitabschaltung beendet worden ist.
  4. Spracherkennungsvorrichtung nach Anspruch 3, dadurch gekennzeichnet, dass die Umgebungsbedingungserfassungseinrichtung als die Umgebungsbedingung einen Rauschpegel in einer umliegenden Umgebung erfasst, die Zeitabschaltsteuereinrichtung die Zeitabschaltzeit reduziert, wenn der Rauschpegel gleich oder höher als ein vorbestimmter Pegel ist, und die Neustartsteuereinrichtung einen Neustart des Empfangs einer Spracheingabe gewährt, wenn der Rauschpegel niedriger ist als der vorbestimmte Pegel.
  5. Spracherkennungsvorrichtung nach Anspruch 3, dadurch gekennzeichnet, dass die Umgebungsbedingungserfassungseinrichtung als die Umgebungsbedingung mindestens eines von einer Momentanpositionsinformation, die eine Momentanposition eines Bewegobjekts angibt, und einer Fahrzustandsinformation, die einen Fahrzustand des Bewegobjekts angibt, erfasst, die Zeitabschaltsteuereinrichtung ein voreingestelltes Kriterium mit der Umgebungsbedingung vergleicht und die Zeitabschaltzeit ändert, und die Neustartsteuereinrichtung das Kriterium mit der Umgebungsbedingung vergleicht und bestimmt, ob der Neustart des Empfangs einer Spracheingabe zu gewähren ist.
  6. Spracherkennungsvorrichtung nach Anspruch 5, dadurch gekennzeichnet, dass die Momentanpositionsinformation die Momentanposition des Bewegobjekts angibt und ein Typ der Straße, auf der das Bewegobjekt sich bewegt, und einen Typ des Bereichs, in dem das Bewegobjekt sich bewegt.
  7. Spracherkennungsvorrichtung nach Anspruch 5, dadurch gekennzeichnet, dass mindestens eine Bewegungsgeschwindigkeit des Bewegobjekts und eine Getriebeschaltposition in einem Getriebe des Bewegobjekts in der Fahrzustandinformation eingeschlossen sind.
  8. Spracherkennungsvorrichtung nach Anspruch 3, dadurch gekennzeichnet, dass die Umgebungsbedingungserfassungseinrichtung eine Tabelle der Schwierigkeitsgrade im Dialog hat, in der Dialoginhalte und der jeweilige Grad der Schwierigkeit, der für die jeweiligen Dialoginhalte definiert ist, eingeschlossen sind, die Umgebungsbedingungserfassungseinrichtung einen Schwierigkeitsgrad in Entsprechung zu dem Dialoginhalt auf einer Basis der Tabelle des Schwierigkeitsgrads im Dialog akquiriert, die Zeitabschaltsteuereinrichtung die Zeitabschaltzeit in Übereinstimmung mit dem Schwierigkeitsgrad, der durch die Umgebungsbedingungserfassungseinrichtung akquiriert worden ist, ändert, und die Neustartsteuereinrichtung in Übereinstimmung mit dem Schwierigkeitsgrad bestimmt, ob das Neustarten des Empfangs einer Spracheingabe zu gewähren ist.
DE112006002989T 2005-12-14 2006-09-13 Spracherkennungsvorrichtung Ceased DE112006002989T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005-360816 2005-12-14
JP2005360816 2005-12-14
PCT/JP2006/318182 WO2007069377A1 (ja) 2005-12-14 2006-09-13 音声認識装置

Publications (1)

Publication Number Publication Date
DE112006002989T5 true DE112006002989T5 (de) 2009-02-19

Family

ID=38162692

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112006002989T Ceased DE112006002989T5 (de) 2005-12-14 2006-09-13 Spracherkennungsvorrichtung

Country Status (5)

Country Link
US (1) US8090582B2 (de)
JP (1) JP4846735B2 (de)
CN (1) CN101331538A (de)
DE (1) DE112006002989T5 (de)
WO (1) WO2007069377A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017157684A1 (de) 2016-03-16 2017-09-21 Bayerische Motoren Werke Aktiengesellschaft Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2609246A1 (en) * 2005-06-01 2006-12-07 Sanyo Electric Co., Ltd. Telephone and method of controlling telephone
KR100810275B1 (ko) * 2006-08-03 2008-03-06 삼성전자주식회사 차량용 음성인식 장치 및 방법
US8355913B2 (en) * 2006-11-03 2013-01-15 Nokia Corporation Speech recognition with adjustable timeout period
CN101689366B (zh) * 2007-07-02 2011-12-07 三菱电机株式会社 声音识别装置
US8380499B2 (en) * 2008-03-31 2013-02-19 General Motors Llc Speech recognition adjustment based on manual interaction
US8359020B2 (en) * 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
CN103403798B (zh) 2011-04-08 2016-09-28 三菱电机株式会社 声音识别装置及导航装置
CN103544953B (zh) * 2013-10-24 2016-01-20 哈尔滨师范大学 一种基于背景噪声最小统计量特征的声音环境识别方法
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
CN104966337B (zh) * 2015-05-29 2018-10-23 中科富创(北京)科技有限公司 基于声波的开箱方法及装置
US10580405B1 (en) * 2016-12-27 2020-03-03 Amazon Technologies, Inc. Voice control of remote device
US10490207B1 (en) * 2018-05-11 2019-11-26 GM Global Technology Operations LLC Automated speech recognition using a dynamically adjustable listening timeout
CN112243526A (zh) * 2018-06-05 2021-01-19 三星电子株式会社 语音辅助设备及其方法
KR20210062838A (ko) * 2019-11-22 2021-06-01 엘지전자 주식회사 인공지능 기반의 음성처리 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5730913A (en) 1980-08-01 1982-02-19 Nissan Motor Co Ltd Speech recognition response device for automobile
JPS5850598A (ja) 1981-09-22 1983-03-25 富士通株式会社 音声認識装置の入力監視方式

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994022131A2 (en) * 1993-03-25 1994-09-29 British Telecommunications Public Limited Company Speech recognition with pause detection
JPH08297497A (ja) * 1995-04-27 1996-11-12 Fujitsu Ten Ltd 車両用音声処理装置
US6397186B1 (en) 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
JP4393648B2 (ja) * 2000-01-11 2010-01-06 富士通株式会社 音声認識装置
JP3916861B2 (ja) * 2000-09-13 2007-05-23 アルパイン株式会社 音声認識装置
JP2003091299A (ja) 2001-07-13 2003-03-28 Honda Motor Co Ltd 車載用音声認識装置
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
JP4198403B2 (ja) * 2002-07-04 2008-12-17 株式会社デンソー 対話型しりとりシステム
JP2004094077A (ja) * 2002-09-03 2004-03-25 Nec Corp 音声認識装置及び制御方法並びにプログラム
JP2004212533A (ja) * 2002-12-27 2004-07-29 Ricoh Co Ltd 音声コマンド対応機器操作装置、音声コマンド対応機器、プログラム、及び記録媒体
JP4026543B2 (ja) * 2003-05-26 2007-12-26 日産自動車株式会社 車両用情報提供方法および車両用情報提供装置
US7809569B2 (en) * 2004-12-22 2010-10-05 Enterprise Integration Group, Inc. Turn-taking confidence
JP4667085B2 (ja) 2005-03-11 2011-04-06 富士通株式会社 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5730913A (en) 1980-08-01 1982-02-19 Nissan Motor Co Ltd Speech recognition response device for automobile
JPS5850598A (ja) 1981-09-22 1983-03-25 富士通株式会社 音声認識装置の入力監視方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017157684A1 (de) 2016-03-16 2017-09-21 Bayerische Motoren Werke Aktiengesellschaft Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
DE102016204315A1 (de) 2016-03-16 2017-09-21 Bayerische Motoren Werke Aktiengesellschaft Fortbewegungsmittel, System und Verfahren zur Anpassung einer Länge einer erlaubten Sprechpause im Rahmen einer Spracheingabe

Also Published As

Publication number Publication date
CN101331538A (zh) 2008-12-24
JP4846735B2 (ja) 2011-12-28
JPWO2007069377A1 (ja) 2009-05-21
US8090582B2 (en) 2012-01-03
US20090222265A1 (en) 2009-09-03
WO2007069377A1 (ja) 2007-06-21

Similar Documents

Publication Publication Date Title
DE112006002989T5 (de) Spracherkennungsvorrichtung
DE60032193T2 (de) Verfahren und System zur Auswahl erkannter Wörter bei der Korrektur erkannter Sprache
DE60024506T2 (de) Verfahren zur mehrstufigen Spracherkennung und Funkübertragungsvorrichtung zur Steuerung durch Sprache
DE102009051508B4 (de) Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
DE102016015877B4 (de) Fahrzeug-Aufmerksamkeitssteuersystem
DE60010106T2 (de) Verfahren und vorrichtung zum unterscheidenden training von akustischen modellen in einem spracherkennungssystem
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE10306082B4 (de) Sprachverarbeitungseinheit mit Prioritätszuweisungsfunktion für Ausgangsstimmen
DE112012007103B4 (de) Spracherkennungsvorrichtung
DE112008001334B4 (de) Spracherkennungsvorrichtung
DE102014017384B4 (de) Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE10012572C2 (de) Vorrichtung und Verfahren zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem
DE112015002223T5 (de) Fahrunterstützungsvorrichtung für Fahrzeuge sowie Fahrunterstützungsverfahren für Fahrzeuge
DE19952289B4 (de) Automatisches Geschwindigkeitsänderungssteuerverfahren und automatische Geschwindigkeitsänderungssteuerungsvorrichtung
DE102009028251A1 (de) Verfahren zum unterstützen Einparken in eine Parklücke und Vorrichtung hierzu
EP1256936A2 (de) Verfahren zum Training oder zur Adaption eines Spracherkenners
DE102005030380B4 (de) Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
WO2018069027A1 (de) Multimodaler dialog in einem kraftfahrzeug
DE102012014207A1 (de) Fahrerassistenzeinrichtung zum Durchführen einesvollautonomen Rangiervorgangs, Kraftfahrzeug undentsprechendes Verfahren
EP2734998A2 (de) Assistenzsystem
EP3152753A1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
DE102018215293A1 (de) Multimodale Kommunikation mit einem Fahrzeug
DE102005030965B4 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection
R003 Refusal decision now final

Effective date: 20110221

8125 Change of the main classification

Ipc: G10L 15/00 AFI20060913BHDE

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015280000

Ipc: G10L0015000000

Effective date: 20110323