-
Die Erfindung betrifft ein Verfahren zum Erfassen einer gesprochenen Spracheingabe eines Benutzers in einem Außenbereich eines Kraftfahrzeugs. Die Spracheingabe wird mittels einer Mikrofonanordnung erfasst, bei welcher hierzu zunächst eine Mikrofonauswahl aus mehreren Mikrofonen stattfindet und/oder eine Richtwirkung der Mikrofonanordnung eingestellt wird. Zu der Erfindung gehört auch ein Kraftfahrzeug, das dazu eingerichtet ist, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen.
-
In einem Kraftfahrzeug kann eine Spracherkennungseinrichtung bereitgestellt sein, damit ein Benutzer per Spracheingabe einen Sprachbefehl äußern oder aussprechen kann, der dann von der Spracherkennungseinrichtung erkannt werden kann, sodass der Benutzer per Spracheingabe zumindest eine Komponente des Kraftfahrzeugs steuern oder bedienen kann. Eine konventionelle Spracherkennungseinrichtung ist derart aufgebaut, dass ein akustischer Sensor, also eine Mikrofonanordnung, die Sprachkommandos oder Sprachbefehle im Inneren des Kraftfahrzeugs von einem darin sitzenden Benutzer erfasst oder aufnimmt und mithilfe eines Algorithmus den gesprochenen Sprachbefehl auswertet und hierdurch eine vom Benutzer durch den Sprachbefehl gewünschte oder ausgewählte Aktion ausführt. Bei einer solchen Spracherkennungseinrichtung sind die Mikrofone der Mikrofonanordnung für die akustische Situation im Kraftfahrzeuginnenraum hinreichend optimal positioniert und können beispielsweise als Richtmikrofone oder mittels einer durch Signalverarbeitung erreichten Richtwirkung auf die Sitzpositionen ausgerichtet sein, um möglichst viel Direktschall von dem sprechenden Benutzer zu erfassen und gleichzeitig Fahrgeräusche oder andere Umgebungsgeräusche (zum Beispiel einer Audio-Ausgabeeinrichtung oder der Frontscheibe) zu dämpfen.
-
Bei der Erfassung einer Spracheingabe in einem Außenbereich des Kraftfahrzeugs ist dagegen eine voreingestellte Ausrichtung einer Richtwirkung von Mikrofonen nicht möglich, da sich der Benutzer in einem 360°-Umfeld im Umgebungsbereich des Kraftfahrzeugs aufhalten kann, während er die Spracheingabe spricht.
-
Aus der
EP 1 908 640 A1 ist hierzu bekannt, in den Scheinwerfern und Rückleuchten eines Kraftfahrzeugs jeweils mehrere Mikrofone anzuordnen, über welche jeweils durch Einstellen einer Richtwirkung eine gerichtete Schallerfassung in einen Teilbereich der Umgebung des Kraftfahrzeugs durchgeführt werden kann. Die Richtwirkung wird adaptiv mittels eines Beamforming-Algorithmus durchgeführt, welcher in den Mikrofonsignalen die Stimme des Benutzers als Orientierungssignal verwendet und die Richtungswirkung derart einstellt, dass die Stimme mit maximaler Lautstärke empfangen wird. Je nachdem, wo sich das Kraftfahrzeug aber gerade befindet, können Störgeräusche der Umgebung derart laut sein und abwechselnd aus unterschiedlichen Richtungen auf die Mikrofone einfallen, dass ein Beamforming-Algorithmus sprunghaft die Richtwirkung immer wieder von dem Benutzer weg hin zu einer Störquelle ausrichtet. Hierdurch wird die Erfassung der Spracheingabe unterbrochen oder gestört.
-
Aus der
DE 103 39 973 A1 ist ein akustisches Mikrofon-Frontend für einen Spracherkenner eines Kraftfahrzeugs bekannt, wobei die Mikrofonsignale einzelner Mikrofone in Abhängigkeit davon ausgewählt werden, welches Potential für die bestmögliche Erkennungsleistung sie aufweisen.
-
Aus der
DE 10 2014 203 914 A1 ist eine Beamforming-Methode bekannt, um den Innenraum eines Kraftfahrzeugs eine Richtwirkung eines Mikrofonarrays oder einer Mikrofonanordnung auszurichten. Hierzu ist ein Positionssensor im Innenraum des Kraftfahrzeugs bereitgestellt, um die Position eines sprechenden Fahrzeuginsassen zu ermitteln und daraufhin die Richtwirkung der Mikrofonanordnung dahin ausrichten zu können. Nachteilig hierbei ist, dass ein solcher Positionssensor in einem Außenbereich eines Kraftfahrzeugs nicht angebracht werden kann.
-
Der Erfindung liegt die Aufgabe zugrunde, eine Spracheingabe eines Benutzers in einem Außenbereich eines Kraftfahrzeugs zu erfassen.
-
Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Ausführungsformen der Erfindung sind durch die abhängigen Patentansprüche, die folgende Beschreibung sowie die Figur beschrieben.
-
Durch die Erfindung ist ein Verfahren zum Erfassen einer Spracheingabe eines Benutzers in einem Außenbereich eines Kraftfahrzeugs bereitgestellt. Durch eine Steuereinheit des Kraftfahrzeugs wird für eine Mikrofonanordnung des Kraftfahrzeugs eine Mikrofonauswahl und/oder eine Richtwirkung in Abhängigkeit von einem Richtungssignal eingestellt. Die Mikrofonanordnung kann ein Mikrofon oder mehrere Mikrofone umfassen. Bei der Mikrofonauswahl wird zumindest ein Mikrofon der Mikrofonanordnung zum Erfassen der Spracheingabe ausgewählt. Beim Einstellen der Richtwirkung wird mittels der Mikrofonsignale mehrerer Mikrofone der Mikrofonanordnung das aus dem Stand der Technik bekannte Beamforming (Strahlformung) angewendet. Das hierbei zugrundegelegte Richtungssignal gibt eine relative Lage des Benutzers bezüglich des Kraftfahrzeugs an. Das Richtungssignal kann also beispielsweise die Richtung angeben, in welcher der Benutzer vom Kraftfahrzeug aus gesehen steht oder sich befindet. Das Richtungssignal kann beispielsweise eine Winkelangabe sein oder eine Vektorangabe. Ist die Mikrofonauswahl getroffen und/oder die Richtwirkung auf die Lage des Benutzers ausgerichtet, so wird gemäß dem Verfahren die Spracheingabe mittels der Mikrofonanordnung erfasst.
-
Damit die Mikrofonauswahl und/oder das Einstellen der Richtwirkung nicht beispielsweise durch eine Störschallquelle abgelenkt oder verfälscht wird, ist erfindungsgemäß nun vorgesehen, dass zum Ermitteln des Richtungssignals durch die Steuereinheit mittels einer von der Mikrofonanordnung verschiedenen Erfassungseinrichtung die relative Lage des Benutzers und/oder die relative Lage zumindest eines von dem Benutzer mitgeführten Benutzergeräts erkannt wird. Mit anderen Worten nutzt die Steuereinheit eine Erfassungseinrichtung, welche dem Benutzer und/oder die das zumindest eine mitgeführte Benutzergerät ortet oder lokalisiert. Mit anderen Worten wird ein von dem Benutzer und/oder dem von diesem mitgeführten zumindest einen Benutzergerät ausgehendes Signal genutzt, um die relative Lage des Benutzers zu erkennen. Die Erfassung der relativen Lage erfolgt also passiv durch Beobachten oder Auswerten eines von dem Benutzer und/oder von dem zumindest einen Benutzergerät ausgehenden Signals. Die so erkannte relative Lage wird dann mittels des Richtungssignals signalisiert. Die relative Lage kann also insbesondere die Richtung sein, aus welcher das erkannte Signal des Benutzers und/oder des zumindest einen Benutzergeräts bei der Erfassungseinrichtung eintrifft.
-
Durch die Erfindung ergibt sich der Vorteil, dass beim Erfassen der Spracheingabe nicht ausschließlich die Mikrofonanordnung selbst als Grundlage zum Ermitteln der relativen Lage des Benutzers verwendet werden muss. Mittels der von der Mikrofonanordnung verschiedenen Erfassungseinrichtung kann eine zum Beispiel vom Störschall im Außenbereich unabhängige Erkennung der relativen Lage auf der Grundlage eines vom Benutzer und/oder dem zumindest einen Benutzergerät ausgehenden, von Schall verschiedenen Signal genutzt werden, um die relative Lage zu erkennen oder zu ermitteln.
-
Zu der Erfindung gehören auch Ausführungsformen, durch die sich zusätzliche Vorteile ergeben.
-
Eine Ausführungsform sieht vor, dass die Erfassungseinrichtung eine Antennenanordnung aufweist und die Erfassungseinrichtung dazu eingerichtet ist, eine Einfallsrichtung, aus welcher zumindest ein Funksignal des Benutzergeräts auf die Antennenanordnung einfällt, zu ermitteln und die ermittelte Einfallsrichtung als die relative Lage zu signalisieren. Mit anderen Worten wird anhand der ermittelten Einfallsrichtung das Richtungssignal ermittelt. Es wird also die sogenannte DOA (Direction of Arrival) mittels einer Antennenanordnung ermittelt. Hierzu kann beispielsweise ein Zeitversatz ermittelt werden, der sich zwischen dem Empfang desselben Funksignals an zwei unterschiedlichen Antennen der Antennenanordnung ergibt. Aus dem Zeitversatz kann auf einen Einfallswinkel des Funksignals relativ zu der Antennenanordnung rückgeschlossen werden. Die Ausführungsform weist den Vorteil auf, dass eine zwischen dem zumindest einen Benutzergerät einerseits und dem Kraftfahrzeug andererseits bestehende oder aufgebaute Funkverbindung zusätzlich dazu genutzt wird, die relative Lage zu ermitteln.
-
Eine Ausführungsform sieht vor, dass als das zumindest eine Funksignal ein Bluetooth-Signal und/oder ein WLAN-Signal (WLAN - Wireless Local Area Network) aus einem mobilen Endgerät empfangen wird. Das mobile Endgerät stellt somit ein Benutzergerät dar. Ein mobiles Endgerät kann beispielsweise ein Smartphone oder ein Tablet-PC oder eine Smartwatch sein. Zusätzlich oder alternativ zu einem mobilen Endgerät kann das zumindest eine Funksignal ein Kommunikationssignal eines Funkschlüssels sein, das von dem Kraftfahrzeug empfangen wird. Ein solcher Funkschlüssel stellt dann auch ein Benutzergerät dar. Das Kommunikationssignal kann von dem Funkschlüssel beispielsweise zum Steuern einer Verriegelung oder Entriegelung des Kraftfahrzeugs ausgesendet sein. Die drei beschriebenen Funksignale weisen den Vorteil auf, dass für diese in einem Kraftfahrzeug in der Regel bereits eine Antennenanordnung bereitgestellt ist, mittels welcher sich die Einfallsrichtung ermitteln lässt. Bei einem Bluetooth-Signal kann dies im Zusammenhang mit dem Standard Bluetooth LE (Low Energy) vorgesehen sein. Bei einem WLAN-Signal sind mehr Antennenanordnungen ebenfalls verfügbar. Bei einem Funkschlüssel ist die Ermittlung der Einfallsrichtung im Zusammenhang mit einer Absicherung oder Plausibilisierung des Kommunikationssignals des Funkschlüssels vorgesehen.
-
Eine Ausführungsform sieht vor, dass anhand einer in dem zumindest einen Funksignal enthaltenen Kennung erkannt wird, dass der Benutzer zu der Spracheingabe berechtigt ist. Mit anderen Worten wird anhand der Kennung überprüft, ob der Benutzer autorisiert ist, in dem Kraftfahrzeug eine Spracheingabe einzugeben. Hierdurch ergibt sich der Vorteil, dass Sprache einer zufällig im Außenbereich des Kraftfahrzeugs befindlichen Person nicht ungewollt als Spracheingabe von dem Kraftfahrzeug erfasst wird. Insbesondere im Zusammenhang mit einer Spracheingabe für eine Sprachsteuerung des Kraftfahrzeugs wird zudem vermieden, dass eine unautorisierte Person das Kraftfahrzeug mittels einer Spracheingabe steuern könnte.
-
Eine Ausführungsform sieht vor, dass die Erfassungseinrichtung eine passive Sensoreinrichtung des Kraftfahrzeugs umfasst. Mit „passiver Sensoreinrichtung“ ist gemeint, dass diese Sensoreinrichtung kein eigenes Ortungssignal aussendet, welches von dem Benutzer reflektiert werden müsste, um den Benutzer zu erkennen. Stattdessen bleibt die Sensoreinrichtung dahingehend passiv, dass sie nur vorhandene Strahlung erfasst. Insbesondere handelt es sich bei der passiven Sensoreinrichtung um zumindest eine Kamera, die zumindest ein Kamerabild von dem Außenbereich erzeugt. Bei der Ausführungsform ist die Erfassungseinrichtung dazu eingerichtet, einen Aufenthaltsort des Benutzers auf der Grundlage von zumindest einem Sensorsignal der Sensoreinrichtung, also insbesondere zumindest einem Kamerabild einer Kamera, zu erkennen. Die Erfassungseinrichtung ist des Weiteren dazu eingerichtet, anhand des erkannten Aufenthaltsorts die relative Lage zu ermitteln. Beispielsweise wird also die Richtung, in welcher sich der Benutzer vom Kraftfahrzeug aus gesehen befindet, ermittelt. Bei einem Kamerabild muss hierzu die Abbildungseigenschaft und/oder die Bildverzerrung berücksichtigt werden, um einen Bildpunkt in dem zumindest einen Kamerabild, der dem Benutzer zeigt, einen Ort oder eine Koordinate im Außenbereich zuzuordnen.
-
Eine Ausführungsform sieht vor, dass die Mikrofonanordnung, mittels welcher schließlich die Spracheingabe erfasst wird, mehrere Mikrofone aufweist und bei der besagten Mikrofonauswahl aus den Mikrofonen in Abhängigkeit von dem Richtungssignal eine vorbestimmte Anzahl der dem Benutzer gemäß dem Richtungssignal nächstgelegenen Mikrofone ausgewählt wird. Die Anzahl N kann beispielsweise eine Zahl N = 1 oder größer als 1, zum Beispiel 2 oder 3 oder 4 oder 5 oder 6, sein. Es werden also die N nächstgelegenen Mikrofone ausgewählt, mit denen dann die Spracheingabe erfasst wird oder deren Mikrofonsignal zum Ermitteln der Spracheingabe genutzt wird. Durch die Ausführungsform ergibt sich der Vorteil, dass diejenigen N Mikrofone genutzt oder ausgewählt werden, die den geringsten Abstand zum Benutzer haben. Die Anzahl N kann auch in Abhängigkeit von der relativen Richtung des Benutzers zum Kraftfahrzeug festgelegt oder angepasst sein, um zu berücksichtigen, wie viele Mikrofone aktuell eine direkte Sichtlinie zum Benutzer aufweisen, das heißt nicht durch Teile des Kraftfahrzeugs abgeschirmt sind.
-
Eine Ausführungsform sieht vor, dass die besagte Richtwirkung der Mikrofonanordnung mittels eines Beamformings auf der Grundlage von mehreren Mikrofonen der Mikrofonanordnung erzeugt wird. Das Beamforming wird durch Kombinieren der Mikrofonsignale dieser Mikrofone bewirkt. Bei der Ausführungsform wird das Beamforming dabei adaptiv betrieben und ein Erfassungsminimum des Beamformings, also beispielsweise eine sogenannte Nullstelle, wird zu einer akustischen Störstelle hin ausgerichtet (sogenanntes Null-Stearing). Bei der Ausführungsform wird aber nun dabei darauf geachtet, dass während dessen ein Erfassungsmaximum oder die Hauptkeule des Beamformings, mittels des Richtungssignals räumlich fixiert gehalten wird. Anders als im Stand der Technik, wo auch das Erfassungsmaximum abhängig von der lautesten Schallquelle ausgerichtet wird, wird bei der Ausführungsform das Erfassungsmaximum durch eine Information, nämlich das Richtungssignal, also einer schallfremden oder von dem Schall unabhängigen Richtgröße gesteuert. Durch die Ausführungsform ergibt sich der Vorteil, dass eine punktuelle oder gerichtete Störschallquelle adaptiv unterdrückt oder gedämpft werden kann, ohne dass durch einen solchen adaptiven Algorithmus sich auch das Erfassungsmaximum vom Benutzer weg bewegt oder verschoben wird. Ein adaptives Beamforming zum Steuern eines Erfassungsminimums ist an sich aus dem Stand der Technik verfügbar.
-
Eine Ausführungsform sieht vor, dass mittels der Mikrofoneinrichtung zusätzlich zu dem Erfassen der Spracheingabe mittels einer weiteren Mikrofonauswahl und/oder einer weiteren Richtwirkung in Abhängigkeit von dem Richtungssignal auch diffuses Störschallfeld in einer von dem Benutzer abgewandten Erfassungsrichtung ermittelt wird. Mit anderen Worten wird mittels zumindest eines Mikrofons der Mikrofonanordnung ein Mikrofonsignal erzeugt, in welchem ein diffuses Störschallfeld gegenüber der Spracheingabe dominiert. Zusätzlich oder alternativ dazu kann mittels eines weiteren Beamforming eine weitere Richtwirkung erzeugt werden, bei welcher allerdings das Erfassungsmaximum derart ausgerichtet ist, dass sich der Benutzer außerhalb des Erfassungsmaximums befindet. Somit dominiert auch hier das diffuse Störschallfeld über der Spracheingabe. Die erfasste Spracheingabe wird dann bei dieser Ausführungsform mittels einer Störgeräuschunterdrückungseinrichtung auf der Grundlage des ermittelten Störfelds gefiltert. Beispielsweise kann eine Rauschleistung des Störfelds ermittelt werden. Als Störgeräuschunterdrückungseinrichtung kann dann beispielsweise ein sogenanntes Wiener-Filter verwendet werden, das als einen Eingabeparameter einen Wert für die Störleistung erwartet oder nutzt.
-
Eine Ausführungsform sieht vor, dass die erfasste Spracheingabe einer Spracherkennungsvorrichtung bereitgestellt wird. Die Spracherkennungseinrichtung kann in dem Kraftfahrzeug bereitgestellt sein oder für das Kraftfahrzeug als ein Online-Dienst oder Internetdienst verfügbar gemacht sein, mit welchen das Kraftfahrzeug über eine Funkverbindung gekoppelt sein kann. Die Spracherkennungsvorrichtung erkennt in der Spracheingabe einen von dem Benutzer ausgesprochenen Sprachbefehl. In Abhängigkeit von dem erkannten Sprachbefehl wird dann in dem Kraftfahrzeug zumindest eine Komponente des Kraftfahrzeugs angesteuert. Da die Richtwirkung und/oder die Mikrofonauswahl unabhängig von der Spracheingabe ist, sondern auf dem Richtungssignal beruht, kann bereits der erste vom Benutzer ausgesprochenen Sprachbefehl unter Ausnutzung der Richtwirkung und/oder Mikrofonauswahl erfolgen. Damit kann bereits das erste vom Benutzer ausgesprochene Wort mit einer Störschallunterdrückung aufbereitet werden, bevor es zu der Spracherkennungsvorrichtung übermittelt wird. Damit wird die Spracherkennung zuverlässiger, wenn ein Benutzer in dem Außenbereich damit beginnt, einen Sprachbefehl zum Steuern der zumindest einen Komponente des Kraftfahrzeugs zu benutzen.
-
Die Erfindung umfasst auch ein Kraftfahrzeug, mittels welchem das erfindungsgemäße Verfahren durchgeführt werden kann. Das Kraftfahrzeug weist die beschriebene Mikrofonanordnung für eine Erfassung einer Spracheingabe eines Benutzers in einem Außenbereich des Kraftfahrzeugs auf. Die Mikrofonanordnung weist zumindest ein Mikrofon auf, dessen Erfassungsbereich in den Außenbereich ausgerichtet ist. Das Kraftfahrzeug weist des Weiteren eine von der Mikrofonanordnung verschiedene Erfassungseinrichtung auf, die beispielsweise die besagte Antennenanordnung und/oder die besagte Sensoreinrichtung umfassen kann. Allgemein ist die Erfassungseinrichtung dazu eingerichtet, die relative Lage des Benutzers und/oder des zumindest einen von dem Benutzer mitgeführten Benutzergeräts zu erfassen. Das Kraftfahrzeug weist des Weiteren eine Steuereinheit auf, die dazu eingerichtet ist, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Steuereinheit kann beispielsweise als ein Steuergerät des Kraftfahrzeugs ausgestaltet sein. Die Steuereinheit kann eine Prozessoreinrichtung aufweisen, die auf der Grundlage zumindest eines Mikroprozessors und/oder zumindest eines Mikrocontrollers gebildet sein kann. Die Prozessoreinrichtung kann einen Programmcode aufweisen, der dazu eingerichtet ist, die Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Der Programmcode kann in einem Datenspeicher der Prozessoreinrichtung gespeichert sein.
-
Das erfindungsgemäße Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen oder Lastkraftwagen, ausgestaltet.
-
Zu der Erfindung gehören auch Weiterbildungen des erfindungsgemäßen Verfahrens, die Merkmale aufweisen, wie sie bereits im Zusammenhang mit den Weiterbildungen des erfindungsgemäßen Kraftfahrzeugs beschrieben worden sind. Aus diesem Grund sind die entsprechenden Weiterbildungen des erfindungsgemäßen Verfahrens hier nicht noch einmal beschrieben.
-
Die Erfindung umfasst auch die Kombinationen der beschriebenen Ausführungsformen.
-
Im Folgenden sind Ausführungsbeispiele der Erfindung beschrieben. Hierzu zeigt:
- 1 eine schematische Darstellung einer Ausführungsform des erfindungsgemäßen Kraftfahrzeugs;
- 2 ein Flussschaudiagramm einer Ausführungsform des erfindungsgemäßen Verfahrens;
- 3 eine schematische Darstellung des Kraftfahrzeugs von 1 mit einer Mikrofonanordnung, die ein Mikrofonarray aufweist; und
- 4 eine schematische Darstellung des Kraftfahrzeugs von 1 in einer Variante, bei welcher die Mikrofonanordnung mehrere, am Kraftfahrzeug verteilte Mikrofone aufweist.
-
Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsformen der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
-
In den Figuren sind funktionsgleiche Elemente jeweils mit denselben Bezugszeichen versehen.
-
1 zeigt ein Kraftfahrzeug 10, bei dem es sich beispielsweise um einen Kraftwagen, insbesondere einen Personenkraftwagen oder Lastkraftwagen, handeln kann. Des Weiteren ist in einer Umgebung 11 des Kraftfahrzeugs 10 ein Benutzer 12 des Kraftfahrzeugs dargestellt. Der Benutzer 12 kann ein Benutzergerät 13 mit sich führen, welches ein Funksignal 13' aussenden kann. Der Benutzer 12 möchte das Kraftfahrzeug 10 in dem dargestellten Beispiel mittels einer Spracheingabe 14 bedienen. Der Benutzer 12 kann hierzu einen Sprachbefehl 15 als Spracheingabe 14 aussprechen. Ein Sprachschall 16 der ausgesprochenen Spracheingabe 14 breitet sich vom Benutzer 12 ausgehend in Richtung zum Kraftfahrzeug 10 aus. In dem Außenbereich 11 kann des Weiteren ein diffuser Störschall 17, also ein ungerichteter oder verteilter Störschall 17 auf das Kraftfahrzeug 10 eintreffen. Des Weiteren ist in dem Umgebungsbereich 11 eine Störschallquelle 18 gezeigt, von welcher ein gerichteter Störschall 19 ausgehen kann, der ebenfalls auf das Kraftfahrzeug 10 eintreffen kann.
-
Von dem Kraftfahrzeug 10 sind eine Mikrofonanordnung 20, eine Steuereinheit 21, eine Spracherkennungseinrichtung 22, eine Komponente 23 und eine von der Mikrofonanordnung 20 verschiedene Erfassungseinrichtung 24 dargestellt.
-
Um in dem Kraftfahrzeug 10 die beschriebene Sprachbedienung zu realisieren, wird der Sprachschall 16 der Spracheingabe 14 mittels der Mikrofonanordnung 20 erfasst und zumindest ein Mikrofonsignal 25 der Mikrofonanordnung 20 an die Steuereinheit 21 weitergeleitet. Die Steuereinheit 21 kann auf der Grundlage des zumindest einen Mikrofonsignals 25 die Spracheingabe 14 als ein Audiosignal oder Sprachsignal erfassen und die Spracheingabe 14 der Spracherkennungseinrichtung 22 bereitstellen. Die Spracherkennungseinrichtung 22 kann auf Grundlage der Spracheingabe 14 den Sprachbefehl 15 erkennen. In Abhängigkeit von dem Sprachsignal 15 kann die Komponente 23 gesteuert werden. Die Komponente 23 kann beispielsweise ein Schließsystem des Kraftfahrzeugs 10 sein, das dann in Abhängigkeit von dem Sprachsignal 15 beispielsweise das Kraftfahrzeug entriegelt oder verriegelt. Eine weitere mögliche Komponente kann eine Lichtanlage des Kraftfahrzeugs 10 sein, die in Abhängigkeit von dem Sprachbefehl 15 beispielsweise für einen Lichttest zumindest eine Leuchte des Kraftfahrzeugs 10 in Abhängigkeit von dem Sprachbefehl 15 aktiviert.
-
Die Mikrofonanordnung 20 kann mehrere Mikrofone 26 aufweisen, mittels welchen jeweils ein Mikrofonsignal 25 erzeugt werden kann. Mittels der Mikrofone 26 der Mikrofonanordnung 20 kann die Steuereinheit 21 eine gerichtete Schallerfassung realisieren, bei welcher ein Erfassungsmaximum 27 auf den Benutzer 12 ausgerichtet werden kann. Der Sprachschall 16 wird somit mit einer größeren Verstärkung oder einem größeren Gain erfasst als ein Schall außerhalb des Erfassungsmaximums 27. Beispielsweise wird somit der gerichtete Störschall 19 mit einer geringeren Verstärkung oder einem geringeren Gain erfasst. Zusätzlich kann mittels der Mikrofonanordnung 20 die Steuereinheit 21 ein Erfassungsminimum 28 dynamisch ausrichten und dieses beispielsweise auf die Störquelle 18 ausrichten. Mittels der Mikrofonsignale 25 kann aber auch zusätzlich in einer weiteren Signalverarbeitung, welche nicht das Erfassungsmaximum 27 ausbildet, auch der diffuse Störschall 17 erfasst werden.
-
Um das Erfassungsmaximum 27 auf den Benutzer 12 ausrichten zu können und/oder solche Mikrofone 26 der Mikrofonanordnung zu nutzen, die dem Benutzer 12 am nächsten liegen, nutzt die Steuereinheit 21 ein Richtungssignal 29, welches mittels der Erfassungseinrichtung 24 erzeugt werden kann. Die Erfassungseinrichtung 24 kann beispielsweise eine Antennenanordnung 30 mit mehreren Antennen 31 aufweisen, durch welche eine Einfallsrichtung 32 ermittelt werden kann, mit welcher das Funksignal 13' auf die Antennenanordnung 30 trifft. Die Einfallsrichtung 32 kann beispielsweise als ein horizontaler Winkel bezüglich einer Längsachse 33 des Kraftfahrzeugs 10 angegeben sein. Die Einfallsrichtung 32 kann als Grundlage zum Angeben des Richtungssignals 29 genutzt sein. Das Benutzergerät 13 kann beispielsweise ein Funkschlüssel oder ein mobiles Endgerät sein. Die Funkverbindung 14 kann beispielsweise eine Bluetooth-Funkverbindung oder eine WLAN-Funkverbindung oder ein Kommunikationssignal eines Funkschlüssels sein. Zusätzlich oder alternativ zu der Antennenanordnung 30 kann durch die Erfassungseinrichtung 24 auch eine Sensoreinrichtung 34 bereitgestellt sein, die beispielsweise eine Kamera aufweisen kann. Mittels der Sensoreinrichtung 34 kann der Benutzer 12 beispielsweise optisch erfasst werden. Mittels einer Objekterkennung einer Bildverarbeitung kann in Kamerabildern der Kamera oder allgemein in einem Sensorsignal 35 der Sensoreinrichtung 34 die Lage oder Position des Benutzers 12 im Außenbereich 11 ermittelt werden. Auch hieraus kann das Richtungssignal 29 ermittelt werden. Das Richtungssignal 29 kann beispielsweise angeben, in welche Richtung das Erfassungsmaximum 27 ausgerichtet werden muss oder allgemein in welcher Richtung sich der Benutzer 12 bezüglich des Kraftfahrzeugs 10 befindet.
-
Zusätzlich kann für eine Störgeräuschunterdrückungseinrichtung 36, beispielsweise ein Wiener-Filter, beispielsweise eine Rauschleistung des diffusen Störschalls 17 ermittelt werden. Hierzu kann mittels der Mikrofonanordnung 20 zumindest ein Mikrofonsignal 25 erzeugt werden, in welchem der diffuse Störschall 17 über den Sprachschall 16 dominiert. Hierzu kann beispielsweise in einem weiteren Beamforming ein weiteres Erfassungsmaximum 27' vom Benutzer 12 weggerichtet sein. Zusätzlich oder alternativ dazu kann in dem weiteren Beamforming das Erfassungsminimum 28 auf den Benutzer 12 ausgerichtet sein.
-
2 veranschaulicht ein Verfahren, das sich beim Betrieb des Kraftfahrzeugs 10 ergeben kann. In einem Schritt S10 kann zum Ermitteln des Richtungssignals 29 die Erfassungseinrichtung 24 die relative Lage des Benutzers 12 und/oder zumindest eines von dem Benutzer 12 mitgeführten Benutzergeräts 13 anhand des jeweils von dem Benutzer beziehungsweise Benutzergerät ausgehenden Signals erkannt werden. Das Signal kann beispielsweise ein Funksignal 13' des Benutzergeräts 13 und/oder von dem Benutzer 12 ausgehendes Licht sein. Die erkannte relative Lage wird mittels des Richtungssignals 29 signalisiert.
-
In einem Schritt S11 kann durch die Steuereinheit 21 für die Mikrofonanordnung 20 eine Mikrofonauswahl aus den Mikrofonen 26 und/oder eine Richtwirkung des Erfassungsmaximums 27 in Abhängigkeit von dem Richtungssignal eingestellt werden. In einem Schritt S12 kann die Spracheingabe dann mittels der Mikrofonanordnung 20 ermittelt werden. Die ermittelte Spracheingabe 14 kann der Spracherkennungseinrichtung 22 bereitgestellt werden. Die Spracherkennungseinrichtung 22 kann in einem Schritt S13 den in der Spracheingabe 14 enthaltenen Sprachbefehl 15 erkennen. Die Spracherkennungseinrichtung 22 kann hierzu in an sich bekannter Weise ausgestaltet sein. In einem Schritt S14 kann in Abhängigkeit von dem Sprachbefehl 15 die Komponente 23 oder mehrere Komponenten 23 angesteuert werden.
-
Durch das Verfahren kann somit die Spracheingabe 14 des Benutzers 12 auch in Gegenwart eines diffusen Störschalls 17 und/oder einer Störquelle 18 erfasst werden, ohne dass letztere die Spracherkennungsleistung der Spracherkennungseinrichtung 22 beeinträchtigen.
-
3 veranschaulicht zu der Mikrofonanordnung 20 eine mögliche Anordnung der Mikrofone 26. Die Mikrofonanordnung 20 kann mehrere am Kraftfahrzeug verteilte Mikrofone 26 aufweisen. Jedes Mikrofon 26 kann beispielsweise ein Richtmikrofon sein, dessen Haupterfassungsrichtung 37 vom Kraftfahrzeug 10 weg in den Außenbereich 11 hinein ausgerichtet sein kann. Durch das Richtungssignal 29 kann von dem Benutzer 12 dessen relative Lage 38 beispielsweise als eine relative Richtung ausgehend vom Kraftfahrzeug 10 beschrieben sein. Durch eine Mikrofonauswahl 39 kann bei der Ausführungsform gemäß 3 mit den verteilten Mikrofonen 36 aus den Mikrofonen 26 diejenigen Mikrofone 26 ausgewählt werden, die dem Benutzer 12 am nächsten liegen. Durch die Überlagerung der Erfassungsrichtungen 37 dieser Mikrofone 26 der Mikrofonauswahl 39 ergibt sich dann das Erfassungsmaximum 27.
-
4 veranschaulicht eine Ausführungsform der Mikrofonanordnung 20, bei welcher die Mikrofone 26 zentral angeordnet sein können. Die Mikrofone 26 können beispielsweise in einem Bereich zusammengefasst sein, der eine Abmessung von weniger als 50 Zentimeter aufweist. Die Mikrofone 26 des Mikrofonarrays 20 können omnidirektionale Mikrofone sein. Mittels der Mikrofone 26 kann ein Beamforming zum Bilden des Erfassungsmaximums 27 durchgeführt werden. Die sogenannte Hauptkeule, die das Erfassungsmaximum 27 bildet, kann in Richtung der relativen Lage 38 ausgerichtet werden.
-
Mittels der Mikrofonanordnung 20 kann ein Erfassungsbereich 40 in dem Außenbereich 11 abgedeckt werden, der einen Erfassungsradius 41 aufweisen kann, der in einem Bereich von einem Meter bis sechs Meter liegen kann.
-
Für eine Detektion/Erkennung einer außerhalb des Kraftfahrzeugs befindlichen Person (d.h. des Benutzers), kann somit insgesamt eine treffsichere Erkennung durch das beschriebene Verfahren sichergestellt werden.
-
Möchte der Benutzer Sprachbefehle von außerhalb des Kraftfahrzeuges (innerhalb eines Erfassungsradius 41) mit seiner Stimme an das Kraftfahrzeug senden, befindet man sich in einer akustisch gestörten Umgebung. Die entsprechenden akustischen Sensoren (Mikrofone) befinden sich außerhalb des Kraftfahrzeuges an einer für die Erkennung aus allen Richtungen günstigen Position.
-
Je nachdem wo sich das Kraftfahrzeug gerade befindet, können die Störgeräusche der Umgebung sehr hoch sein und aus allen möglichen Richtungen auf die Mikrofonanordnung 20 einkoppeln (z.B. Parkplatz, vorbeifahrende Kraftfahrzeuge, andere sprechende Personen, schreiende Kinder, Wind, Regen).
-
Die zugrundeliegende Idee ist nun ein Verfahren, wie man diese Spracherkennung möglichst robust umsetzen kann.
-
Ziel ist es, hinreichend genau festzustellen, aus welcher Richtung oder relativen Lage 38 der bedienende Benutzer das Kraftfahrzeug bespricht. Es wäre nicht zielführend, einen adaptiven Beamforming-Algorithmus sich vollautomatisch auf eine Sprecherposition einstellen zu lassen, wenn dieser selbst ermitteln müsste, von wo, innerhalb des kompletten horizontalen 360° Radius, die relevante Person spricht. Dieser Algorithmus würde ständig seine Ausrichtung auf Schallquellen ausrichten, welche er als stimmenhaft detektiert. Die 360°-Überwachung würde zusätzlich auch einen erhöhten Rechenaufwand bedeuten und sehr fehleranfällig sein.
-
Um dem Erkenneralgorithmus nun eine für ihn hilfreiche Information zu geben, muss man ihm möglichst genau die Richtung mitteilen, aus welcher der Benutzer sich dem Kraftfahrzeug nähert oder befindet. Für diese Detektion der relativen Lage kann z.B. die Smartwatch, das Handy, ein alternativer mitgeführter Sender oder auch die im Kraftfahrzeug befindliche Sensoreinrichtung zur Hilfe genommen werden. Bevorzugt wird der für die Bedienung berechtigte Benutzer überprüft oder identifiziert und es kann die Richtung, in der sich der Benutzer dem Kraftfahrzeug befindet, bestimmt werden.
-
Liegt der Steuereinheit nun diese Information vor, kann sie ihre für die Spracherfassung sensitive akustische Empfindlichkeit in diese Richtung steuern. Dieser Beamformer kann nun in einem definierten Winkel in die relevante Richtung sensibel für das entsprechende Sprachkommando oder allgemein die Spracheingabe sein und den restlichen Bereich für alle anderen eintreffenden Störgeräusche dämpfen und unempfindlichen machen.
-
Die Steuereinheit hat nun Informationen aus der Richtung der relevanten Person und akustische Informationen aus dem restlichen akustischen Störfeld. Die Informationen aus dem Störfeld können deshalb nun zusätzlich verwendet werden, um genau diese akustischen Störungen aus dem Signal heraus zu rechnen, welche zum Teil auch aus der Richtung einkoppeln, aus der die bedienende Person spricht. Das relevante Sprachkommando kann somit noch einmal für den Spracherkenner rauschreduziert werden, d.h. von nicht relevanten Störgrößen befreit werden und somit zu einer verlässlicheren Spracherkennung führen.
-
Die Sensoren/akustischen Sensoren müssen bei diesem Verfahren nicht an einem Punkt verortet sein, sondern können je nach Performance-Gewinn auch an unterschiedlichen Position am Kraftfahrzeug verteilt werden. Das für den Sprecher optimale Mikrofon oder die Mikrofone, welchen den Beam für die Person erzeugen werden entsprechend für die Bildung dieses Beams verwendet. Alle anderen Mikrofone können dann dazu dienen den Störschall für die Berechnung aufzunehmen.
-
Insgesamt zeigen die Beispiele, wie durch die Erfindung ein Verfahren für eine Erkennung eines außerhalb eines Kraftfahrzeugs gesprochenen Sprachbefehls bereitgestellt werden kann.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- EP 1908640 A1 [0004]
- DE 10339973 A1 [0005]
- DE 102014203914 A1 [0006]