DE102022124133B3 - Method for processing stuttered speech using a voice assistant for a motor vehicle - Google Patents
Method for processing stuttered speech using a voice assistant for a motor vehicle Download PDFInfo
- Publication number
- DE102022124133B3 DE102022124133B3 DE102022124133.5A DE102022124133A DE102022124133B3 DE 102022124133 B3 DE102022124133 B3 DE 102022124133B3 DE 102022124133 A DE102022124133 A DE 102022124133A DE 102022124133 B3 DE102022124133 B3 DE 102022124133B3
- Authority
- DE
- Germany
- Prior art keywords
- speech
- data
- speaker
- motor vehicle
- criterion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 title claims abstract description 18
- 208000003028 Stuttering Diseases 0.000 claims abstract description 65
- 238000001514 detection method Methods 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 206010044565 Tremor Diseases 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 230000004424 eye movement Effects 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000036387 respiratory rate Effects 0.000 claims 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004378 air conditioning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
- G10L2021/0575—Aids for the handicapped in speaking
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zum Verarbeiten gestottert gesprochener Sprache mittels eines Sprachassistenten (11) für ein Kraftfahrzeug (1) sowie das Kraftfahrzeug (1). Das Verfahren umfasst: Erfassen (S1) von Sprachdaten (20), die eine von einem Sprecher (2) gesprochene Sprache beschreiben, mittels einer Mikrofoneinrichtung (4); während des Erfassend der Sprachdaten (20), Erfassen (S2) von Körperdaten (21), die zumindest ein zeitlich variierendes körperliches Merkmal des Sprechers (2) beschreiben, mittels einer Erfassungseinrichtung (5); Überprüfen (S3), ob die Sprache gemäß der erfassten Sprachdaten (20) gestottert gesprochen wurde, durch Anwenden eines Stottererkennungskriteriums (13) auf die erfassten Sprachdaten (20) und Körperdaten (21); falls die Sprache gestottert gesprochen wurde, Erzeugen (S4) von überarbeiteten Sprachdaten (23) durch Anwenden eines Sprachüberarbeitungskriteriums (14) für gestotterte Sprache zumindest auf die Sprachdaten (20), wobei in den überarbeiteten Sprachdaten (23) zumindest ein Merkmal des Stotterns zumindest reduziert wurde; und Verarbeiten (S5) der überarbeiteten Sprachdaten (23) mittels des Sprachassistenten (11).The invention relates to a method for processing stuttered speech using a language assistant (11) for a motor vehicle (1) and the motor vehicle (1). The method comprises: acquiring (S1) speech data (20), which describes a language spoken by a speaker (2), using a microphone device (4); during the acquisition of the speech data (20), acquisition (S2) of body data (21), which describe at least one time-varying physical feature of the speaker (2), by means of a acquisition device (5); Checking (S3) whether the speech was spoken in a stuttered manner according to the captured speech data (20) by applying a stuttering detection criterion (13) to the captured speech data (20) and body data (21); if the speech was spoken stuttered, generating (S4) revised speech data (23) by applying a speech revision criterion (14) for stuttered speech at least to the speech data (20), wherein at least one feature of the stuttering is at least reduced in the revised speech data (23). became; and processing (S5) the revised voice data (23) using the voice assistant (11).
Description
Die Erfindung betrifft ein Verfahren zum Verarbeiten gestottert gesprochener Sprache mittels eines Sprachassistenten für ein Kraftfahrzeug. Die Erfindung betrifft zudem ein Kraftfahrzeug zum Durchführen eines derartigen Verfahrens.The invention relates to a method for processing stuttered speech using a voice assistant for a motor vehicle. The invention also relates to a motor vehicle for carrying out such a method.
Ein Kraftfahrzeug kann einen Sprachassistenten aufweisen. Mittels des Sprachassistenten kann zum Beispiel eine Person im Kraftfahrzeug mittels gesprochener Sprache eine Funktion des Kraftfahrzeugs ansteuern. Eine solche Funktion des Kraftfahrzeugs wird beispielsweise von einem Navigationssystem, Multimediasystem und/oder Klimatisierungssystem des Kraftfahrzeugs bereitgestellt. Für eine stotternd sprechende Person, das heißt einen stotternden Sprecher, ist eine Benutzung des Sprachassistenten oftmals schwierig. Denn bei einer Spracheingabe des stotternden Sprechers werden Sprachdaten erzeugt, die typischerweise zumindest eine Pause und/oder zumindest einen Laut zwischen einzelnen Worten und/oder innerhalb zumindest eines einzelnen Worts beschreiben. Die zumindest eine Pause und/oder der zumindest eine Laut kann vom Sprachassistenten falsch interpretiert werden, da dieser von einer nicht gestotterten Sprache abweicht, auf die der Sprachassistent typischerweise trainiert ist.A motor vehicle can have a voice assistant. Using the voice assistant, for example, a person in the motor vehicle can control a function of the motor vehicle using spoken language. Such a function of the motor vehicle is provided, for example, by a navigation system, multimedia system and/or air conditioning system of the motor vehicle. For a person who speaks with a stutter, i.e. a speaker who stutters, using the voice assistant is often difficult. This is because when the speaker who stutters speaks, speech data is generated which typically describes at least one pause and/or at least one sound between individual words and/or within at least one individual word. The at least one pause and/or the at least one sound can be misinterpreted by the voice assistant because it deviates from a non-stuttered speech to which the voice assistant is typically trained.
Es sind Systeme zum Verarbeiten gestottert gesprochener Sprache bekannt, die auf Sprachdaten zurückgreifen, die mittels einer Mikrofoneinrichtung erfasst wurden.Systems for processing stuttered speech are known, which use speech data that was recorded using a microphone device.
Die
Die
Die
Wenn nur die Sprachdaten berücksichtigt werden, die mittels der Mikrofoneinrichtung erfasst werden, kann nicht zuverlässig abgeschätzt werden, ob eine Spracheingabe des Sprechers, wie beispielsweise ein Satz oder Befehl, tatsächlich abgeschlossen ist oder nicht. Es ist daher möglich, dass der Sprachassistent eine auf das Stottern zurückzuführende Pause zwischen zwei Wörtern oder in einem Wort derart interpretiert, dass die Spracheingabe beendet ist, obwohl der stotternde Sprecher eigentlich seine Spracheingabe noch fortsetzen möchte. Dies führt zu einer unzuverlässigen Verarbeitung der Spracheingabe durch den Sprachassistenten.If only the speech data that is captured by the microphone device is taken into account, it cannot be reliably estimated whether a speech input from the speaker, such as a sentence or command, has actually been completed or not. It is therefore possible that the voice assistant interprets a pause between two words or in a word caused by stuttering in such a way that the voice input has ended, even though the stuttering speaker actually wants to continue his voice input. This leads to unreliable processing of voice input by the voice assistant.
Es ist die Aufgabe der Erfindung, eine Lösung bereitzustellen, mittels derer gestottert gesprochene Sprache zuverlässig verarbeitet werden kann.It is the object of the invention to provide a solution by means of which stuttered speech can be reliably processed.
Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Mögliche Ausgestaltungen der Erfindung sind in den abhängigen Ansprüchen, der folgenden Beschreibung und den Figuren angegeben.The task is solved by the subject matter of the independent patent claims. Possible embodiments of the invention are specified in the dependent claims, the following description and the figures.
Ein erster Aspekt der Erfindung betrifft ein Verfahren zum Verarbeiten gestottert gesprochener Sprache mittels eines Sprachassistenten für ein Kraftfahrzeug. Unter gestottert gesprochener Sprache wird im Sinne der Erfindung eine Störung eines Redeflusses verstanden, die durch häufige Unterbrechungen eines Sprachablaufs durch Wiederholungen von Lauten, Silben und/oder Wörtern gekennzeichnet ist. Der Sprachassistent kann dazu ausgebildet sein, zumindest eine Funktion des Kraftfahrzeugs basierend auf einer vom Sprachassistenten erfassten und ausgewerteten Spracheingabe anzusteuern. Der Sprachassistent kann alternativ als intelligenter persönlicher Assistent bezeichnet werden. Der Sprachassistent kann als Software ausgebildet sein. Die Software ermöglicht es, mittels Kommunikation in natürlicher menschlicher Sprache zumindest eine Information abzufragen, einen Dialog zu führen und/oder die Funktion zu erbringen, wie beispielsweise einen Assistenzdienst. Zur Spracherkennung wird eine Sprachanalyse der gesprochenen und erfassten Sprache vollzogen, diese semantisch interpretiert und logisch verarbeitet. Als Ergebnis kann durch Sprachsynthese eine Antwort formuliert werden, wobei die Antwort mittels einer Lautsprechereinrichtung ausgegeben und/oder auf einer Anzeigeeinrichtung visuell angezeigt werden kann. Der Sprachassistent ist beispielsweise in einer Steuervorrichtung des Kraftfahrzeugs hinterlegt, insbesondere gespeichert.A first aspect of the invention relates to a method for processing stuttered speech using a voice assistant for a motor vehicle. For the purposes of the invention, stuttered speech is understood to mean a disturbance in the flow of speech, which is characterized by frequent interruptions in a speech process due to repetitions of sounds, syllables and/or words. The voice assistant can be designed to control at least one function of the motor vehicle based on a voice input recorded and evaluated by the voice assistant. The voice assistant can alternatively be called an intelligent personal assistant. The voice assistant can be designed as software. The software makes it possible to query at least one piece of information, conduct a dialogue and/or provide the function, such as an assistance service, by means of communication in natural human language. For speech recognition, a language analysis of the spoken and recorded language is carried out, which is interpreted semantically and processed logically. As a result, a response can be formulated through speech synthesis, wherein the response can be output by means of a loudspeaker device and/or visually displayed on a display device. The voice assistant is, for example, stored, in particular stored, in a control device of the motor vehicle.
Der Erfindung liegt zumindest teilweise die Erkenntnis zugrunde, dass ein stotternder Sprecher während des Sprechens zahlreiche körperliche Merkmale zeigt, die zeitlich variieren, wie beispielsweise eine zitternde Lippenbewegung, eine Mimik, die beispielsweise für Stottern charakteristische Mikroexpressionen umfasst, und/oder eine für Stottern charakteristische Körpersprache des Sprechers. Es sollte daher nicht nur eine Auswertung von Sprachdaten, die mittels einer Mikrofoneinrichtung erfasst werden, erfolgen, sondern ergänzend eine Beobachtung des Sprechers mittels einer Erfassungseinrichtung, wie beispielsweise einer Innenraumkamera, erfolgen. Hierdurch kann also eine Zuverlässigkeit der Verarbeitung einer Spracheingabe durch den Sprachassistenten erhöht werden.The invention is at least partially based on the knowledge that a speaker who stutters shows numerous physical characteristics while speaking that vary over time, such as a trembling lip movement, facial expressions that include, for example, micro-expressions that are characteristic of stuttering, and/or body language that is characteristic of stuttering of the speaker. Therefore, not only should speech data that are recorded using a microphone device be evaluated, but the speaker should also be observed using a recording device, such as an interior camera. In this way, the reliability of the processing of a voice input by the voice assistant can be increased.
Das erfindungsgemäße Verfahren umfasst ein Erfassen von Sprachdaten mittels einer Mikrofoneinrichtung. Die Mikrofoneinrichtung umfasst zumindest ein Mikrofon. Die Mikrofoneinrichtung ist bevorzugt eine Komponente des Kraftfahrzeugs. Alternativ oder zusätzlich kann die Mikrofoneinrichtung von einem mobilen Endgerät umfasst sein, das im Kraftfahrzeug positioniert ist. Das mobile Endgerät ist beispielsweise ein Smartphone und/oder Tablet. Die Sprachdaten beschreiben eine von einem Sprecher gesprochene Sprache. Die gesprochene Sprache kann für eine bestimmte Spracheingabe des Sprechers vorgesehen sein beziehungsweise von der Spracheingabe umfasst sein. Die vom Sprecher gesprochene Sprache ist beispielsweise ein Befehl und/oder ein Satz, der für den Sprachassistenten des Kraftfahrzeugs vorgesehen ist. Mit der gesprochenen Sprache kann der Sprecher beispielsweise darauf hinwirken, eine Funktion des Kraftfahrzeugs anzusteuern, wie beispielsweise ein Navigationssystem, ein Klimatisierungssystem und/oder ein Multimediasystem.The method according to the invention includes recording voice data using a microphone device. The microphone device includes at least one microphone. The microphone device is preferably a component of the motor vehicle. Alternatively or additionally, the microphone device can be included in a mobile terminal that is positioned in the motor vehicle. The mobile device is, for example, a smartphone and/or tablet. The speech data describes a language spoken by a speaker. The spoken language can be intended for a specific speech input by the speaker or can be included in the speech input. The language spoken by the speaker is, for example, a command and/or a sentence intended for the voice assistant of the motor vehicle. With the spoken language, the speaker can, for example, work to control a function of the motor vehicle, such as a navigation system, an air conditioning system and/or a multimedia system.
Während des Erfassens der Sprachdaten erfolgt ein Erfassen von Körperdaten mittels einer Erfassungseinrichtung. Die Erfassungseinrichtung ist beispielsweise eine Innenraumkamera des Kraftfahrzeugs. Die Erfassungseinrichtung kann alternativ oder zusätzlich dazu vom mobilen Endgerät im Kraftfahrzeug umfasst sein. Die Körperdaten beschreiben zumindest ein zeitlich variierendes körperliches Merkmal des Sprechers. Das zeitlich variierende körperliche Merkmal kann beispielsweise die zitternde Lippenbewegung des Sprechers sein, die typischerweise im Zusammenhang mit Stottern auftritt. Die Körperdaten sind beispielsweise Bilddaten zumindest eines Teils des Körpers des Sprechers, falls die Erfassungseinrichtung eine Kamera, insbesondere die Innenraumkamera, ist.While the voice data is being recorded, body data is recorded using a recording device. The detection device is, for example, an interior camera of the motor vehicle. The detection device can alternatively or additionally be included in the mobile terminal in the motor vehicle. The physical data describes at least one physical characteristic of the speaker that varies over time. The time-varying physical feature may be, for example, the speaker's trembling lip movement, which typically occurs in connection with stuttering. The body data is, for example, image data of at least part of the speaker's body if the detection device is a camera, in particular the interior camera.
Alternativ oder zusätzlich zur Kamera kann als Erfassungseinrichtung ein Radargerät und/oder ein Ultrabreitbandsensor vorgesehen sein. Mittels des Ultrabreitbandsensors kann besonders zuverlässig eine Veränderung eines Herzschlags, einer Atemfrequenz, die zitternde Lippenbewegung oder eine sonstige Körperbewegung erfasst werden.Alternatively or in addition to the camera, a radar device and/or an ultra-wideband sensor can be provided as a detection device. Using the ultra-wideband sensor, a change in a heartbeat, a breathing rate, a trembling lip movement or any other body movement can be detected particularly reliably.
Es erfolgt verfahrensgemäß ein Überprüfen, ob die Sprache gemäß der erfassten Sprachdaten gestottert gesprochen wurde. Dieses Überprüfen erfolgt durch Anwenden eines Stottererkennungskriteriums auf die erfassten Sprachdaten und Körperdaten. Es findet also eine Auswertung sowohl der mittels der Mikrofoneinrichtung erfassten Audiodaten als auch der mittels der Erfassungseinrichtung erfassten, den Körper des Sprechers zumindest teilweise beschreibenden Daten statt. Das Stottererkennungskriterium ist ein Algorithmus und/oder eine Vorschrift, anhand dessen beziehungsweise deren es möglich ist, zu erkennen, ob die Sprachdaten und Körperdaten darauf hinweisen, dass der Sprecher stottert oder nicht. Es kann hierbei beispielsweise ein Wahrscheinlichkeitswert ermittelt werden, der beziffert, mit welcher Wahrscheinlichkeit die gesprochene Sprache gestottert vorgetragen wurde, das heißt mit welcher Wahrscheinlichkeit der Sprecher stottert. Es kann also beispielsweise festgestellt werden, dass es aufgrund der zitternden Lippenbewegung zusätzlich zu auf Stottern hinweisen Merkmalen in den Sprachdaten wahrscheinlich ist, dass ein stotternder Sprecher im Kraftfahrzeug anwesend ist.According to the procedure, a check is made as to whether the language was spoken in a stuttered manner according to the recorded speech data. This checking is done by applying a stutter detection criterion to the captured speech data and body data. An evaluation therefore takes place both of the audio data captured by the microphone device and of the data that at least partially describes the speaker's body and that is captured by the capture device. The stuttering detection criterion is an algorithm and/or rule by which it is possible to recognize whether the speech data and body data indicate that the speaker stutters or not. For example, a probability value can be determined that quantifies the probability with which the spoken language was stuttered, that is, the probability that the speaker stutters. It can therefore be determined, for example, that due to the trembling lip movement in addition to features in the speech data that indicate stuttering, it is likely that a speaker who stutters is present in the motor vehicle.
Falls die Sprache gestottert gesprochen wurde, das heißt falls beim Überprüfen festgestellt wurde, dass die Sprache gemäß der erfassten Sprachdaten gestottert gesprochen wurde, erfolgt ein Erzeugen von überarbeiten Sprachdaten. Dies erfolgt durch ein Anwenden eines Sprachüberarbeitungskriteriums für gestotterte Sprache zumindest auf die Sprachdaten. In den überarbeiteten Sprachdaten wurde zumindest ein Merkmal des Stotterns im Vergleich zu den ursprünglich erfassten Sprachdaten zumindest reduziert. Das Sprachüberarbeitungskriterium kann auf einer gängigen Methode zur Interpretation gestotterter Sprache basieren, wie sie beispielsweise aus dem oben zitierten Stand der Technik bekannt ist. Das Sprachüberarbeitungskriterium ist ein Algorithmus und/oder eine Vorschrift, anhand dessen beziehungsweise derer es möglich ist, die Sprachdaten derart zu bearbeiten, dass diese zumindest weniger Merkmale, insbesondere kein Merkmal, aufweisen, die beziehungsweise das die gestotterte Sprache charakterisiert.If the speech was spoken in a stuttered manner, that is, if it was determined during checking that the speech was spoken in a stuttered manner according to the recorded speech data, revised speech data is generated. This is done by applying a speech revision criterion for stuttered speech to at least the speech data. In the revised speech data, at least one feature of stuttering was at least reduced compared to the originally recorded speech data. The speech revision criterion can be based on a common method for interpreting stuttered speech, such as is known, for example, from the prior art cited above. The speech revision criterion is an algorithm and/or a rule, based on which it is possible to process the speech data in such a way that it has at least fewer features, in particular no feature, which characterizes the stuttered speech.
Es kann vorgesehen sein, dass das Sprachüberarbeitungskriterium zusätzlich zu den Sprachdaten die Körperdaten berücksichtigt. Es kann dann beispielsweise bei der Interpretation der Sprache berücksichtigt werden, ob das körperliche Merkmal darauf hindeutet, dass der Sprecher beispielsweise einen Satz oder sogar eine gesamte Spracheingabe beendet hat oder ob er sich beispielsweise noch dabei befindet, den Satz zu sprechen beziehungsweise die Spracheingabe zu tätigen. Das Beenden des Satzes oder der Spracheingabe kann beispielsweise an einem Enden der zitternden Lippenbewegung oder einer veränderten Mimik erkannt werden. Diese Information kann also zusätzlich zur Erzeugung der überarbeiteten Sprachdaten herangezogen werden.It can be provided that the speech revision criterion takes into account the body data in addition to the speech data. For example, when interpreting the language, it can then be taken into account whether the physical feature indicates that, for example, the speaker has finished a sentence or even an entire speech input or whether, for example, he or she is still in the process of saying the sentence or making the speech input. The end of the sentence or speech input can be recognized, for example, by the end of the trembling lip movement or a change in facial expressions. This information can therefore also be used to generate the revised speech data.
Das Verfahren umfasst ein Verarbeiten der überarbeiteten Sprachdaten mittels des Sprachassistenten. Bevorzugt werden also dem Sprachassistenten die bereits überarbeiteten Sprachdaten bereitgestellt, sodass dieser beispielsweise die ihm oder der interpretierten Spracheingabe zugeordnete Funktion ausführen kann.The method includes processing the revised voice data using the voice assistant. Preferably, the voice assistant is provided with the already revised voice data so that it can, for example, carry out the function assigned to it or to the interpreted voice input.
Durch Auswertung langgezogener Wörter oder Wörter mit Pausen während der Aussprache kann dies gezielt vom Sprachüberarbeitungskriterium berücksichtigt werden, sodass die gestotterte Sprache zuverlässig interpretiert werden kann. Das Sprachüberarbeitungskriterium kann zudem dazu beitragen, dass die gesprochene Sprache intelligent übersetzt wird, das heißt, es können beispielsweise für Stotterer typische Ausspracheveränderungen oder Pausen intelligent interpretiert und berücksichtigt werden. Es wird somit erreicht, dass stets zuverlässig gestotterte Sprache zumindest auf einer rein sprachlichen Ebene so interpretiert wird, wie sie vom Sprecher gemeint ist.By evaluating long-drawn words or words with pauses during pronunciation, this can be specifically taken into account by the speech revision criterion so that the stuttered speech can be reliably interpreted. The language revision criterion can also help ensure that the spoken language is translated intelligently, meaning that, for example, pronunciation changes or pauses typical of people who stutter can be intelligently interpreted and taken into account. This ensures that stuttered speech is always reliably interpreted, at least on a purely linguistic level, as the speaker intended it.
Zu der Erfindung gehören Ausführungsformen, durch die sich zusätzliche Vorteile ergeben.The invention includes embodiments that result in additional advantages.
In einer bevorzugten Ausführungsform ist es vorgesehen, dass beim Anwenden des Stottererkennungskriteriums ermittelt wird, ob der Sprecher eine Spracheingabe beendet hat oder nicht. Nur falls die Spracheingabe beendet ist, werden Sprachbeendigungsdaten bereitgestellt, die das Beenden der Spracheingabe beschreiben. Es wird also gezielt und bevorzugt unter Berücksichtigung der Körperdaten ermittelt, ob ein einzelner gesprochener Satz oder Befehl, insbesondere ob die gesamte Spracheingabe des Sprechers, als abgeschlossen zu interpretieren ist oder nicht. Hierdurch kann beispielsweise prognostiziert werden, ob weitere Sprachdaten vom Sprecher zu erwarten sind oder nicht. Gerade bei Stottern, das mit Pausen, insbesondere mit über mehrere Sekunden andauernden Pausen, und/oder Zwischenlauten einhergeht, wird hierdurch verhindert, dass beispielsweise voreilig Sprachdaten vom Sprachassistenten verarbeitet werden, bevor die Spracheingabe von Seiten des Sprechers überhaupt beendet wurde. Eine mögliche Fehlinterpretation von der Sprache des Sprechers wird somit reduziert.In a preferred embodiment, it is provided that when the stutter detection criterion is applied, it is determined whether the speaker has finished a speech input or not. Only if the voice input has ended will voice termination data describing the termination of the voice input be provided. It is therefore determined specifically and preferably taking into account the body data whether an individual spoken sentence or command, in particular whether the speaker's entire speech input, is to be interpreted as complete or not. This makes it possible, for example, to predict whether further speech data can be expected from the speaker or not. Especially in the case of stuttering, which is accompanied by pauses, especially pauses lasting several seconds, and/or intermediate sounds, this prevents, for example, voice data from being processed prematurely by the voice assistant before the voice input has even been completed by the speaker. A possible misinterpretation of the speaker's language is thus reduced.
Es ist in einer weiteren Ausführungsform vorgesehen, dass das Erzeugen der überarbeiteten Sprachdaten erst erfolgt, nachdem die Sprachbeendigungsdaten bereitgestellt wurden. Dem Sprachassistenten wird somit gezielt mitgeteilt, ob der Sprecher einen Satz oder Befehl bereits vollständig gesprochen hat oder nicht. Der Sprachassistent kann dadurch besonders vorteilhaft Laute von gezielt gesprochenen Wörtern unterscheiden und erkennen, welche Wörter wirklich gesprochen wurden und welcher Anteil der Sprachdaten nur Pausen oder inhaltsfreie Laute sind. Dies führt zu einer komfortablen Bedienung des Sprachassistenten, da für Stotterer stets von Seiten des Sprachassistenten die Geduld aufgebracht wird, die gesamte Spracheingabe zu berücksichtigen und nicht voreilig die Spracheingabe von Seiten des Sprachassistenten beendet wird, ohne Rücksicht auf Auswirkungen des Stotterns des Sprechers auf die Sprachdaten.In a further embodiment, it is provided that the revised voice data is only generated after the voice termination data has been provided. The voice assistant is thus specifically informed whether the speaker has already spoken a sentence or command completely or not. This makes it particularly advantageous for the voice assistant to distinguish sounds from specifically spoken words and to recognize which words were actually spoken and what proportion of the speech data are just pauses or sounds without content. This leads to a comfortable operation of the voice assistant, since for people who stutter, the voice assistant always has the patience to take the entire voice input into account and the voice input is not prematurely ended by the voice assistant, without taking into account the effects of the speaker's stuttering on the voice data .
Außerdem sieht es eine Ausführungsform vor, dass die erfassten Körperdaten zumindest eines der folgenden Merkmale beschreiben: Eine zitternde Lippenbewegung, eine Herzfrequenzänderung, eine Atemfrequenzänderung, eine Mikroexpression in einem Gesicht des Sprechers, die alternativ als Mimik bezeichnet werden kann, eine Körpersprache des Sprechers und/oder eine Blickbewegung eines Blicks des Sprechers. Anhand der Blickbewegung des Sprechers kann beispielsweise festgestellt werden, ob und auf was der Benutzer aktuell seine Aufmerksamkeit richtet. Dies dient zur Aufmerksamkeitserkennung beispielsweise mit Hilfe von Blickverfolgung, das heißt zur Verfolgung der Blickbewegung des Blicks des Sprechers während des Sprechens. All diese Merkmale können charakteristisch für Stottern sein beziehungsweise im Fall von Stottern häufig auftreten. Es ist beispielsweise bekannt, dass beim Stottern oftmals eine Herzfrequenz und/oder eine Atemfrequenz des Sprechers im Vergleich zur Herzfrequenz beziehungsweise Atemfrequenz vor dem gestotterten Sprechen erhöht oder andersartig verändert ist. Auf solche typischen Körpermerkmale, die mit dem Stottern einhergehen können, wird somit gezielt geachtet, indem diese von den Körperdaten beschrieben werden und folglich entsprechend beim Anwenden des Stottererkennungskriterium ausgewählt und berücksichtigt werden können. Hierdurch wird deutlich, dass es möglich ist, das Stottern besonders zuverlässig durch Berücksichtigung der beschriebenen körperlichen Merkmale zu erkennen. Diese sind jeweils zeitlich variabel, das heißt, es wird nicht einfach nur eine Lippenbewegung beim Sprechen als Körperdaten erfasst, sondern es wird die zusätzliche Zitterbewegung während des Stotterns erfasst und ausgewertet.In addition, one embodiment provides that the recorded body data describes at least one of the following features: a trembling lip movement, a heart rate change, a breathing rate change, a microexpression in a face of the speaker, which can alternatively be referred to as facial expressions, a body language of the speaker and / or an eye movement of a gaze from the speaker. Based on the speaker's eye movement, it can be determined, for example, whether and what the user is currently paying attention to. This is used to detect attention, for example with the help of eye tracking, i.e. to track the eye movement of the speaker's gaze while speaking. All of these features can be characteristic of stuttering or can occur frequently in the case of stuttering. It is known, for example, that when stuttering, a speaker's heart rate and/or breathing rate is often increased or changed in some other way compared to the heart rate or breathing rate before the stuttered speech. Specific attention is paid to such typical body features that can be associated with stuttering in that these are described by the body data and can therefore be selected and taken into account when applying the stuttering detection criterion. This makes it clear that it is possible to recognize stuttering particularly reliably by taking the physical characteristics described into account. These are each time-variable, which means that not just a lip movement when speaking is recorded as body data, but the additional trembling movement during stuttering is recorded and evaluated.
Außerdem sieht es eine Ausführungsform vor, dass das Stottererkennungskriterium und/oder das Sprachüberarbeitungskriterium auf Methoden des maschinellen Lernens basiert. Es beziehungsweise sie basieren insbesondere auf einem künstlichen neuronalen Netzwerk. Es kann also auf Methoden der künstlichen Intelligenz zurückgegriffen werden, um die beiden oder zumindest eines der beiden Kriterien bereitstellen zu können. Es wird bevorzugt zunächst ein Trainingsprozess durchgeführt, bei dem anhand von beispielsweise Sprachdaten sowie Körperdaten von stotternden Sprechern das Stottererkennungskriterium darauf trainiert wird, die körperlichen und/oder akustischen Merkmale von stotternder Sprache als solche zu erkennen. Ferner kann das Sprachüberarbeitungskriterium trainiert werden, indem beispielsweise zumindest Sprachdaten von stotternden Personen sowie die Interpretation dieser Sprachdaten bereitgestellt wird, sodass beispielsweise das Sprachüberarbeitungskriterium darauf trainiert ist, die Pausen zwischen Wörtern sowie langgezogene Wörter als solche zu erkennen und diese Artefakte des Stotterns zu bereinigen, um die überarbeiteten Sprachdaten bereitstellen zu können. Prinzipiell ist es möglich, dass das Stottererkennungskriterium und das Sprachüberarbeitungskriterium in einem gemeinsamen Kriterium umfasst sind, also zum Beispiel in einem gemeinsamen Algorithmus. Es ist jedoch bevorzugt vorgesehen, dass zwei einzelne künstliche neuronale Netzwerke trainiert werden und diese beispielsweise lediglich zusammengefasst, miteinander kombiniert und/oder nacheinander durchgeführt werden. Durch die Verwendung des maschinellen Lernens können besonders zuverlässige Kriterien vorliegen.In addition, one embodiment provides that the stutter detection criterion and/or the speech revision criterion is based on machine learning methods. It or they are based in particular on an artificial neural network. Artificial intelligence methods can therefore be used to provide both or at least one of the two criteria. A training process is preferably first carried out in which the stuttering detection criterion is trained to recognize the physical and/or acoustic characteristics of stuttering speech as such using, for example, speech data and body data from stuttering speakers. Furthermore, the speech revision criterion can be trained by, for example, providing at least speech data from people who stutter and the interpretation of this speech data, so that, for example, the speech revision criterion is trained to recognize the pauses between words as well as long words as such and to clean up these artifacts of stuttering to be able to provide the revised language data. In principle, it is possible for the stuttering detection criterion and the speech revision criterion to be included in a common criterion, for example in a common algorithm. However, it is preferably provided that two individual artificial neural networks are trained and that they are, for example, merely summarized, combined with one another and/or carried out one after the other. The use of machine learning can provide particularly reliable criteria.
Des Weiteren sieht es eine Ausführungsform vor, dass basierend auf den verarbeiteten überarbeiteten Sprachdaten eine Funktion des Kraftfahrzeugs durchgeführt wird. Diese Funktion ist beispielsweise ein Ansteuern des Navigationssystems, des Multimediasystems, des Klimatisierungssystems, eines Einstellungsmenüs und/oder einer weiteren Einrichtung des Kraftfahrzeugs. Ferner kann die Funktion eine Ansteuerung eine Klimaanlage im Kraftfahrzeug betreffen. Prinzipiell kann die Sprachsteuerung für ein Steuern oder Ansteuern einer beliebigen Funktion des Kraftfahrzeugs ausgebildet sein. Es ist alternativ oder zusätzlich möglich, dass mittels des Sprachassistenten ein Einstellen von Fahrparametern des Kraftfahrzeugs erfolgt.Furthermore, one embodiment provides that a function of the motor vehicle is carried out based on the processed, revised voice data. This function is, for example, controlling the navigation system, the multimedia system, the air conditioning system, a settings menu and/or another device of the motor vehicle. Furthermore, the function can relate to the control of an air conditioning system in the motor vehicle. In principle, the voice control can be designed to control or actuate any function of the motor vehicle. Alternatively or additionally, it is possible for driving parameters of the motor vehicle to be set using the voice assistant.
Es werden Reaktionsdaten erfasst, die eine Reaktion des Sprechers auf die durchgeführte Funktion beschreiben. Diese Reaktion kann beispielsweise darin bestehen, dass der Sprecher erneut eine Spracheingabe durchführt, um das vom Sprachassistenten Verstandene zu korrigieren. Ferner kann ein Abbrechen der Funktion, beispielsweise durch Betätigen einer Betätigungseinrichtung im Kraftfahrzeug, zumindest darauf hindeuten, dass die Funktion nicht so durchgeführt wurde, wie es eigentlich durch die Spracheingabe gewünscht war. Die Betätigungseinrichtung ist zum Beispiel eine Taste, ein Schalter, ein Drehdrückschalter und/oder ein berührungssensitiver Bildschirm im Kraftfahrzeugs beziehungsweise des Kraftfahrzeugs. Bei einem Akzeptieren der Funktion, wie sie durchgeführt wird, kann darauf geschlossen werden, dass die Verarbeitung der überarbeiteten Sprachdaten so erfolgt ist, wie es vom Sprecher gewünscht war. Letztendlich liegt mit den Reaktionsdaten eine Rückmeldung des Sprechers auf die Reaktion des Sprachassistenten auf die erfassten Sprachdaten vor.Reaction data is recorded that describes the speaker's reaction to the function performed. This reaction can, for example, consist of the speaker making another voice input in order to correct what the voice assistant has understood. Furthermore, canceling the function, for example by activating an actuating device in the motor vehicle, can at least indicate that the function was not carried out as actually desired by the voice input. The actuating device is, for example, a button, a switch, a rotary push switch and/or a touch-sensitive screen in the motor vehicle or the motor vehicle. If the function is accepted as it is carried out, it can be concluded that the processing of the revised speech data took place as desired by the speaker. Ultimately, the reaction data provides feedback from the speaker on the voice assistant's reaction to the recorded speech data.
Anhand der erfassten Reaktionsdaten wird das Stottererkennungskriterium und/oder das Sprachüberarbeitungskriterium trainiert. Es können also die von dem Sprecher im Kraftfahrzeug selbst bereitgestellten und somit personalisierten Daten dazu verwendet werden, ein Nachtraining oder eine Korrektur beziehungsweise Anpassung des jeweiligen Kriteriums durchzuführen. Hierdurch wird ein gezieltes, stetiges und gegebenenfalls sogar personalisiertes Nachtrainieren der bevorzugt auf maschinellem Lernen basierenden Kriterien ermöglicht, sodass sich das Verfahren automatisch an einen bestimmten Benutzer und dessen beispielsweise für ihn typisches Stottern anpassen kann. Diesem Vorgehen liegt zumindest teilweise die Erkenntnis zugrunde, dass eine Ausprägung und Ausgestaltung des Stotterns von Mensch zu Mensch unterschiedlich und somit individuell sein kann.The stutter detection criterion and/or the speech revision criterion is trained based on the recorded reaction data. The data provided by the speaker in the motor vehicle and thus personalized can therefore be used to carry out retraining or a correction or adjustment of the respective criterion. This enables targeted, constant and possibly even personalized retraining of the criteria, which are preferably based on machine learning, so that the method can automatically adapt to a specific user and, for example, their typical stuttering. This approach is based, at least in part, on the knowledge that the severity and form of stuttering can vary from person to person and can therefore be individual.
Es kann ferner vorgesehen sein, dass im Kraftfahrzeug ein Benutzerprofil hinterlegt ist und in diesem die beim Trainieren erlangten Informationen zum Stottern eines bestimmten Sprechers gespeichert werden. Sobald dieser Sprecher wieder in das Kraftfahrzeug einsteigt, kann beispielsweise basierend auf einer Gesichtserkennung und/oder mithilfe eines personalisierten Schlüssels darauf geschlossen werden, dass sich der Sprecher, der als stotternder Sprecher bereits bekannt ist, im Kraftfahrzeug befindet. Außerdem kann daraufhin ein auf genau diesen Sprecher zurechtgeschnittenes und somit personalisiertes Stottererkennungskriterium und/oder Sprachüberarbeitungskriterium aktiviert werden. Dies führt zu einer besonders komfortablen Bedienung des Sprachassistenten im Kraftfahrzeug für einen das Kraftfahrzeug mehr als einmal verwendenden Sprecher. Dies eignet sich zudem für einen Sprachassistenten in einem geliehenen oder gemieteten Kraftfahrzeug, falls in diesem auf das Benutzerprofil zugegriffen und das personalisierte Stottererkennungskriterium und/oder Sprachüberarbeitungskriterium geladen werden kann. Das Benutzerprofil ist beispielsweise in einer externen Recheneinrichtung gespeichert und kann über Fahrzeug-zu-Infrastruktur-Kommunikation an das Kraftfahrzeug übermittelt werden. Alternativ oder zusätzlich dazu kann das Benutzerprofil im Kraftfahrzeug gespeichert sein.It can also be provided that a user profile is stored in the motor vehicle and in this the information obtained during training about the stuttering of a specific speaker is stored. As soon as this speaker gets back into the motor vehicle, it can be concluded, for example based on facial recognition and/or using a personalized key, that the speaker, who is already known to be a stuttering speaker, is in the motor vehicle. In addition, a stuttering detection criterion and/or speech revision criterion tailored to precisely this speaker and thus personalized can then be activated. This leads to a particularly comfortable operation of the voice assistant in the motor vehicle for a speaker who uses the motor vehicle more than once. This is also suitable for a voice assistant in a borrowed or rented motor vehicle if the user profile can be accessed and the personalized stutter detection criterion and/or language revision criterion can be loaded. The user profile is stored, for example, in an external computing device and can be communicated via vehicle-to-infrastructure communication the motor vehicle is transmitted. Alternatively or additionally, the user profile can be stored in the motor vehicle.
Eine weitere Ausführungsform sieht vor, dass das Stottererkennungskriterium und/oder das Sprachüberarbeitungskriterium vom Sprachassistenten umfasst ist. Es kann also vorgesehen sein, dass eines der oder beide Kriterien in den Sprachassistenten integriert sind. Es kann beispielweise ein bereits existierender Sprachassistent um eines der oder beide Kriterien ergänzt sein.A further embodiment provides that the stutter detection criterion and/or the language revision criterion is included by the language assistant. It can therefore be provided that one or both criteria are integrated into the voice assistant. For example, an existing voice assistant can be supplemented with one or both criteria.
Alternativ dazu ist es in einer Ausführungsform möglich, dass zumindest das Sprachüberarbeitungskriterium von einem Zwischenmodul umfasst wird, das die überarbeiteten Sprachdaten dem Sprachassistenten bereitstellt. Bevorzugt werden das Stottererkennungskriterium und das Sprachüberarbeitungskriterium vom Zwischenmodul umfasst. Das Zwischenmodul kann ein einzelner Software-Baustein sein, der beispielsweise vor eine Software des Sprachassistenten geschaltet sein kann. Das Zwischenmodul wird also nach dem Erfassen der Sprachdaten und der Körperdaten verwendet und stellt die überarbeiteten Sprachdaten dem bereits existierenden Sprachassistenten bereit. In dieser Ausführungsform kann ein bereits existierender Sprachassistent unverändert verwendet werden.Alternatively, in one embodiment it is possible for at least the language revision criterion to be comprised by an intermediate module that provides the revised language data to the voice assistant. The stutter detection criterion and the speech revision criterion are preferably included in the intermediate module. The intermediate module can be a single software component, which can, for example, be connected in front of the voice assistant software. The intermediate module is therefore used after recording the voice data and the body data and provides the revised voice data to the existing voice assistant. In this embodiment, an existing voice assistant can be used unchanged.
Da somit ein bereits im Kraftfahrzeug vorhandener Sprachassistent mit geringem Aufwand zum Verarbeiten der gestotterten Sprache erweitert werden kann oder um das Zwischenmodul ergänzt werden kann, ist eine kostengünstige Realisierung des Verfahrens möglich.Since a language assistant already present in the motor vehicle can be expanded to process the stuttered speech with little effort or can be supplemented with the intermediate module, a cost-effective implementation of the method is possible.
Das beschriebene Verfahren kann in nicht fahrzeugbezogenen Situationen angewendet werden. Es ist also alternativ oder zusätzlich für einen Sprachassistenten eines elektronischen Geräts, wie eines Smartphones, Tablets, Fernsehgeräts, Haushaltsgeräts und/oder eines Computers, vorgesehen und geeignet.The described procedure can be used in non-vehicle situations. It is therefore alternatively or additionally intended and suitable for a voice assistant of an electronic device, such as a smartphone, tablet, television, household appliance and/or a computer.
Für Anwendungsfälle oder Anwendungssituationen, die sich bei dem Verfahren ergeben können und die hier nicht explizit beschrieben sind, kann vorgesehen sein, dass gemäß dem Verfahren eine Fehlermeldung und/oder eine Aufforderung zur Eingabe einer Nutzerrückmeldung ausgegeben und/oder eine Standardeinstellung und/oder ein vorbestimmter Initialzustand eingestellt wird.For use cases or application situations that may arise with the method and that are not explicitly described here, it can be provided that an error message and/or a request to enter user feedback and/or a standard setting and/or a predetermined one can be issued according to the method Initial state is set.
Ein weiterer Aspekt der Erfindung betrifft ein Kraftfahrzeug, das dazu ausgebildet ist, das oben beschriebene Verfahren durchzuführen. Zu der Erfindung gehören auch Weiterbildungen des erfindungsgemäßen Kraftfahrzeugs, die Merkmale aufweisen, wie sie bereits im Zusammenhang mit den Weiterbildungen des erfindungsgemäßen Verfahrens beschrieben worden sind. Mittels des Kraftfahrzeugs wird das erfindungsgemäße Verfahren durchgeführt.Another aspect of the invention relates to a motor vehicle that is designed to carry out the method described above. The invention also includes further developments of the motor vehicle according to the invention, which have features as have already been described in connection with the further developments of the method according to the invention. The method according to the invention is carried out using the motor vehicle.
Das erfindungsgemäße Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen oder Lastkraftwagen, oder als Personenbus oder Motorrad ausgestaltet.The motor vehicle according to the invention is preferably designed as a motor vehicle, in particular as a passenger car or truck, or as a passenger bus or motorcycle.
Eine vorteilhafte Ausführungsform des erfindungsgemäßen Kraftfahrzeugs sieht vor, dass die Mikrofoneinrichtung und die Erfassungseinrichtung Komponenten des Kraftfahrzeugs sind, das heißt, dass das Kraftfahrzeug die Mikrofoneinrichtung und die Erfassungseinrichtung aufweist. Die Mikrofoneinrichtung umfasst zumindest ein Mikrofon. Die Erfassungseinrichtung ist insbesondere als eine Kamera, zum Beispiel als eine Innenraumkamera, und/oder als ein Radargerät ausgebildet. Das Radargerät ist insbesondere ein Ultrabreitbandsensor, der beispielsweise in einer Fahrzeugdecke des Kraftfahrzeugs angeordnet ist und dazu ausgebildet ist, den Innenraum des Kraftfahrzeugs zu erfassen. Hierdurch wird eine oftmals standardmäßig im Kraftfahrzeug verbaute Sensoreinrichtung dazu verwendet, das Verfahren zum Erfassen der Sprachdaten sowie der Körperdaten zu ermöglichen, wodurch dieses mit geringem Aufwand im Kraftfahrzeug implementiert werden kann.An advantageous embodiment of the motor vehicle according to the invention provides that the microphone device and the detection device are components of the motor vehicle, that is, that the motor vehicle has the microphone device and the detection device. The microphone device includes at least one microphone. The detection device is designed in particular as a camera, for example as an interior camera, and/or as a radar device. The radar device is in particular an ultra-wideband sensor, which is arranged, for example, in a vehicle ceiling of the motor vehicle and is designed to detect the interior of the motor vehicle. As a result, a sensor device that is often installed as standard in the motor vehicle is used to enable the method for recording the voice data and the body data, whereby this can be implemented in the motor vehicle with little effort.
Zu der Erfindung gehört die Steuervorrichtung für das Kraftfahrzeug. Die Steuervorrichtung kann eine Datenverarbeitungsvorrichtung oder eine Prozessoreinrichtung aufweisen, die dazu eingerichtet ist, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Prozessoreinrichtung kann hierzu zumindest einen Mikroprozessor und/oder zumindest einen Mikrocontroller und/oder zumindest einen FPGA (Field Programmable Gate Array) und/oder zumindest einen DSP (Digital Signal Processor) aufweisen. Des Weiteren kann die Prozessoreinrichtung Programmcode aufweisen, der dazu eingerichtet ist, bei Ausführen durch die Prozessoreinrichtung die Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Der Programmcode kann in einem Datenspeicher der Prozessoreinrichtung gespeichert sein. Die Prozessorschaltung der Prozessoreinrichtung kann z.B. zumindest eine Schaltungsplatine und/oder zumindest ein SoC (System on Chip) aufweisen.The invention includes the control device for the motor vehicle. The control device can have a data processing device or a processor device that is set up to carry out an embodiment of the method according to the invention. For this purpose, the processor device can have at least one microprocessor and/or at least one microcontroller and/or at least one FPGA (Field Programmable Gate Array) and/or at least one DSP (Digital Signal Processor). Furthermore, the processor device can have program code that is designed to carry out the embodiment of the method according to the invention when executed by the processor device. The program code can be stored in a data memory of the processor device. The processor circuit of the processor device can, for example, have at least one circuit board and/or at least one SoC (System on Chip).
Als eine weitere Lösung umfasst die Erfindung ein computerlesbares Speichermedium, umfassend Programmcode, der bei der Ausführung durch eine Prozessorschaltung eines Computers oder eines Computerverbunds diese veranlasst, eine Ausführungsform des erfindungsgemäßen Verfahrens auszuführen. Das Speichermedium kann z.B. zumindest teilweise als ein nichtflüchtiger Datenspeicher (z.B. als eine Flash-Speicher und/oder als SSD - solid state drive) und/oder zumindest teilweise als ein flüchtiger Datenspeicher (z.B. als ein RAM - random access memory) bereitgestellt sein. Das Speichermedium kann in der Prozessorschaltung in deren Datenspeicher angeordnet sein. Das Speichermedium kann aber auch beispielsweise als sogenannter Appstore-Server im Internet betrieben sein. Durch den Computer oder Computerverbund kann eine Prozessorschaltung mit zumindest einem Mikroprozessor bereitgestellt sein. Der Programmcode kann als Binärcode oder Assembler und/oder als Quellcode einer Programmiersprache (z.B. C) und/oder als Programmskript (z.B. Python) bereitgestellt sein.As a further solution, the invention includes a computer-readable storage medium comprising program code which, when executed by a processor circuit of a computer or a computer network, causes it to carry out an embodiment of the method according to the invention. The storage medium can, for example, be at least partially non-volatile Data storage (for example as a flash memory and/or as an SSD - solid state drive) and/or at least partially as a volatile data storage (for example as a RAM - random access memory) may be provided. The storage medium can be arranged in the processor circuit in its data memory. The storage medium can also be operated on the Internet as a so-called app store server, for example. The computer or computer network can provide a processor circuit with at least one microprocessor. The program code can be provided as binary code or assembler and/or as source code of a programming language (e.g. C) and/or as a program script (e.g. Python).
Die Erfindung umfasst auch die Kombinationen der Merkmale der beschriebenen Ausführungsformen. Die Erfindung umfasst also auch Realisierungen, die jeweils eine Kombination der Merkmale mehrerer der beschriebenen Ausführungsformen aufweisen, sofern die Ausführungsformen nicht als sich gegenseitig ausschließend beschrieben wurden.The invention also includes the combinations of the features of the described embodiments. The invention therefore also includes implementations that each have a combination of the features of several of the described embodiments, provided that the embodiments have not been described as mutually exclusive.
Im Folgenden sind Ausführungsbeispiele der Erfindung beschrieben. Hierzu zeigt:
-
1 eine schematische Darstellung eines Kraftfahrzeugs mit einem Sprachassistenten; und -
2 in schematischer Darstellung einen Signalflussgraphen eines Verfahrens zum Verarbeiten gestottert gesprochener Sprache mittels eins Sprachassistenten für ein Kraftfahrzeug.
-
1 a schematic representation of a motor vehicle with a voice assistant; and -
2 a schematic representation of a signal flow graph of a method for processing stuttered spoken speech using a language assistant for a motor vehicle.
Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsformen der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden. Daher soll die Offenbarung auch andere als die dargestellten Kombinationen der Merkmale der Ausführungsformen umfassen. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.The exemplary embodiments explained below are preferred embodiments of the invention. In the exemplary embodiments, the described components of the embodiments each represent individual features of the invention that are to be considered independently of one another and which also further develop the invention independently of one another. Therefore, the disclosure is intended to include combinations of the features of the embodiments other than those shown. Furthermore, the described embodiments can also be supplemented by further features of the invention that have already been described.
In den Figuren bezeichnen gleiche Bezugszeichen jeweils funktionsgleiche Elemente.In the figures, the same reference numerals designate functionally identical elements.
In
Das Kraftfahrzeug 1 kann eine Lautsprechereinrichtung 8 mit zumindest einem Lautsprecher und/oder eine Anzeigeeinrichtung 9, wie beispielsweise einen Bildschirm, insbesondere einen berührungssensitiven Bildschirm, aufweisen. Mittels dieser kann beispielsweise nach einer Spracheingabe des Sprechers 2 eine akustische und/oder visuelle Meldung an den Sprecher 2 ausgegeben werden.The motor vehicle 1 can have a
Das Kraftfahrzeug 1 weist eine Steuervorrichtung 10 auf, die als Recheneinrichtung ausgebildet ist. Die Steuervorrichtung 10 umfasst einen Sprachassistent 11. Ferner kann ein Zwischenmodul 12 in der Steuervorrichtung 10 vorgesehen sein, das ein Stottererkennungskriterium 13 und/oder ein Sprachüberarbeitungskriterium 14 umfasst. Alternativ oder zusätzlich dazu kann das Stottererkennungskriterium 13 und/oder das Sprachüberarbeitungskriterium 14 vom Sprachassistenten 11 selbst umfasst sein. Der Sprachassistent 11 und das Zwischenmodul 12 sind als Software oder Software-Baustein zu verstehen.The motor vehicle 1 has a
In
In einem Verfahrensschritt S3 wird überprüft, ob die Sprache gemäß der erfassten Sprachdaten 20 gestottert gesprochen wurde. Hierfür wird das Stottererkennungskriterium 13 auf die erfassten Sprachdaten 20 und die erfassten Körperdaten 21 angewendet. Es kann beim Anwenden des Stottererkennungskriteriums 13 ermittelt werden, ob der Sprecher 2 seine Spracheingabe beendet hat oder nicht. Nur falls dies der Fall ist, das heißt, nur falls die Spracheingabe beendet ist, werden zum Beispiel Sprachbeendigungsdaten 22 bereitgestellt, die das Beenden der Spracheingabe beschreiben. Es ist möglich, dass weitere Verfahrensschritte nur dann erfolgen, wenn die Sprachbeendigungsdaten 22 bereitgestellt wurden.In a method step S3, it is checked whether the speech was spoken in a stuttered manner according to the recorded
In einem Verfahrensschritt S4 erfolgt ein Erzeugen von überarbeiteten Sprachdaten 23. Dies erfolgt, falls die Sprache gestottert gesprochen wurde, das heißt, falls dies in einem dritten Schritt S3 festgestellt wurde und insbesondere falls zudem die Sprachbeendigungsdaten 22 bereitgestellt wurden. Das Bereitstellen der Sprachbeendigungsdaten 22 ist also optional, das heißt, der Verfahrensschritt S4 kann erfolgen, während die Spracheingabe des Sprechers 2 noch nicht beendet worden ist. Der Verfahrensschritt S4 kann folglich kontinuierlich durchgeführt werden, während der Sprecher 2 noch spricht.In a method step S4, revised
Zum Erzeugen der überarbeiteten Sprachdaten 23 wird das Sprachüberarbeitungskriterium 14 für gestotterte Sprache zumindest auf die Sprachdaten 20 angewendet. Es können hierbei zudem die Körperdaten 21 berücksichtigt werden. In den überarbeiteten Sprachdaten 23 wird zumindest ein Merkmal des Stotterns zumindest reduziert. Beispielsweise können die zwischen Wörtern durch das Stottern entstehenden Pausen herausgeschnitten werden und/oder langgezogene Wörter als komprimiert ausgesprochene Wörter umformuliert oder interpretiert werden.To generate the revised
In einem Verfahrensschritt S5 werden die überarbeiteten Sprachdaten 23 mittels des Sprachassistenten 11 verarbeitet. Es kann in einem Verfahrensschritt S6, beispielsweise basierend auf den verarbeiteten überarbeiteten Sprachdaten 23, eine Funktion 24 des Kraftfahrzeugs 1 durchgeführt werden, wie beispielsweise eine Ansteuerung eines Navigationssystems, eines Multimediasystems oder einer anderen Komponente des Kraftfahrzeugs 1. Daraufhin werden in einem Verfahrensschritt S7 Reaktionsdaten 25 erfasst, die eine Reaktion des Sprechers 2 auf die durchgeführte Funktion 24 beschreiben. Diese Reaktion ist beispielsweise ein Akzeptieren des Durchführens der Funktion, eine Korrektureingabe, beispielsweise mittels einer Betätigungseinrichtung im Kraftfahrzeug 1, oder eine andersartige Reaktion, wie ein akustisch erfassbares Murren oder Schimpfen des Sprechers 2, das mittels der Mikrofoneinrichtung 4 erfasst wird. Anhand der erfassten Reaktionsdaten 25 wird das Stottererkennungskriterium 13 und/oder das Sprachüberarbeitungskriterium 14 in einem verfahrensschritt S8 erneut trainiert. Das Stottererkennungskriterium 13 und/oder das Sprachüberarbeitungskriterium 14 kann somit auf den spezifischen Sprecher 2 zugeschnitten oder generell überarbeitet und optimiert werden. Hierdurch wird erreicht, dass ein individuelles Stottern des Sprechers 2 berücksichtigt werden kann.In a method step S5, the revised
Zumindest die Verfahrensschritte S3 bis S5 sowie S6 und S8 werden mittels der Steuervorrichtung 10 des Kraftfahrzeugs 1 durchgeführt.At least the method steps S3 to S5 as well as S6 and S8 are carried out using the
Prinzipiell ist es möglich, dass das beschriebene Verfahren nicht auf ein Kraftfahrzeug 1 bezogen ist, sondern beispielsweise in einem mobilen Endgerät und/oder einem elektronischen Gerät, wie beispielsweise einem Fernsehgerät oder Haushaltsgerät, durchgeführt wird. Voraussetzung ist lediglich, dass dieses die Mikrofoneinrichtung 4 sowie die Erfassungseinrichtung 5 umfasst oder von diesen erfasste Daten empfangen kann.In principle, it is possible that the method described is not related to a motor vehicle 1, but is carried out, for example, in a mobile terminal and/or an electronic device, such as a television or household appliance. The only requirement is that this includes the
Insgesamt zeigen die Beispiele die Inklusion von Menschen mit einer Sprechbehinderung wie Stottern in die Nutzung eines Sprachdialogsystems, das heißt in die Nutzung eines Sprachassistenten 11. Die im Kraftfahrzeug 1 verbauten Sensoren, wie die Kamera 6, die Mikrofoneinrichtung 4 und/oder der Radarsensor, das heißt hier der Ultrabreitbandsensor 7, dienen einem oder mehreren KI-Algorithmen als Input, indem sie die Sprachdaten 20 beziehungsweise die Körperdaten 21 bereitstellen. Über die Erfassungseinrichtung 5 kann der entsprechende Algorithmus unter anderem Lippenbewegungen, Mikroexpression, Herzschlag, Atemfrequenz, Aufmerksamkeitserkennung durch Blickverfolgung und Körperbewegung des Sprechers 2 erkennen. Das heißt, es können die Körperdaten 21 erfasst werden. Der Algorithmus oder die Algorithmen werden gezielt auf die Erkennung der Merkmale eines stotternden Menschen trainiert, wie zum Beispiel zitternde Lippenbewegung, erhöhte Herzfrequenz, Stotterlaute und so weiter. Die verbaute Mikrofoneinrichtung 4 kann von dem oder einem weiteren künstlichen Intelligenz-Algorithmus als weitere Inputgröße zur Bestimmung des Gesprächsinhalts benutzt werden, das heißt, es können zudem die Sprachdaten 20 berücksichtigt werden. Dabei kann der Algorithmus gezielt zwischen einem Fülllaut und einem gesprochen Wort unterscheiden. Der Ultrabreitbandsensor 7 kann gezielt zur Bestimmung von Vitalparametern wie Herzschlag, Körper- und/oder Lippenbewegungen benutzt werden. Über die Kamera 6 kann ebenfalls die Körperbewegung, Lippenbewegung und/oder Blickrichtung des Sprechers 2 erfasst werden. Durch den oben beschriebenen Sachverhalt ist es dem oder den Algorithmen möglich, nicht nur gezielt das Ende eines gesprochenen Satzes zu prognostizieren, sondern auch die teilweise anders formulierten Wörter zu identifizieren. Dies gelingt dem KI-Algorithmus durch ein personalisiertes Training im Verfahrensschritt S8 auf den jeweiligen Benutzer.Overall, the examples show the inclusion of people with a speech impairment such as stuttering in the use of a speech dialogue system, that is, in the use of a
Die gewonnenen Informationen werden anschließend an den Sprachassistenten 11 weitergegeben, woraufhin dieser dem Sprecher 2 Feedback gibt, das heißt, die Funktion 24 durchführt. Das Verfahren kann als Abstraktionslayer zwischen dem Sprecher 2 und dem Sprachassistenten 11 dienen oder auch als Plug-in innerhalb des Sprachassistenten 11 integriert werden. Das Plug-in meint die Integration in den Sprachassistenten 11 selbst. Das Abstraktionlayer ist beispielsweise durch das Zwischenmodul 12 realisiert. Die genannten Algorithmen meinen das Stottererkennungskriterium 13 und/oder das Sprachüberarbeitungskriterium 14.The information obtained is then passed on to the
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102022124133.5A DE102022124133B3 (en) | 2022-09-20 | 2022-09-20 | Method for processing stuttered speech using a voice assistant for a motor vehicle |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102022124133.5A DE102022124133B3 (en) | 2022-09-20 | 2022-09-20 | Method for processing stuttered speech using a voice assistant for a motor vehicle |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102022124133B3 true DE102022124133B3 (en) | 2024-01-04 |
Family
ID=89167267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102022124133.5A Active DE102022124133B3 (en) | 2022-09-20 | 2022-09-20 | Method for processing stuttered speech using a voice assistant for a motor vehicle |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102022124133B3 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102015106280A1 (en) | 2014-04-25 | 2015-10-29 | GM Global Technology Operations LLC | Systems and methods for compensating speech artifacts in speech recognition systems |
DE102017102392A1 (en) | 2016-02-17 | 2017-08-17 | GM Global Technology Operations LLC | AUTOMATIC LANGUAGE RECOGNITION BY VOICE CHANNELS |
WO2021136962A1 (en) | 2020-01-03 | 2021-07-08 | Orcam Technologies Ltd. | Hearing aid systems and methods |
-
2022
- 2022-09-20 DE DE102022124133.5A patent/DE102022124133B3/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102015106280A1 (en) | 2014-04-25 | 2015-10-29 | GM Global Technology Operations LLC | Systems and methods for compensating speech artifacts in speech recognition systems |
DE102017102392A1 (en) | 2016-02-17 | 2017-08-17 | GM Global Technology Operations LLC | AUTOMATIC LANGUAGE RECOGNITION BY VOICE CHANNELS |
WO2021136962A1 (en) | 2020-01-03 | 2021-07-08 | Orcam Technologies Ltd. | Hearing aid systems and methods |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112014007015B4 (en) | Speech recognition system | |
EP3224831B1 (en) | Motor vehicle operating device with a correction strategy for voice recognition | |
DE102019119171A1 (en) | VOICE RECOGNITION FOR VEHICLE VOICE COMMANDS | |
DE10163213A1 (en) | Method for operating a speech recognition system | |
DE112007003024T5 (en) | Vehicle mounted speech recognition device | |
EP3430615B1 (en) | Transportation means, and system and method for adapting the length of a permissible speech pause in the context of a speech input | |
DE112017007280T5 (en) | In-vehicle communication control device, in-vehicle communication system, and in-vehicle communication control method | |
DE60205095T2 (en) | TRANSCRIPTION SERVICE WITH CANCELLATION OF AUTOMATIC TRANSCRIPTION | |
DE102022124133B3 (en) | Method for processing stuttered speech using a voice assistant for a motor vehicle | |
DE102018132160A1 (en) | SYSTEM AND METHOD FOR UNDERSTANDING STANDARD LANGUAGE AND DIALECTS | |
DE102018215293A1 (en) | Multimodal communication with a vehicle | |
EP2548382B1 (en) | Method for testing speech comprehension of a person assisted by a hearing aid | |
WO2020064281A1 (en) | Providing interactive feedback, on a spoken announcement, for vehicle occupants | |
EP3115886A1 (en) | Method for operating a voice controlled system and voice controlled system | |
DE102006045719B4 (en) | Medical system with a voice input device | |
EP2907048A1 (en) | Motor vehicle having a speech translation system | |
DE112021006996T5 (en) | Adjustment device, adjustment system and adjustment method | |
DE102019133133A1 (en) | Assistance system through which the output of at least one media content is controlled in a room, motor vehicle and operating method for the assistance system | |
DE112018006597B4 (en) | Speech processing device and speech processing method | |
DE102018117205A1 (en) | Method for informing an occupant of a motor vehicle about a traffic situation using voice information; Control means; Driver assistance system; as well as computer program product | |
DE102014108371B4 (en) | Method for voice control of entertainment electronic devices | |
WO2015176986A1 (en) | Method for operating a voice dialogue system for a motor vehicle | |
WO2018188907A1 (en) | Processing speech input | |
DE102022125547A1 (en) | Motor vehicle and method for summarizing a conversation in a motor vehicle | |
DE102017203840A1 (en) | CAUSE ANALYSIS AND RECOVERY SYSTEMS AND METHODS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division |