DE102022124133B3 - Method for processing stuttered speech using a voice assistant for a motor vehicle - Google Patents

Method for processing stuttered speech using a voice assistant for a motor vehicle Download PDF

Info

Publication number
DE102022124133B3
DE102022124133B3 DE102022124133.5A DE102022124133A DE102022124133B3 DE 102022124133 B3 DE102022124133 B3 DE 102022124133B3 DE 102022124133 A DE102022124133 A DE 102022124133A DE 102022124133 B3 DE102022124133 B3 DE 102022124133B3
Authority
DE
Germany
Prior art keywords
speech
data
speaker
motor vehicle
criterion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102022124133.5A
Other languages
German (de)
Inventor
Sebastian Hanrieder
Kevin Beck
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cariad SE
Original Assignee
Cariad SE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cariad SE filed Critical Cariad SE
Priority to DE102022124133.5A priority Critical patent/DE102022124133B3/en
Application granted granted Critical
Publication of DE102022124133B3 publication Critical patent/DE102022124133B3/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • G10L2021/0575Aids for the handicapped in speaking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Verarbeiten gestottert gesprochener Sprache mittels eines Sprachassistenten (11) für ein Kraftfahrzeug (1) sowie das Kraftfahrzeug (1). Das Verfahren umfasst: Erfassen (S1) von Sprachdaten (20), die eine von einem Sprecher (2) gesprochene Sprache beschreiben, mittels einer Mikrofoneinrichtung (4); während des Erfassend der Sprachdaten (20), Erfassen (S2) von Körperdaten (21), die zumindest ein zeitlich variierendes körperliches Merkmal des Sprechers (2) beschreiben, mittels einer Erfassungseinrichtung (5); Überprüfen (S3), ob die Sprache gemäß der erfassten Sprachdaten (20) gestottert gesprochen wurde, durch Anwenden eines Stottererkennungskriteriums (13) auf die erfassten Sprachdaten (20) und Körperdaten (21); falls die Sprache gestottert gesprochen wurde, Erzeugen (S4) von überarbeiteten Sprachdaten (23) durch Anwenden eines Sprachüberarbeitungskriteriums (14) für gestotterte Sprache zumindest auf die Sprachdaten (20), wobei in den überarbeiteten Sprachdaten (23) zumindest ein Merkmal des Stotterns zumindest reduziert wurde; und Verarbeiten (S5) der überarbeiteten Sprachdaten (23) mittels des Sprachassistenten (11).The invention relates to a method for processing stuttered speech using a language assistant (11) for a motor vehicle (1) and the motor vehicle (1). The method comprises: acquiring (S1) speech data (20), which describes a language spoken by a speaker (2), using a microphone device (4); during the acquisition of the speech data (20), acquisition (S2) of body data (21), which describe at least one time-varying physical feature of the speaker (2), by means of a acquisition device (5); Checking (S3) whether the speech was spoken in a stuttered manner according to the captured speech data (20) by applying a stuttering detection criterion (13) to the captured speech data (20) and body data (21); if the speech was spoken stuttered, generating (S4) revised speech data (23) by applying a speech revision criterion (14) for stuttered speech at least to the speech data (20), wherein at least one feature of the stuttering is at least reduced in the revised speech data (23). became; and processing (S5) the revised voice data (23) using the voice assistant (11).

Description

Die Erfindung betrifft ein Verfahren zum Verarbeiten gestottert gesprochener Sprache mittels eines Sprachassistenten für ein Kraftfahrzeug. Die Erfindung betrifft zudem ein Kraftfahrzeug zum Durchführen eines derartigen Verfahrens.The invention relates to a method for processing stuttered speech using a voice assistant for a motor vehicle. The invention also relates to a motor vehicle for carrying out such a method.

Ein Kraftfahrzeug kann einen Sprachassistenten aufweisen. Mittels des Sprachassistenten kann zum Beispiel eine Person im Kraftfahrzeug mittels gesprochener Sprache eine Funktion des Kraftfahrzeugs ansteuern. Eine solche Funktion des Kraftfahrzeugs wird beispielsweise von einem Navigationssystem, Multimediasystem und/oder Klimatisierungssystem des Kraftfahrzeugs bereitgestellt. Für eine stotternd sprechende Person, das heißt einen stotternden Sprecher, ist eine Benutzung des Sprachassistenten oftmals schwierig. Denn bei einer Spracheingabe des stotternden Sprechers werden Sprachdaten erzeugt, die typischerweise zumindest eine Pause und/oder zumindest einen Laut zwischen einzelnen Worten und/oder innerhalb zumindest eines einzelnen Worts beschreiben. Die zumindest eine Pause und/oder der zumindest eine Laut kann vom Sprachassistenten falsch interpretiert werden, da dieser von einer nicht gestotterten Sprache abweicht, auf die der Sprachassistent typischerweise trainiert ist.A motor vehicle can have a voice assistant. Using the voice assistant, for example, a person in the motor vehicle can control a function of the motor vehicle using spoken language. Such a function of the motor vehicle is provided, for example, by a navigation system, multimedia system and/or air conditioning system of the motor vehicle. For a person who speaks with a stutter, i.e. a speaker who stutters, using the voice assistant is often difficult. This is because when the speaker who stutters speaks, speech data is generated which typically describes at least one pause and/or at least one sound between individual words and/or within at least one individual word. The at least one pause and/or the at least one sound can be misinterpreted by the voice assistant because it deviates from a non-stuttered speech to which the voice assistant is typically trained.

Es sind Systeme zum Verarbeiten gestottert gesprochener Sprache bekannt, die auf Sprachdaten zurückgreifen, die mittels einer Mikrofoneinrichtung erfasst wurden.Systems for processing stuttered speech are known, which use speech data that was recorded using a microphone device.

Die DE 10 2017 102 392 A1 zeigt ein System und Verfahren zur Verarbeitung stockender Sprache mit einem automatischen Spracherkennungssystem. Es wird Sprache von einem Sprecher mit einem Mikrofon aufgenommen, eine Existenz von stockender Sprache in der aufgenommenen Sprache festgestellt und als Reaktion auf das Feststellen auf eine Grammatik oder ein akustisches Modell für stockende Sprache zugegriffen.The DE 10 2017 102 392 A1 shows a system and method for processing halting speech with an automatic speech recognition system. Speech from a speaker is recorded with a microphone, an existence of halting speech is detected in the recorded speech, and a grammar or acoustic model for halting speech is accessed in response to the detection.

Die DE 10 2015 106 280 A1 beschreibt ein Verfahren zur Spracherkennung, das ein Empfangen einer gesprochenen Äußerung mit einem Sprachartefakt von einem Benutzer und ein Kompensieren des Sprachartefakts umfasst. Hierfür kann eine Erkennungsgrammatik verwendet werden, die das Sprachartefakt als Sprachkomponente umfasst.The DE 10 2015 106 280 A1 describes a method for speech recognition that includes receiving a spoken utterance with a speech artifact from a user and compensating for the speech artifact. For this purpose, a recognition grammar can be used that includes the language artifact as a language component.

Die WO 2021/136962 A1 zeigt ein Hörgerät und zugehörige Systeme und Verfahren. Das Hörgerät umfasst eine tragbare Kamera, die Bilder aus der Umgebung eines Benutzers erfasst, ein Mikrofon, das Geräusche aus der Umgebung erfasst, und einen Prozessor. Der Prozessor kann in einem ersten Modus arbeiten, um eine erste selektive Aufbereitung eines ersten Audiosignals zu bewirken, und auf der Grundlage der Analyse von mindestens einem der Bilder oder der Audiosignale bestimmen, dass er in einen zweiten Modus umschaltet, um eine zweite selektive Aufbereitung des ersten Audiosignals zu bewirken.The WO 2021/136962 A1 shows a hearing aid and associated systems and methods. The hearing aid includes a wearable camera that captures images from a user's environment, a microphone that captures sounds from the environment, and a processor. The processor may operate in a first mode to effect a first selective processing of a first audio signal and, based on the analysis of at least one of the images or the audio signals, determine to switch to a second mode to effect a second selective processing of the first audio signal.

Wenn nur die Sprachdaten berücksichtigt werden, die mittels der Mikrofoneinrichtung erfasst werden, kann nicht zuverlässig abgeschätzt werden, ob eine Spracheingabe des Sprechers, wie beispielsweise ein Satz oder Befehl, tatsächlich abgeschlossen ist oder nicht. Es ist daher möglich, dass der Sprachassistent eine auf das Stottern zurückzuführende Pause zwischen zwei Wörtern oder in einem Wort derart interpretiert, dass die Spracheingabe beendet ist, obwohl der stotternde Sprecher eigentlich seine Spracheingabe noch fortsetzen möchte. Dies führt zu einer unzuverlässigen Verarbeitung der Spracheingabe durch den Sprachassistenten.If only the speech data that is captured by the microphone device is taken into account, it cannot be reliably estimated whether a speech input from the speaker, such as a sentence or command, has actually been completed or not. It is therefore possible that the voice assistant interprets a pause between two words or in a word caused by stuttering in such a way that the voice input has ended, even though the stuttering speaker actually wants to continue his voice input. This leads to unreliable processing of voice input by the voice assistant.

Es ist die Aufgabe der Erfindung, eine Lösung bereitzustellen, mittels derer gestottert gesprochene Sprache zuverlässig verarbeitet werden kann.It is the object of the invention to provide a solution by means of which stuttered speech can be reliably processed.

Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Mögliche Ausgestaltungen der Erfindung sind in den abhängigen Ansprüchen, der folgenden Beschreibung und den Figuren angegeben.The task is solved by the subject matter of the independent patent claims. Possible embodiments of the invention are specified in the dependent claims, the following description and the figures.

Ein erster Aspekt der Erfindung betrifft ein Verfahren zum Verarbeiten gestottert gesprochener Sprache mittels eines Sprachassistenten für ein Kraftfahrzeug. Unter gestottert gesprochener Sprache wird im Sinne der Erfindung eine Störung eines Redeflusses verstanden, die durch häufige Unterbrechungen eines Sprachablaufs durch Wiederholungen von Lauten, Silben und/oder Wörtern gekennzeichnet ist. Der Sprachassistent kann dazu ausgebildet sein, zumindest eine Funktion des Kraftfahrzeugs basierend auf einer vom Sprachassistenten erfassten und ausgewerteten Spracheingabe anzusteuern. Der Sprachassistent kann alternativ als intelligenter persönlicher Assistent bezeichnet werden. Der Sprachassistent kann als Software ausgebildet sein. Die Software ermöglicht es, mittels Kommunikation in natürlicher menschlicher Sprache zumindest eine Information abzufragen, einen Dialog zu führen und/oder die Funktion zu erbringen, wie beispielsweise einen Assistenzdienst. Zur Spracherkennung wird eine Sprachanalyse der gesprochenen und erfassten Sprache vollzogen, diese semantisch interpretiert und logisch verarbeitet. Als Ergebnis kann durch Sprachsynthese eine Antwort formuliert werden, wobei die Antwort mittels einer Lautsprechereinrichtung ausgegeben und/oder auf einer Anzeigeeinrichtung visuell angezeigt werden kann. Der Sprachassistent ist beispielsweise in einer Steuervorrichtung des Kraftfahrzeugs hinterlegt, insbesondere gespeichert.A first aspect of the invention relates to a method for processing stuttered speech using a voice assistant for a motor vehicle. For the purposes of the invention, stuttered speech is understood to mean a disturbance in the flow of speech, which is characterized by frequent interruptions in a speech process due to repetitions of sounds, syllables and/or words. The voice assistant can be designed to control at least one function of the motor vehicle based on a voice input recorded and evaluated by the voice assistant. The voice assistant can alternatively be called an intelligent personal assistant. The voice assistant can be designed as software. The software makes it possible to query at least one piece of information, conduct a dialogue and/or provide the function, such as an assistance service, by means of communication in natural human language. For speech recognition, a language analysis of the spoken and recorded language is carried out, which is interpreted semantically and processed logically. As a result, a response can be formulated through speech synthesis, wherein the response can be output by means of a loudspeaker device and/or visually displayed on a display device. The voice assistant is, for example, stored, in particular stored, in a control device of the motor vehicle.

Der Erfindung liegt zumindest teilweise die Erkenntnis zugrunde, dass ein stotternder Sprecher während des Sprechens zahlreiche körperliche Merkmale zeigt, die zeitlich variieren, wie beispielsweise eine zitternde Lippenbewegung, eine Mimik, die beispielsweise für Stottern charakteristische Mikroexpressionen umfasst, und/oder eine für Stottern charakteristische Körpersprache des Sprechers. Es sollte daher nicht nur eine Auswertung von Sprachdaten, die mittels einer Mikrofoneinrichtung erfasst werden, erfolgen, sondern ergänzend eine Beobachtung des Sprechers mittels einer Erfassungseinrichtung, wie beispielsweise einer Innenraumkamera, erfolgen. Hierdurch kann also eine Zuverlässigkeit der Verarbeitung einer Spracheingabe durch den Sprachassistenten erhöht werden.The invention is at least partially based on the knowledge that a speaker who stutters shows numerous physical characteristics while speaking that vary over time, such as a trembling lip movement, facial expressions that include, for example, micro-expressions that are characteristic of stuttering, and/or body language that is characteristic of stuttering of the speaker. Therefore, not only should speech data that are recorded using a microphone device be evaluated, but the speaker should also be observed using a recording device, such as an interior camera. In this way, the reliability of the processing of a voice input by the voice assistant can be increased.

Das erfindungsgemäße Verfahren umfasst ein Erfassen von Sprachdaten mittels einer Mikrofoneinrichtung. Die Mikrofoneinrichtung umfasst zumindest ein Mikrofon. Die Mikrofoneinrichtung ist bevorzugt eine Komponente des Kraftfahrzeugs. Alternativ oder zusätzlich kann die Mikrofoneinrichtung von einem mobilen Endgerät umfasst sein, das im Kraftfahrzeug positioniert ist. Das mobile Endgerät ist beispielsweise ein Smartphone und/oder Tablet. Die Sprachdaten beschreiben eine von einem Sprecher gesprochene Sprache. Die gesprochene Sprache kann für eine bestimmte Spracheingabe des Sprechers vorgesehen sein beziehungsweise von der Spracheingabe umfasst sein. Die vom Sprecher gesprochene Sprache ist beispielsweise ein Befehl und/oder ein Satz, der für den Sprachassistenten des Kraftfahrzeugs vorgesehen ist. Mit der gesprochenen Sprache kann der Sprecher beispielsweise darauf hinwirken, eine Funktion des Kraftfahrzeugs anzusteuern, wie beispielsweise ein Navigationssystem, ein Klimatisierungssystem und/oder ein Multimediasystem.The method according to the invention includes recording voice data using a microphone device. The microphone device includes at least one microphone. The microphone device is preferably a component of the motor vehicle. Alternatively or additionally, the microphone device can be included in a mobile terminal that is positioned in the motor vehicle. The mobile device is, for example, a smartphone and/or tablet. The speech data describes a language spoken by a speaker. The spoken language can be intended for a specific speech input by the speaker or can be included in the speech input. The language spoken by the speaker is, for example, a command and/or a sentence intended for the voice assistant of the motor vehicle. With the spoken language, the speaker can, for example, work to control a function of the motor vehicle, such as a navigation system, an air conditioning system and/or a multimedia system.

Während des Erfassens der Sprachdaten erfolgt ein Erfassen von Körperdaten mittels einer Erfassungseinrichtung. Die Erfassungseinrichtung ist beispielsweise eine Innenraumkamera des Kraftfahrzeugs. Die Erfassungseinrichtung kann alternativ oder zusätzlich dazu vom mobilen Endgerät im Kraftfahrzeug umfasst sein. Die Körperdaten beschreiben zumindest ein zeitlich variierendes körperliches Merkmal des Sprechers. Das zeitlich variierende körperliche Merkmal kann beispielsweise die zitternde Lippenbewegung des Sprechers sein, die typischerweise im Zusammenhang mit Stottern auftritt. Die Körperdaten sind beispielsweise Bilddaten zumindest eines Teils des Körpers des Sprechers, falls die Erfassungseinrichtung eine Kamera, insbesondere die Innenraumkamera, ist.While the voice data is being recorded, body data is recorded using a recording device. The detection device is, for example, an interior camera of the motor vehicle. The detection device can alternatively or additionally be included in the mobile terminal in the motor vehicle. The physical data describes at least one physical characteristic of the speaker that varies over time. The time-varying physical feature may be, for example, the speaker's trembling lip movement, which typically occurs in connection with stuttering. The body data is, for example, image data of at least part of the speaker's body if the detection device is a camera, in particular the interior camera.

Alternativ oder zusätzlich zur Kamera kann als Erfassungseinrichtung ein Radargerät und/oder ein Ultrabreitbandsensor vorgesehen sein. Mittels des Ultrabreitbandsensors kann besonders zuverlässig eine Veränderung eines Herzschlags, einer Atemfrequenz, die zitternde Lippenbewegung oder eine sonstige Körperbewegung erfasst werden.Alternatively or in addition to the camera, a radar device and/or an ultra-wideband sensor can be provided as a detection device. Using the ultra-wideband sensor, a change in a heartbeat, a breathing rate, a trembling lip movement or any other body movement can be detected particularly reliably.

Es erfolgt verfahrensgemäß ein Überprüfen, ob die Sprache gemäß der erfassten Sprachdaten gestottert gesprochen wurde. Dieses Überprüfen erfolgt durch Anwenden eines Stottererkennungskriteriums auf die erfassten Sprachdaten und Körperdaten. Es findet also eine Auswertung sowohl der mittels der Mikrofoneinrichtung erfassten Audiodaten als auch der mittels der Erfassungseinrichtung erfassten, den Körper des Sprechers zumindest teilweise beschreibenden Daten statt. Das Stottererkennungskriterium ist ein Algorithmus und/oder eine Vorschrift, anhand dessen beziehungsweise deren es möglich ist, zu erkennen, ob die Sprachdaten und Körperdaten darauf hinweisen, dass der Sprecher stottert oder nicht. Es kann hierbei beispielsweise ein Wahrscheinlichkeitswert ermittelt werden, der beziffert, mit welcher Wahrscheinlichkeit die gesprochene Sprache gestottert vorgetragen wurde, das heißt mit welcher Wahrscheinlichkeit der Sprecher stottert. Es kann also beispielsweise festgestellt werden, dass es aufgrund der zitternden Lippenbewegung zusätzlich zu auf Stottern hinweisen Merkmalen in den Sprachdaten wahrscheinlich ist, dass ein stotternder Sprecher im Kraftfahrzeug anwesend ist.According to the procedure, a check is made as to whether the language was spoken in a stuttered manner according to the recorded speech data. This checking is done by applying a stutter detection criterion to the captured speech data and body data. An evaluation therefore takes place both of the audio data captured by the microphone device and of the data that at least partially describes the speaker's body and that is captured by the capture device. The stuttering detection criterion is an algorithm and/or rule by which it is possible to recognize whether the speech data and body data indicate that the speaker stutters or not. For example, a probability value can be determined that quantifies the probability with which the spoken language was stuttered, that is, the probability that the speaker stutters. It can therefore be determined, for example, that due to the trembling lip movement in addition to features in the speech data that indicate stuttering, it is likely that a speaker who stutters is present in the motor vehicle.

Falls die Sprache gestottert gesprochen wurde, das heißt falls beim Überprüfen festgestellt wurde, dass die Sprache gemäß der erfassten Sprachdaten gestottert gesprochen wurde, erfolgt ein Erzeugen von überarbeiten Sprachdaten. Dies erfolgt durch ein Anwenden eines Sprachüberarbeitungskriteriums für gestotterte Sprache zumindest auf die Sprachdaten. In den überarbeiteten Sprachdaten wurde zumindest ein Merkmal des Stotterns im Vergleich zu den ursprünglich erfassten Sprachdaten zumindest reduziert. Das Sprachüberarbeitungskriterium kann auf einer gängigen Methode zur Interpretation gestotterter Sprache basieren, wie sie beispielsweise aus dem oben zitierten Stand der Technik bekannt ist. Das Sprachüberarbeitungskriterium ist ein Algorithmus und/oder eine Vorschrift, anhand dessen beziehungsweise derer es möglich ist, die Sprachdaten derart zu bearbeiten, dass diese zumindest weniger Merkmale, insbesondere kein Merkmal, aufweisen, die beziehungsweise das die gestotterte Sprache charakterisiert.If the speech was spoken in a stuttered manner, that is, if it was determined during checking that the speech was spoken in a stuttered manner according to the recorded speech data, revised speech data is generated. This is done by applying a speech revision criterion for stuttered speech to at least the speech data. In the revised speech data, at least one feature of stuttering was at least reduced compared to the originally recorded speech data. The speech revision criterion can be based on a common method for interpreting stuttered speech, such as is known, for example, from the prior art cited above. The speech revision criterion is an algorithm and/or a rule, based on which it is possible to process the speech data in such a way that it has at least fewer features, in particular no feature, which characterizes the stuttered speech.

Es kann vorgesehen sein, dass das Sprachüberarbeitungskriterium zusätzlich zu den Sprachdaten die Körperdaten berücksichtigt. Es kann dann beispielsweise bei der Interpretation der Sprache berücksichtigt werden, ob das körperliche Merkmal darauf hindeutet, dass der Sprecher beispielsweise einen Satz oder sogar eine gesamte Spracheingabe beendet hat oder ob er sich beispielsweise noch dabei befindet, den Satz zu sprechen beziehungsweise die Spracheingabe zu tätigen. Das Beenden des Satzes oder der Spracheingabe kann beispielsweise an einem Enden der zitternden Lippenbewegung oder einer veränderten Mimik erkannt werden. Diese Information kann also zusätzlich zur Erzeugung der überarbeiteten Sprachdaten herangezogen werden.It can be provided that the speech revision criterion takes into account the body data in addition to the speech data. For example, when interpreting the language, it can then be taken into account whether the physical feature indicates that, for example, the speaker has finished a sentence or even an entire speech input or whether, for example, he or she is still in the process of saying the sentence or making the speech input. The end of the sentence or speech input can be recognized, for example, by the end of the trembling lip movement or a change in facial expressions. This information can therefore also be used to generate the revised speech data.

Das Verfahren umfasst ein Verarbeiten der überarbeiteten Sprachdaten mittels des Sprachassistenten. Bevorzugt werden also dem Sprachassistenten die bereits überarbeiteten Sprachdaten bereitgestellt, sodass dieser beispielsweise die ihm oder der interpretierten Spracheingabe zugeordnete Funktion ausführen kann.The method includes processing the revised voice data using the voice assistant. Preferably, the voice assistant is provided with the already revised voice data so that it can, for example, carry out the function assigned to it or to the interpreted voice input.

Durch Auswertung langgezogener Wörter oder Wörter mit Pausen während der Aussprache kann dies gezielt vom Sprachüberarbeitungskriterium berücksichtigt werden, sodass die gestotterte Sprache zuverlässig interpretiert werden kann. Das Sprachüberarbeitungskriterium kann zudem dazu beitragen, dass die gesprochene Sprache intelligent übersetzt wird, das heißt, es können beispielsweise für Stotterer typische Ausspracheveränderungen oder Pausen intelligent interpretiert und berücksichtigt werden. Es wird somit erreicht, dass stets zuverlässig gestotterte Sprache zumindest auf einer rein sprachlichen Ebene so interpretiert wird, wie sie vom Sprecher gemeint ist.By evaluating long-drawn words or words with pauses during pronunciation, this can be specifically taken into account by the speech revision criterion so that the stuttered speech can be reliably interpreted. The language revision criterion can also help ensure that the spoken language is translated intelligently, meaning that, for example, pronunciation changes or pauses typical of people who stutter can be intelligently interpreted and taken into account. This ensures that stuttered speech is always reliably interpreted, at least on a purely linguistic level, as the speaker intended it.

Zu der Erfindung gehören Ausführungsformen, durch die sich zusätzliche Vorteile ergeben.The invention includes embodiments that result in additional advantages.

In einer bevorzugten Ausführungsform ist es vorgesehen, dass beim Anwenden des Stottererkennungskriteriums ermittelt wird, ob der Sprecher eine Spracheingabe beendet hat oder nicht. Nur falls die Spracheingabe beendet ist, werden Sprachbeendigungsdaten bereitgestellt, die das Beenden der Spracheingabe beschreiben. Es wird also gezielt und bevorzugt unter Berücksichtigung der Körperdaten ermittelt, ob ein einzelner gesprochener Satz oder Befehl, insbesondere ob die gesamte Spracheingabe des Sprechers, als abgeschlossen zu interpretieren ist oder nicht. Hierdurch kann beispielsweise prognostiziert werden, ob weitere Sprachdaten vom Sprecher zu erwarten sind oder nicht. Gerade bei Stottern, das mit Pausen, insbesondere mit über mehrere Sekunden andauernden Pausen, und/oder Zwischenlauten einhergeht, wird hierdurch verhindert, dass beispielsweise voreilig Sprachdaten vom Sprachassistenten verarbeitet werden, bevor die Spracheingabe von Seiten des Sprechers überhaupt beendet wurde. Eine mögliche Fehlinterpretation von der Sprache des Sprechers wird somit reduziert.In a preferred embodiment, it is provided that when the stutter detection criterion is applied, it is determined whether the speaker has finished a speech input or not. Only if the voice input has ended will voice termination data describing the termination of the voice input be provided. It is therefore determined specifically and preferably taking into account the body data whether an individual spoken sentence or command, in particular whether the speaker's entire speech input, is to be interpreted as complete or not. This makes it possible, for example, to predict whether further speech data can be expected from the speaker or not. Especially in the case of stuttering, which is accompanied by pauses, especially pauses lasting several seconds, and/or intermediate sounds, this prevents, for example, voice data from being processed prematurely by the voice assistant before the voice input has even been completed by the speaker. A possible misinterpretation of the speaker's language is thus reduced.

Es ist in einer weiteren Ausführungsform vorgesehen, dass das Erzeugen der überarbeiteten Sprachdaten erst erfolgt, nachdem die Sprachbeendigungsdaten bereitgestellt wurden. Dem Sprachassistenten wird somit gezielt mitgeteilt, ob der Sprecher einen Satz oder Befehl bereits vollständig gesprochen hat oder nicht. Der Sprachassistent kann dadurch besonders vorteilhaft Laute von gezielt gesprochenen Wörtern unterscheiden und erkennen, welche Wörter wirklich gesprochen wurden und welcher Anteil der Sprachdaten nur Pausen oder inhaltsfreie Laute sind. Dies führt zu einer komfortablen Bedienung des Sprachassistenten, da für Stotterer stets von Seiten des Sprachassistenten die Geduld aufgebracht wird, die gesamte Spracheingabe zu berücksichtigen und nicht voreilig die Spracheingabe von Seiten des Sprachassistenten beendet wird, ohne Rücksicht auf Auswirkungen des Stotterns des Sprechers auf die Sprachdaten.In a further embodiment, it is provided that the revised voice data is only generated after the voice termination data has been provided. The voice assistant is thus specifically informed whether the speaker has already spoken a sentence or command completely or not. This makes it particularly advantageous for the voice assistant to distinguish sounds from specifically spoken words and to recognize which words were actually spoken and what proportion of the speech data are just pauses or sounds without content. This leads to a comfortable operation of the voice assistant, since for people who stutter, the voice assistant always has the patience to take the entire voice input into account and the voice input is not prematurely ended by the voice assistant, without taking into account the effects of the speaker's stuttering on the voice data .

Außerdem sieht es eine Ausführungsform vor, dass die erfassten Körperdaten zumindest eines der folgenden Merkmale beschreiben: Eine zitternde Lippenbewegung, eine Herzfrequenzänderung, eine Atemfrequenzänderung, eine Mikroexpression in einem Gesicht des Sprechers, die alternativ als Mimik bezeichnet werden kann, eine Körpersprache des Sprechers und/oder eine Blickbewegung eines Blicks des Sprechers. Anhand der Blickbewegung des Sprechers kann beispielsweise festgestellt werden, ob und auf was der Benutzer aktuell seine Aufmerksamkeit richtet. Dies dient zur Aufmerksamkeitserkennung beispielsweise mit Hilfe von Blickverfolgung, das heißt zur Verfolgung der Blickbewegung des Blicks des Sprechers während des Sprechens. All diese Merkmale können charakteristisch für Stottern sein beziehungsweise im Fall von Stottern häufig auftreten. Es ist beispielsweise bekannt, dass beim Stottern oftmals eine Herzfrequenz und/oder eine Atemfrequenz des Sprechers im Vergleich zur Herzfrequenz beziehungsweise Atemfrequenz vor dem gestotterten Sprechen erhöht oder andersartig verändert ist. Auf solche typischen Körpermerkmale, die mit dem Stottern einhergehen können, wird somit gezielt geachtet, indem diese von den Körperdaten beschrieben werden und folglich entsprechend beim Anwenden des Stottererkennungskriterium ausgewählt und berücksichtigt werden können. Hierdurch wird deutlich, dass es möglich ist, das Stottern besonders zuverlässig durch Berücksichtigung der beschriebenen körperlichen Merkmale zu erkennen. Diese sind jeweils zeitlich variabel, das heißt, es wird nicht einfach nur eine Lippenbewegung beim Sprechen als Körperdaten erfasst, sondern es wird die zusätzliche Zitterbewegung während des Stotterns erfasst und ausgewertet.In addition, one embodiment provides that the recorded body data describes at least one of the following features: a trembling lip movement, a heart rate change, a breathing rate change, a microexpression in a face of the speaker, which can alternatively be referred to as facial expressions, a body language of the speaker and / or an eye movement of a gaze from the speaker. Based on the speaker's eye movement, it can be determined, for example, whether and what the user is currently paying attention to. This is used to detect attention, for example with the help of eye tracking, i.e. to track the eye movement of the speaker's gaze while speaking. All of these features can be characteristic of stuttering or can occur frequently in the case of stuttering. It is known, for example, that when stuttering, a speaker's heart rate and/or breathing rate is often increased or changed in some other way compared to the heart rate or breathing rate before the stuttered speech. Specific attention is paid to such typical body features that can be associated with stuttering in that these are described by the body data and can therefore be selected and taken into account when applying the stuttering detection criterion. This makes it clear that it is possible to recognize stuttering particularly reliably by taking the physical characteristics described into account. These are each time-variable, which means that not just a lip movement when speaking is recorded as body data, but the additional trembling movement during stuttering is recorded and evaluated.

Außerdem sieht es eine Ausführungsform vor, dass das Stottererkennungskriterium und/oder das Sprachüberarbeitungskriterium auf Methoden des maschinellen Lernens basiert. Es beziehungsweise sie basieren insbesondere auf einem künstlichen neuronalen Netzwerk. Es kann also auf Methoden der künstlichen Intelligenz zurückgegriffen werden, um die beiden oder zumindest eines der beiden Kriterien bereitstellen zu können. Es wird bevorzugt zunächst ein Trainingsprozess durchgeführt, bei dem anhand von beispielsweise Sprachdaten sowie Körperdaten von stotternden Sprechern das Stottererkennungskriterium darauf trainiert wird, die körperlichen und/oder akustischen Merkmale von stotternder Sprache als solche zu erkennen. Ferner kann das Sprachüberarbeitungskriterium trainiert werden, indem beispielsweise zumindest Sprachdaten von stotternden Personen sowie die Interpretation dieser Sprachdaten bereitgestellt wird, sodass beispielsweise das Sprachüberarbeitungskriterium darauf trainiert ist, die Pausen zwischen Wörtern sowie langgezogene Wörter als solche zu erkennen und diese Artefakte des Stotterns zu bereinigen, um die überarbeiteten Sprachdaten bereitstellen zu können. Prinzipiell ist es möglich, dass das Stottererkennungskriterium und das Sprachüberarbeitungskriterium in einem gemeinsamen Kriterium umfasst sind, also zum Beispiel in einem gemeinsamen Algorithmus. Es ist jedoch bevorzugt vorgesehen, dass zwei einzelne künstliche neuronale Netzwerke trainiert werden und diese beispielsweise lediglich zusammengefasst, miteinander kombiniert und/oder nacheinander durchgeführt werden. Durch die Verwendung des maschinellen Lernens können besonders zuverlässige Kriterien vorliegen.In addition, one embodiment provides that the stutter detection criterion and/or the speech revision criterion is based on machine learning methods. It or they are based in particular on an artificial neural network. Artificial intelligence methods can therefore be used to provide both or at least one of the two criteria. A training process is preferably first carried out in which the stuttering detection criterion is trained to recognize the physical and/or acoustic characteristics of stuttering speech as such using, for example, speech data and body data from stuttering speakers. Furthermore, the speech revision criterion can be trained by, for example, providing at least speech data from people who stutter and the interpretation of this speech data, so that, for example, the speech revision criterion is trained to recognize the pauses between words as well as long words as such and to clean up these artifacts of stuttering to be able to provide the revised language data. In principle, it is possible for the stuttering detection criterion and the speech revision criterion to be included in a common criterion, for example in a common algorithm. However, it is preferably provided that two individual artificial neural networks are trained and that they are, for example, merely summarized, combined with one another and/or carried out one after the other. The use of machine learning can provide particularly reliable criteria.

Des Weiteren sieht es eine Ausführungsform vor, dass basierend auf den verarbeiteten überarbeiteten Sprachdaten eine Funktion des Kraftfahrzeugs durchgeführt wird. Diese Funktion ist beispielsweise ein Ansteuern des Navigationssystems, des Multimediasystems, des Klimatisierungssystems, eines Einstellungsmenüs und/oder einer weiteren Einrichtung des Kraftfahrzeugs. Ferner kann die Funktion eine Ansteuerung eine Klimaanlage im Kraftfahrzeug betreffen. Prinzipiell kann die Sprachsteuerung für ein Steuern oder Ansteuern einer beliebigen Funktion des Kraftfahrzeugs ausgebildet sein. Es ist alternativ oder zusätzlich möglich, dass mittels des Sprachassistenten ein Einstellen von Fahrparametern des Kraftfahrzeugs erfolgt.Furthermore, one embodiment provides that a function of the motor vehicle is carried out based on the processed, revised voice data. This function is, for example, controlling the navigation system, the multimedia system, the air conditioning system, a settings menu and/or another device of the motor vehicle. Furthermore, the function can relate to the control of an air conditioning system in the motor vehicle. In principle, the voice control can be designed to control or actuate any function of the motor vehicle. Alternatively or additionally, it is possible for driving parameters of the motor vehicle to be set using the voice assistant.

Es werden Reaktionsdaten erfasst, die eine Reaktion des Sprechers auf die durchgeführte Funktion beschreiben. Diese Reaktion kann beispielsweise darin bestehen, dass der Sprecher erneut eine Spracheingabe durchführt, um das vom Sprachassistenten Verstandene zu korrigieren. Ferner kann ein Abbrechen der Funktion, beispielsweise durch Betätigen einer Betätigungseinrichtung im Kraftfahrzeug, zumindest darauf hindeuten, dass die Funktion nicht so durchgeführt wurde, wie es eigentlich durch die Spracheingabe gewünscht war. Die Betätigungseinrichtung ist zum Beispiel eine Taste, ein Schalter, ein Drehdrückschalter und/oder ein berührungssensitiver Bildschirm im Kraftfahrzeugs beziehungsweise des Kraftfahrzeugs. Bei einem Akzeptieren der Funktion, wie sie durchgeführt wird, kann darauf geschlossen werden, dass die Verarbeitung der überarbeiteten Sprachdaten so erfolgt ist, wie es vom Sprecher gewünscht war. Letztendlich liegt mit den Reaktionsdaten eine Rückmeldung des Sprechers auf die Reaktion des Sprachassistenten auf die erfassten Sprachdaten vor.Reaction data is recorded that describes the speaker's reaction to the function performed. This reaction can, for example, consist of the speaker making another voice input in order to correct what the voice assistant has understood. Furthermore, canceling the function, for example by activating an actuating device in the motor vehicle, can at least indicate that the function was not carried out as actually desired by the voice input. The actuating device is, for example, a button, a switch, a rotary push switch and/or a touch-sensitive screen in the motor vehicle or the motor vehicle. If the function is accepted as it is carried out, it can be concluded that the processing of the revised speech data took place as desired by the speaker. Ultimately, the reaction data provides feedback from the speaker on the voice assistant's reaction to the recorded speech data.

Anhand der erfassten Reaktionsdaten wird das Stottererkennungskriterium und/oder das Sprachüberarbeitungskriterium trainiert. Es können also die von dem Sprecher im Kraftfahrzeug selbst bereitgestellten und somit personalisierten Daten dazu verwendet werden, ein Nachtraining oder eine Korrektur beziehungsweise Anpassung des jeweiligen Kriteriums durchzuführen. Hierdurch wird ein gezieltes, stetiges und gegebenenfalls sogar personalisiertes Nachtrainieren der bevorzugt auf maschinellem Lernen basierenden Kriterien ermöglicht, sodass sich das Verfahren automatisch an einen bestimmten Benutzer und dessen beispielsweise für ihn typisches Stottern anpassen kann. Diesem Vorgehen liegt zumindest teilweise die Erkenntnis zugrunde, dass eine Ausprägung und Ausgestaltung des Stotterns von Mensch zu Mensch unterschiedlich und somit individuell sein kann.The stutter detection criterion and/or the speech revision criterion is trained based on the recorded reaction data. The data provided by the speaker in the motor vehicle and thus personalized can therefore be used to carry out retraining or a correction or adjustment of the respective criterion. This enables targeted, constant and possibly even personalized retraining of the criteria, which are preferably based on machine learning, so that the method can automatically adapt to a specific user and, for example, their typical stuttering. This approach is based, at least in part, on the knowledge that the severity and form of stuttering can vary from person to person and can therefore be individual.

Es kann ferner vorgesehen sein, dass im Kraftfahrzeug ein Benutzerprofil hinterlegt ist und in diesem die beim Trainieren erlangten Informationen zum Stottern eines bestimmten Sprechers gespeichert werden. Sobald dieser Sprecher wieder in das Kraftfahrzeug einsteigt, kann beispielsweise basierend auf einer Gesichtserkennung und/oder mithilfe eines personalisierten Schlüssels darauf geschlossen werden, dass sich der Sprecher, der als stotternder Sprecher bereits bekannt ist, im Kraftfahrzeug befindet. Außerdem kann daraufhin ein auf genau diesen Sprecher zurechtgeschnittenes und somit personalisiertes Stottererkennungskriterium und/oder Sprachüberarbeitungskriterium aktiviert werden. Dies führt zu einer besonders komfortablen Bedienung des Sprachassistenten im Kraftfahrzeug für einen das Kraftfahrzeug mehr als einmal verwendenden Sprecher. Dies eignet sich zudem für einen Sprachassistenten in einem geliehenen oder gemieteten Kraftfahrzeug, falls in diesem auf das Benutzerprofil zugegriffen und das personalisierte Stottererkennungskriterium und/oder Sprachüberarbeitungskriterium geladen werden kann. Das Benutzerprofil ist beispielsweise in einer externen Recheneinrichtung gespeichert und kann über Fahrzeug-zu-Infrastruktur-Kommunikation an das Kraftfahrzeug übermittelt werden. Alternativ oder zusätzlich dazu kann das Benutzerprofil im Kraftfahrzeug gespeichert sein.It can also be provided that a user profile is stored in the motor vehicle and in this the information obtained during training about the stuttering of a specific speaker is stored. As soon as this speaker gets back into the motor vehicle, it can be concluded, for example based on facial recognition and/or using a personalized key, that the speaker, who is already known to be a stuttering speaker, is in the motor vehicle. In addition, a stuttering detection criterion and/or speech revision criterion tailored to precisely this speaker and thus personalized can then be activated. This leads to a particularly comfortable operation of the voice assistant in the motor vehicle for a speaker who uses the motor vehicle more than once. This is also suitable for a voice assistant in a borrowed or rented motor vehicle if the user profile can be accessed and the personalized stutter detection criterion and/or language revision criterion can be loaded. The user profile is stored, for example, in an external computing device and can be communicated via vehicle-to-infrastructure communication the motor vehicle is transmitted. Alternatively or additionally, the user profile can be stored in the motor vehicle.

Eine weitere Ausführungsform sieht vor, dass das Stottererkennungskriterium und/oder das Sprachüberarbeitungskriterium vom Sprachassistenten umfasst ist. Es kann also vorgesehen sein, dass eines der oder beide Kriterien in den Sprachassistenten integriert sind. Es kann beispielweise ein bereits existierender Sprachassistent um eines der oder beide Kriterien ergänzt sein.A further embodiment provides that the stutter detection criterion and/or the language revision criterion is included by the language assistant. It can therefore be provided that one or both criteria are integrated into the voice assistant. For example, an existing voice assistant can be supplemented with one or both criteria.

Alternativ dazu ist es in einer Ausführungsform möglich, dass zumindest das Sprachüberarbeitungskriterium von einem Zwischenmodul umfasst wird, das die überarbeiteten Sprachdaten dem Sprachassistenten bereitstellt. Bevorzugt werden das Stottererkennungskriterium und das Sprachüberarbeitungskriterium vom Zwischenmodul umfasst. Das Zwischenmodul kann ein einzelner Software-Baustein sein, der beispielsweise vor eine Software des Sprachassistenten geschaltet sein kann. Das Zwischenmodul wird also nach dem Erfassen der Sprachdaten und der Körperdaten verwendet und stellt die überarbeiteten Sprachdaten dem bereits existierenden Sprachassistenten bereit. In dieser Ausführungsform kann ein bereits existierender Sprachassistent unverändert verwendet werden.Alternatively, in one embodiment it is possible for at least the language revision criterion to be comprised by an intermediate module that provides the revised language data to the voice assistant. The stutter detection criterion and the speech revision criterion are preferably included in the intermediate module. The intermediate module can be a single software component, which can, for example, be connected in front of the voice assistant software. The intermediate module is therefore used after recording the voice data and the body data and provides the revised voice data to the existing voice assistant. In this embodiment, an existing voice assistant can be used unchanged.

Da somit ein bereits im Kraftfahrzeug vorhandener Sprachassistent mit geringem Aufwand zum Verarbeiten der gestotterten Sprache erweitert werden kann oder um das Zwischenmodul ergänzt werden kann, ist eine kostengünstige Realisierung des Verfahrens möglich.Since a language assistant already present in the motor vehicle can be expanded to process the stuttered speech with little effort or can be supplemented with the intermediate module, a cost-effective implementation of the method is possible.

Das beschriebene Verfahren kann in nicht fahrzeugbezogenen Situationen angewendet werden. Es ist also alternativ oder zusätzlich für einen Sprachassistenten eines elektronischen Geräts, wie eines Smartphones, Tablets, Fernsehgeräts, Haushaltsgeräts und/oder eines Computers, vorgesehen und geeignet.The described procedure can be used in non-vehicle situations. It is therefore alternatively or additionally intended and suitable for a voice assistant of an electronic device, such as a smartphone, tablet, television, household appliance and/or a computer.

Für Anwendungsfälle oder Anwendungssituationen, die sich bei dem Verfahren ergeben können und die hier nicht explizit beschrieben sind, kann vorgesehen sein, dass gemäß dem Verfahren eine Fehlermeldung und/oder eine Aufforderung zur Eingabe einer Nutzerrückmeldung ausgegeben und/oder eine Standardeinstellung und/oder ein vorbestimmter Initialzustand eingestellt wird.For use cases or application situations that may arise with the method and that are not explicitly described here, it can be provided that an error message and/or a request to enter user feedback and/or a standard setting and/or a predetermined one can be issued according to the method Initial state is set.

Ein weiterer Aspekt der Erfindung betrifft ein Kraftfahrzeug, das dazu ausgebildet ist, das oben beschriebene Verfahren durchzuführen. Zu der Erfindung gehören auch Weiterbildungen des erfindungsgemäßen Kraftfahrzeugs, die Merkmale aufweisen, wie sie bereits im Zusammenhang mit den Weiterbildungen des erfindungsgemäßen Verfahrens beschrieben worden sind. Mittels des Kraftfahrzeugs wird das erfindungsgemäße Verfahren durchgeführt.Another aspect of the invention relates to a motor vehicle that is designed to carry out the method described above. The invention also includes further developments of the motor vehicle according to the invention, which have features as have already been described in connection with the further developments of the method according to the invention. The method according to the invention is carried out using the motor vehicle.

Das erfindungsgemäße Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen oder Lastkraftwagen, oder als Personenbus oder Motorrad ausgestaltet.The motor vehicle according to the invention is preferably designed as a motor vehicle, in particular as a passenger car or truck, or as a passenger bus or motorcycle.

Eine vorteilhafte Ausführungsform des erfindungsgemäßen Kraftfahrzeugs sieht vor, dass die Mikrofoneinrichtung und die Erfassungseinrichtung Komponenten des Kraftfahrzeugs sind, das heißt, dass das Kraftfahrzeug die Mikrofoneinrichtung und die Erfassungseinrichtung aufweist. Die Mikrofoneinrichtung umfasst zumindest ein Mikrofon. Die Erfassungseinrichtung ist insbesondere als eine Kamera, zum Beispiel als eine Innenraumkamera, und/oder als ein Radargerät ausgebildet. Das Radargerät ist insbesondere ein Ultrabreitbandsensor, der beispielsweise in einer Fahrzeugdecke des Kraftfahrzeugs angeordnet ist und dazu ausgebildet ist, den Innenraum des Kraftfahrzeugs zu erfassen. Hierdurch wird eine oftmals standardmäßig im Kraftfahrzeug verbaute Sensoreinrichtung dazu verwendet, das Verfahren zum Erfassen der Sprachdaten sowie der Körperdaten zu ermöglichen, wodurch dieses mit geringem Aufwand im Kraftfahrzeug implementiert werden kann.An advantageous embodiment of the motor vehicle according to the invention provides that the microphone device and the detection device are components of the motor vehicle, that is, that the motor vehicle has the microphone device and the detection device. The microphone device includes at least one microphone. The detection device is designed in particular as a camera, for example as an interior camera, and/or as a radar device. The radar device is in particular an ultra-wideband sensor, which is arranged, for example, in a vehicle ceiling of the motor vehicle and is designed to detect the interior of the motor vehicle. As a result, a sensor device that is often installed as standard in the motor vehicle is used to enable the method for recording the voice data and the body data, whereby this can be implemented in the motor vehicle with little effort.

Zu der Erfindung gehört die Steuervorrichtung für das Kraftfahrzeug. Die Steuervorrichtung kann eine Datenverarbeitungsvorrichtung oder eine Prozessoreinrichtung aufweisen, die dazu eingerichtet ist, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Prozessoreinrichtung kann hierzu zumindest einen Mikroprozessor und/oder zumindest einen Mikrocontroller und/oder zumindest einen FPGA (Field Programmable Gate Array) und/oder zumindest einen DSP (Digital Signal Processor) aufweisen. Des Weiteren kann die Prozessoreinrichtung Programmcode aufweisen, der dazu eingerichtet ist, bei Ausführen durch die Prozessoreinrichtung die Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Der Programmcode kann in einem Datenspeicher der Prozessoreinrichtung gespeichert sein. Die Prozessorschaltung der Prozessoreinrichtung kann z.B. zumindest eine Schaltungsplatine und/oder zumindest ein SoC (System on Chip) aufweisen.The invention includes the control device for the motor vehicle. The control device can have a data processing device or a processor device that is set up to carry out an embodiment of the method according to the invention. For this purpose, the processor device can have at least one microprocessor and/or at least one microcontroller and/or at least one FPGA (Field Programmable Gate Array) and/or at least one DSP (Digital Signal Processor). Furthermore, the processor device can have program code that is designed to carry out the embodiment of the method according to the invention when executed by the processor device. The program code can be stored in a data memory of the processor device. The processor circuit of the processor device can, for example, have at least one circuit board and/or at least one SoC (System on Chip).

Als eine weitere Lösung umfasst die Erfindung ein computerlesbares Speichermedium, umfassend Programmcode, der bei der Ausführung durch eine Prozessorschaltung eines Computers oder eines Computerverbunds diese veranlasst, eine Ausführungsform des erfindungsgemäßen Verfahrens auszuführen. Das Speichermedium kann z.B. zumindest teilweise als ein nichtflüchtiger Datenspeicher (z.B. als eine Flash-Speicher und/oder als SSD - solid state drive) und/oder zumindest teilweise als ein flüchtiger Datenspeicher (z.B. als ein RAM - random access memory) bereitgestellt sein. Das Speichermedium kann in der Prozessorschaltung in deren Datenspeicher angeordnet sein. Das Speichermedium kann aber auch beispielsweise als sogenannter Appstore-Server im Internet betrieben sein. Durch den Computer oder Computerverbund kann eine Prozessorschaltung mit zumindest einem Mikroprozessor bereitgestellt sein. Der Programmcode kann als Binärcode oder Assembler und/oder als Quellcode einer Programmiersprache (z.B. C) und/oder als Programmskript (z.B. Python) bereitgestellt sein.As a further solution, the invention includes a computer-readable storage medium comprising program code which, when executed by a processor circuit of a computer or a computer network, causes it to carry out an embodiment of the method according to the invention. The storage medium can, for example, be at least partially non-volatile Data storage (for example as a flash memory and/or as an SSD - solid state drive) and/or at least partially as a volatile data storage (for example as a RAM - random access memory) may be provided. The storage medium can be arranged in the processor circuit in its data memory. The storage medium can also be operated on the Internet as a so-called app store server, for example. The computer or computer network can provide a processor circuit with at least one microprocessor. The program code can be provided as binary code or assembler and/or as source code of a programming language (e.g. C) and/or as a program script (e.g. Python).

Die Erfindung umfasst auch die Kombinationen der Merkmale der beschriebenen Ausführungsformen. Die Erfindung umfasst also auch Realisierungen, die jeweils eine Kombination der Merkmale mehrerer der beschriebenen Ausführungsformen aufweisen, sofern die Ausführungsformen nicht als sich gegenseitig ausschließend beschrieben wurden.The invention also includes the combinations of the features of the described embodiments. The invention therefore also includes implementations that each have a combination of the features of several of the described embodiments, provided that the embodiments have not been described as mutually exclusive.

Im Folgenden sind Ausführungsbeispiele der Erfindung beschrieben. Hierzu zeigt:

  • 1 eine schematische Darstellung eines Kraftfahrzeugs mit einem Sprachassistenten; und
  • 2 in schematischer Darstellung einen Signalflussgraphen eines Verfahrens zum Verarbeiten gestottert gesprochener Sprache mittels eins Sprachassistenten für ein Kraftfahrzeug.
Examples of embodiments of the invention are described below. This shows:
  • 1 a schematic representation of a motor vehicle with a voice assistant; and
  • 2 a schematic representation of a signal flow graph of a method for processing stuttered spoken speech using a language assistant for a motor vehicle.

Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsformen der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden. Daher soll die Offenbarung auch andere als die dargestellten Kombinationen der Merkmale der Ausführungsformen umfassen. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.The exemplary embodiments explained below are preferred embodiments of the invention. In the exemplary embodiments, the described components of the embodiments each represent individual features of the invention that are to be considered independently of one another and which also further develop the invention independently of one another. Therefore, the disclosure is intended to include combinations of the features of the embodiments other than those shown. Furthermore, the described embodiments can also be supplemented by further features of the invention that have already been described.

In den Figuren bezeichnen gleiche Bezugszeichen jeweils funktionsgleiche Elemente.In the figures, the same reference numerals designate functionally identical elements.

In 1 ist ein Kraftfahrzeug 1 skizziert, in dem ein Benutzer sitzt. Der Benutzer ist hier ein Sprecher 2. Der Sprecher 2 spricht aktuell. Eine dabei gesprochene Sprache des Sprechers 2 ist in Form von Schallwellen 3 skizziert. Das Kraftfahrzeug 1 weist eine Mikrofoneinrichtung 4 auf, mittels derer die gesprochene Sprache des Sprechers 2 erfasst wird. Ferner weist das Kraftfahrzeug 1 eine Erfassungseinrichtung 5 auf, die als zumindest eine Kamera 6 und/oder als zumindest ein Ultrabreitbandsensor 7 ausgebildet sein kann. Die Kamera 6 ist hier eine Innenraumkamera. Mittels der Erfassungseinrichtung 5 wird zumindest ein Innenraum des Kraftfahrzeugs 1 erfasst. Mittels der Erfassungseinrichtung 5 wird hier zumindest ein zeitlich variierendes körperliches Merkmal des Sprechers 2 erfasst. Das zeitlich variierende körperliche Merkmal ist beispielsweise eine zitternde Lippenbewegung, eine Herzfrequenzänderung, eine Atemfrequenzänderung, eine Mikroexpression in einem Gesicht des Sprechers 2, eine Körpersprache des Sprechers 2 und/oder eine Blickbewegung eines Blicks des Sprechers 2. Der Blickbewegung des Sprechers 2 wird hierbei bevorzugt gefolgt, das heißt, es wird eine Aufmerksamkeitserkennung, insbesondere auf Basis von Daten der Kamera 6, durchgeführt.In 1 a motor vehicle 1 is sketched in which a user sits. The user here is speaker 2. Speaker 2 is currently speaking. A language spoken by the speaker 2 is sketched in the form of sound waves 3. The motor vehicle 1 has a microphone device 4, by means of which the spoken language of the speaker 2 is recorded. Furthermore, the motor vehicle 1 has a detection device 5, which can be designed as at least one camera 6 and/or as at least one ultra-wideband sensor 7. Camera 6 is an interior camera here. At least an interior of the motor vehicle 1 is detected by means of the detection device 5. By means of the detection device 5, at least one time-varying physical feature of the speaker 2 is detected. The time-varying physical feature is, for example, a trembling lip movement, a heart rate change, a breathing rate change, a microexpression in a face of the speaker 2, a body language of the speaker 2 and/or an eye movement of a gaze of the speaker 2. The eye movement of the speaker 2 is preferred here followed, that is, attention detection is carried out, in particular based on data from the camera 6.

Das Kraftfahrzeug 1 kann eine Lautsprechereinrichtung 8 mit zumindest einem Lautsprecher und/oder eine Anzeigeeinrichtung 9, wie beispielsweise einen Bildschirm, insbesondere einen berührungssensitiven Bildschirm, aufweisen. Mittels dieser kann beispielsweise nach einer Spracheingabe des Sprechers 2 eine akustische und/oder visuelle Meldung an den Sprecher 2 ausgegeben werden.The motor vehicle 1 can have a loudspeaker device 8 with at least one loudspeaker and/or a display device 9, such as a screen, in particular a touch-sensitive screen. By means of this, an acoustic and/or visual message can be output to the speaker 2, for example after a voice input from the speaker 2.

Das Kraftfahrzeug 1 weist eine Steuervorrichtung 10 auf, die als Recheneinrichtung ausgebildet ist. Die Steuervorrichtung 10 umfasst einen Sprachassistent 11. Ferner kann ein Zwischenmodul 12 in der Steuervorrichtung 10 vorgesehen sein, das ein Stottererkennungskriterium 13 und/oder ein Sprachüberarbeitungskriterium 14 umfasst. Alternativ oder zusätzlich dazu kann das Stottererkennungskriterium 13 und/oder das Sprachüberarbeitungskriterium 14 vom Sprachassistenten 11 selbst umfasst sein. Der Sprachassistent 11 und das Zwischenmodul 12 sind als Software oder Software-Baustein zu verstehen.The motor vehicle 1 has a control device 10, which is designed as a computing device. The control device 10 includes a voice assistant 11. Furthermore, an intermediate module 12 can be provided in the control device 10, which includes a stutter detection criterion 13 and/or a speech revision criterion 14. Alternatively or additionally, the stutter detection criterion 13 and/or the language revision criterion 14 can be included by the language assistant 11 itself. The voice assistant 11 and the intermediate module 12 are to be understood as software or software modules.

In 2 ist ein Verfahren zum Verarbeiten gestottert gesprochener Sprache mittels des Sprachassistenten 11 für das Kraftfahrzeug 1 skizziert. In einem Verfahrensschritt S1 erfolgt das Erfassen von Sprachdaten 20, die die vom Sprecher 2 gesprochene Sprache beschreiben. Das Erfassen der Sprachdaten 20 erfolgt hier mittels der Mikrofoneinrichtung 4 des Kraftfahrzeugs 1. Während des Erfassens der Sprachdaten 20 erfolgt zudem ein Erfassen von Körperdaten 21 in einem Verfahrensschritt S2. Körperdaten 21 beschreiben zumindest eines der zuvor genannten zeitlich variierenden körperlichen Merkmale des Sprechers 2. Die Körperdaten 21 werden mittels der Erfassungseinrichtung 5 erfasst. Die Mikrofoneinrichtung 4 und/oder die Erfassungseinrichtung 5 und/oder der Sprachassistent 11 können von einem mobilen Endgerät umfasst sein, das zum Beispiel im Kraftfahrzeug 1 positioniert ist, insbesondere falls das Kraftfahrzeug 1 nicht selbst über die Mikrofoneinrichtung 4, die Erfassungseinrichtung 5 und/oder die Steuervorrichtung 10 mit dem Sprachassistenten 11 verfügt.In 2 a method for processing stuttered speech using the language assistant 11 for the motor vehicle 1 is outlined. In a method step S1, voice data 20 is recorded, which describes the language spoken by the speaker 2. The voice data 20 is captured here by means of the microphone device 4 of the motor vehicle 1. While the voice data 20 is being captured, body data 21 is also captured in a method step S2. Body data 21 describes at least one of the previously mentioned time-varying physical characteristics of the speaker 2. The body data 21 are recorded by means of the detection device 5. The microphone device 4 and/or the detection device 5 and/or the voice assistant 11 can be comprised by a mobile terminal, which is positioned, for example, in the motor vehicle 1, in particular if the motor vehicle 1 does not itself have the microphone device 4, the detection device 5 and / or the control device 10 with the voice assistant 11.

In einem Verfahrensschritt S3 wird überprüft, ob die Sprache gemäß der erfassten Sprachdaten 20 gestottert gesprochen wurde. Hierfür wird das Stottererkennungskriterium 13 auf die erfassten Sprachdaten 20 und die erfassten Körperdaten 21 angewendet. Es kann beim Anwenden des Stottererkennungskriteriums 13 ermittelt werden, ob der Sprecher 2 seine Spracheingabe beendet hat oder nicht. Nur falls dies der Fall ist, das heißt, nur falls die Spracheingabe beendet ist, werden zum Beispiel Sprachbeendigungsdaten 22 bereitgestellt, die das Beenden der Spracheingabe beschreiben. Es ist möglich, dass weitere Verfahrensschritte nur dann erfolgen, wenn die Sprachbeendigungsdaten 22 bereitgestellt wurden.In a method step S3, it is checked whether the speech was spoken in a stuttered manner according to the recorded speech data 20. For this purpose, the stuttering detection criterion 13 is applied to the recorded speech data 20 and the recorded body data 21. When applying the stuttering detection criterion 13, it can be determined whether the speaker 2 has finished his speech input or not. Only if this is the case, that is, only if the voice input has ended, will voice termination data 22, for example, be provided which describe the termination of the voice input. It is possible that further procedural steps only take place if the voice termination data 22 has been provided.

In einem Verfahrensschritt S4 erfolgt ein Erzeugen von überarbeiteten Sprachdaten 23. Dies erfolgt, falls die Sprache gestottert gesprochen wurde, das heißt, falls dies in einem dritten Schritt S3 festgestellt wurde und insbesondere falls zudem die Sprachbeendigungsdaten 22 bereitgestellt wurden. Das Bereitstellen der Sprachbeendigungsdaten 22 ist also optional, das heißt, der Verfahrensschritt S4 kann erfolgen, während die Spracheingabe des Sprechers 2 noch nicht beendet worden ist. Der Verfahrensschritt S4 kann folglich kontinuierlich durchgeführt werden, während der Sprecher 2 noch spricht.In a method step S4, revised speech data 23 is generated. This occurs if the speech was spoken in a stuttered manner, that is, if this was determined in a third step S3 and in particular if the speech termination data 22 were also provided. The provision of the voice termination data 22 is therefore optional, that is, the method step S4 can take place while the voice input of the speaker 2 has not yet been completed. The method step S4 can therefore be carried out continuously while the speaker 2 is still speaking.

Zum Erzeugen der überarbeiteten Sprachdaten 23 wird das Sprachüberarbeitungskriterium 14 für gestotterte Sprache zumindest auf die Sprachdaten 20 angewendet. Es können hierbei zudem die Körperdaten 21 berücksichtigt werden. In den überarbeiteten Sprachdaten 23 wird zumindest ein Merkmal des Stotterns zumindest reduziert. Beispielsweise können die zwischen Wörtern durch das Stottern entstehenden Pausen herausgeschnitten werden und/oder langgezogene Wörter als komprimiert ausgesprochene Wörter umformuliert oder interpretiert werden.To generate the revised speech data 23, the speech revision criterion 14 for stuttered speech is applied at least to the speech data 20. The body data 21 can also be taken into account here. In the revised speech data 23, at least one feature of stuttering is at least reduced. For example, the pauses caused by stuttering between words can be cut out and/or long words can be reformulated or interpreted as compressed words.

In einem Verfahrensschritt S5 werden die überarbeiteten Sprachdaten 23 mittels des Sprachassistenten 11 verarbeitet. Es kann in einem Verfahrensschritt S6, beispielsweise basierend auf den verarbeiteten überarbeiteten Sprachdaten 23, eine Funktion 24 des Kraftfahrzeugs 1 durchgeführt werden, wie beispielsweise eine Ansteuerung eines Navigationssystems, eines Multimediasystems oder einer anderen Komponente des Kraftfahrzeugs 1. Daraufhin werden in einem Verfahrensschritt S7 Reaktionsdaten 25 erfasst, die eine Reaktion des Sprechers 2 auf die durchgeführte Funktion 24 beschreiben. Diese Reaktion ist beispielsweise ein Akzeptieren des Durchführens der Funktion, eine Korrektureingabe, beispielsweise mittels einer Betätigungseinrichtung im Kraftfahrzeug 1, oder eine andersartige Reaktion, wie ein akustisch erfassbares Murren oder Schimpfen des Sprechers 2, das mittels der Mikrofoneinrichtung 4 erfasst wird. Anhand der erfassten Reaktionsdaten 25 wird das Stottererkennungskriterium 13 und/oder das Sprachüberarbeitungskriterium 14 in einem verfahrensschritt S8 erneut trainiert. Das Stottererkennungskriterium 13 und/oder das Sprachüberarbeitungskriterium 14 kann somit auf den spezifischen Sprecher 2 zugeschnitten oder generell überarbeitet und optimiert werden. Hierdurch wird erreicht, dass ein individuelles Stottern des Sprechers 2 berücksichtigt werden kann.In a method step S5, the revised voice data 23 is processed using the voice assistant 11. In a method step S6, for example based on the processed revised voice data 23, a function 24 of the motor vehicle 1 can be carried out, such as controlling a navigation system, a multimedia system or another component of the motor vehicle 1. Reaction data 25 are then generated in a method step S7 recorded, which describe a reaction of the speaker 2 to the function 24 carried out. This reaction is, for example, an acceptance of the execution of the function, a correction input, for example by means of an actuating device in the motor vehicle 1, or a different type of reaction, such as an acoustically detectable grumbling or swearing from the speaker 2, which is detected by means of the microphone device 4. Based on the recorded reaction data 25, the stuttering detection criterion 13 and/or the speech revision criterion 14 is trained again in a method step S8. The stuttering detection criterion 13 and/or the speech revision criterion 14 can thus be tailored to the specific speaker 2 or generally revised and optimized. This ensures that an individual stuttering of the speaker 2 can be taken into account.

Zumindest die Verfahrensschritte S3 bis S5 sowie S6 und S8 werden mittels der Steuervorrichtung 10 des Kraftfahrzeugs 1 durchgeführt.At least the method steps S3 to S5 as well as S6 and S8 are carried out using the control device 10 of the motor vehicle 1.

Prinzipiell ist es möglich, dass das beschriebene Verfahren nicht auf ein Kraftfahrzeug 1 bezogen ist, sondern beispielsweise in einem mobilen Endgerät und/oder einem elektronischen Gerät, wie beispielsweise einem Fernsehgerät oder Haushaltsgerät, durchgeführt wird. Voraussetzung ist lediglich, dass dieses die Mikrofoneinrichtung 4 sowie die Erfassungseinrichtung 5 umfasst oder von diesen erfasste Daten empfangen kann.In principle, it is possible that the method described is not related to a motor vehicle 1, but is carried out, for example, in a mobile terminal and/or an electronic device, such as a television or household appliance. The only requirement is that this includes the microphone device 4 and the detection device 5 or can receive data recorded by them.

Insgesamt zeigen die Beispiele die Inklusion von Menschen mit einer Sprechbehinderung wie Stottern in die Nutzung eines Sprachdialogsystems, das heißt in die Nutzung eines Sprachassistenten 11. Die im Kraftfahrzeug 1 verbauten Sensoren, wie die Kamera 6, die Mikrofoneinrichtung 4 und/oder der Radarsensor, das heißt hier der Ultrabreitbandsensor 7, dienen einem oder mehreren KI-Algorithmen als Input, indem sie die Sprachdaten 20 beziehungsweise die Körperdaten 21 bereitstellen. Über die Erfassungseinrichtung 5 kann der entsprechende Algorithmus unter anderem Lippenbewegungen, Mikroexpression, Herzschlag, Atemfrequenz, Aufmerksamkeitserkennung durch Blickverfolgung und Körperbewegung des Sprechers 2 erkennen. Das heißt, es können die Körperdaten 21 erfasst werden. Der Algorithmus oder die Algorithmen werden gezielt auf die Erkennung der Merkmale eines stotternden Menschen trainiert, wie zum Beispiel zitternde Lippenbewegung, erhöhte Herzfrequenz, Stotterlaute und so weiter. Die verbaute Mikrofoneinrichtung 4 kann von dem oder einem weiteren künstlichen Intelligenz-Algorithmus als weitere Inputgröße zur Bestimmung des Gesprächsinhalts benutzt werden, das heißt, es können zudem die Sprachdaten 20 berücksichtigt werden. Dabei kann der Algorithmus gezielt zwischen einem Fülllaut und einem gesprochen Wort unterscheiden. Der Ultrabreitbandsensor 7 kann gezielt zur Bestimmung von Vitalparametern wie Herzschlag, Körper- und/oder Lippenbewegungen benutzt werden. Über die Kamera 6 kann ebenfalls die Körperbewegung, Lippenbewegung und/oder Blickrichtung des Sprechers 2 erfasst werden. Durch den oben beschriebenen Sachverhalt ist es dem oder den Algorithmen möglich, nicht nur gezielt das Ende eines gesprochenen Satzes zu prognostizieren, sondern auch die teilweise anders formulierten Wörter zu identifizieren. Dies gelingt dem KI-Algorithmus durch ein personalisiertes Training im Verfahrensschritt S8 auf den jeweiligen Benutzer.Overall, the examples show the inclusion of people with a speech impairment such as stuttering in the use of a speech dialogue system, that is, in the use of a voice assistant 11. The sensors installed in the motor vehicle 1, such as the camera 6, the microphone device 4 and / or the radar sensor, that Here, the ultra-wideband sensor 7 is used as input for one or more AI algorithms by providing the voice data 20 or the body data 21. Via the detection device 5, the corresponding algorithm can, among other things, detect lip movements, microexpressions, heartbeat, breathing rate, attention detection through eye tracking and body movement of the speaker 2. This means that the body data 21 can be recorded. The algorithm or algorithms are specifically trained to recognize the characteristics of a person who stutters, such as quivering lip movement, increased heart rate, stuttering sounds, and so on. The built-in microphone device 4 can be used by the or another artificial intelligence algorithm as a further input variable to determine the content of the conversation, that is, the voice data 20 can also be taken into account. The algorithm can differentiate specifically between a filler sound and a spoken word. The ultra-wideband sensor 7 can be used specifically to determine vital parameters such as heartbeat, body and/or lip movements. The camera 6 can also be used to record the body movement, lip movement and/or line of sight of the speaker 2. The situation described above makes it possible for the algorithm(s) not only to specifically predict the end of a spoken sentence, but also to identify words that are sometimes worded differently. The AI algorithm achieves this through personalized training in process step S8 for the respective user.

Die gewonnenen Informationen werden anschließend an den Sprachassistenten 11 weitergegeben, woraufhin dieser dem Sprecher 2 Feedback gibt, das heißt, die Funktion 24 durchführt. Das Verfahren kann als Abstraktionslayer zwischen dem Sprecher 2 und dem Sprachassistenten 11 dienen oder auch als Plug-in innerhalb des Sprachassistenten 11 integriert werden. Das Plug-in meint die Integration in den Sprachassistenten 11 selbst. Das Abstraktionlayer ist beispielsweise durch das Zwischenmodul 12 realisiert. Die genannten Algorithmen meinen das Stottererkennungskriterium 13 und/oder das Sprachüberarbeitungskriterium 14.The information obtained is then passed on to the voice assistant 11, whereupon it gives feedback to the speaker 2, that is, carries out the function 24. The method can serve as an abstraction layer between the speaker 2 and the voice assistant 11 or can also be integrated as a plug-in within the voice assistant 11. The plug-in means the integration into the voice assistant 11 itself. The abstraction layer is implemented, for example, by the intermediate module 12. The algorithms mentioned mean the stutter detection criterion 13 and/or the speech revision criterion 14.

Claims (10)

Verfahren zum Verarbeiten gestottert gesprochener Sprache mittels eines Sprachassistenten (11) für ein Kraftfahrzeug (1), umfassend: - Erfassen (S1) von Sprachdaten (20), die eine von einem Sprecher (2) gesprochene Sprache beschreiben, mittels einer Mikrofoneinrichtung (4); - während des Erfassens der Sprachdaten (20), Erfassen (S2) von Körperdaten (21), die zumindest ein zeitlich variierendes körperliches Merkmal des Sprechers (2) beschreiben, mittels einer Erfassungseinrichtung (5); - Überprüfen (S3), ob die Sprache gemäß der erfassten Sprachdaten (20) gestottert gesprochen wurde, durch Anwenden eines Stottererkennungskriteriums (13) auf die erfassten Sprachdaten (20) und auf die Körperdaten (21); - falls erkannt wird, dass die Sprache gestottert gesprochen wurde, Erzeugen (S4) von überarbeiteten Sprachdaten (23) durch Anwenden eines Sprachüberarbeitungskriteriums (14) für gestotterte Sprache zumindest auf die Sprachdaten (20), wobei in den überarbeiteten Sprachdaten (23) zumindest ein Merkmal des Stotterns zumindest reduziert wurde; und - Verarbeiten (S5) der überarbeiteten Sprachdaten (23) mittels des Sprachassistenten (11).Method for processing stuttered speech using a language assistant (11) for a motor vehicle (1), comprising: - Acquiring (S1) speech data (20), which describes a language spoken by a speaker (2), using a microphone device (4); - during the capture of the speech data (20), capture (S2) of body data (21), which describe at least one time-varying physical feature of the speaker (2), by means of a capture device (5); - Checking (S3) whether the speech was spoken in a stuttered manner according to the recorded speech data (20), by applying a stuttering detection criterion (13) to the recorded speech data (20) and to the body data (21); - If it is recognized that the speech was spoken in a stuttered manner, generating (S4) revised speech data (23) by applying a speech revision criterion (14) for stuttered speech at least to the speech data (20), with at least one in the revised speech data (23). characteristic of stuttering was at least reduced; and - Processing (S5) of the revised voice data (23) using the voice assistant (11). Verfahren nach Anspruch 1, wobei beim Anwenden des Stottererkennungskriteriums (13) ermittelt wird, ob der Sprecher (2) eine Spracheingabe beendet hat oder nicht, wobei nur falls die Spracheingabe beendet ist, Sprachbeendigungsdaten (22) bereitgestellt werden, die das Beenden der Spracheingabe beschreiben.Procedure according to Claim 1 , wherein when the stuttering detection criterion (13) is applied, it is determined whether the speaker (2) has finished a speech input or not, and only if the speech input has ended, speech completion data (22) are provided which describe the termination of the speech input. Verfahren nach Anspruch 2, wobei das Erzeugen der überarbeiteten Sprachdaten (23) erst erfolgt, nachdem die Sprachbeendigungsdaten (22) bereitgestellt wurden.Procedure according to Claim 2 , wherein the revised voice data (23) is only generated after the voice termination data (22) has been provided. Verfahren nach einem der vorhergehenden Ansprüche, wobei die erfassten Körperdaten (21) zumindest eines der folgenden Merkmale beschreiben: - eine zitternde Lippenbewegung; - eine Herzfrequenzänderung; - eine Atemfrequenzänderung; - eine Mikroexpression in einem Gesicht des Sprechers (2); - eine Körpersprache des Sprechers (2); und/oder - eine Blickbewegung eines Blicks des Sprechers (2).Method according to one of the preceding claims, wherein the recorded body data (21) describes at least one of the following features: - a trembling lip movement; - a change in heart rate; - a change in respiratory rate; - a microexpression in one of the speaker's faces (2); - a body language of the speaker (2); and or - an eye movement of the speaker's gaze (2). Verfahren nach einem der vorhergehenden Ansprüche, wobei das Stottererkennungskriterium (13) und/oder Sprachüberarbeitungskriterium (14) auf Methoden des maschinellen Lernens basiert, insbesondere auf einem künstlichen neuronalen Netzwerk.Method according to one of the preceding claims, wherein the stutter detection criterion (13) and/or speech revision criterion (14) is based on machine learning methods, in particular on an artificial neural network. Verfahren nach einem der vorhergehenden Ansprüche, wobei basierend auf den verarbeiteten überarbeiteten Sprachdaten (23) eine Funktion (24) des Kraftfahrzeugs (1) durchgeführt (S6), Reaktionsdaten (25), die eine Reaktion des Sprechers (2) auf die durchgeführte Funktion (24) beschreiben, erfasst (S7) und anhand der erfassten Reaktionsdaten (25) das Stottererkennungskriterium (13) und/oder Sprachüberarbeitungskriterium (14) trainiert wird (S8).Method according to one of the preceding claims, wherein based on the processed, revised speech data (23), a function (24) of the motor vehicle (1) is carried out (S6), reaction data (25) which shows a reaction of the speaker (2) to the function carried out ( 24), are recorded (S7) and the stuttering detection criterion (13) and/or speech revision criterion (14) is trained (S8) based on the recorded reaction data (25). Verfahren nach einem der vorhergehenden Ansprüche, wobei das Stottererkennungskriterium (13) und/oder Sprachüberarbeitungskriterium (14) vom Sprachassistenten (11) umfasst wird.Method according to one of the preceding claims, wherein the stutter detection criterion (13) and/or language revision criterion (14) is comprised by the language assistant (11). Verfahren nach einem der Ansprüche 1 bis 6, wobei zumindest das Sprachüberarbeitungskriterium (14) von einem Zwischenmodul (12) umfasst wird, das die überarbeiteten Sprachdaten (23) dem Sprachassistenten (11) bereitstellt.Procedure according to one of the Claims 1 until 6 , wherein at least the language revision criterion (14) is comprised by an intermediate module (12) which provides the revised language data (23) to the language assistant (11). Kraftfahrzeug (1), das dazu ausgebildet ist, ein Verfahren nach einem der vorhergehenden Ansprüche durchzuführen.Motor vehicle (1) which is designed to carry out a method according to one of the preceding claims. Kraftfahrzeug (1) nach Anspruch 9, wobei das Kraftfahrzeug (1) die Mikrofoneinrichtung (4) und die Erfassungseinrichtung (5) aufweist, wobei die Erfassungseinrichtung (5) insbesondere als eine Kamera (6) und/oder ein Radargerät, insbesondere als ein Ultrabreitbandsensor (7), ausgebildet ist.Motor vehicle (1). Claim 9 , wherein the motor vehicle (1) has the microphone device (4) and the detection device (5), wherein the detection device (5) is designed in particular as a camera (6) and/or a radar device, in particular as an ultra-wideband sensor (7).
DE102022124133.5A 2022-09-20 2022-09-20 Method for processing stuttered speech using a voice assistant for a motor vehicle Active DE102022124133B3 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102022124133.5A DE102022124133B3 (en) 2022-09-20 2022-09-20 Method for processing stuttered speech using a voice assistant for a motor vehicle

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022124133.5A DE102022124133B3 (en) 2022-09-20 2022-09-20 Method for processing stuttered speech using a voice assistant for a motor vehicle

Publications (1)

Publication Number Publication Date
DE102022124133B3 true DE102022124133B3 (en) 2024-01-04

Family

ID=89167267

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022124133.5A Active DE102022124133B3 (en) 2022-09-20 2022-09-20 Method for processing stuttered speech using a voice assistant for a motor vehicle

Country Status (1)

Country Link
DE (1) DE102022124133B3 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015106280A1 (en) 2014-04-25 2015-10-29 GM Global Technology Operations LLC Systems and methods for compensating speech artifacts in speech recognition systems
DE102017102392A1 (en) 2016-02-17 2017-08-17 GM Global Technology Operations LLC AUTOMATIC LANGUAGE RECOGNITION BY VOICE CHANNELS
WO2021136962A1 (en) 2020-01-03 2021-07-08 Orcam Technologies Ltd. Hearing aid systems and methods

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015106280A1 (en) 2014-04-25 2015-10-29 GM Global Technology Operations LLC Systems and methods for compensating speech artifacts in speech recognition systems
DE102017102392A1 (en) 2016-02-17 2017-08-17 GM Global Technology Operations LLC AUTOMATIC LANGUAGE RECOGNITION BY VOICE CHANNELS
WO2021136962A1 (en) 2020-01-03 2021-07-08 Orcam Technologies Ltd. Hearing aid systems and methods

Similar Documents

Publication Publication Date Title
DE112014007015B4 (en) Speech recognition system
EP3224831B1 (en) Motor vehicle operating device with a correction strategy for voice recognition
DE102019119171A1 (en) VOICE RECOGNITION FOR VEHICLE VOICE COMMANDS
DE10163213A1 (en) Method for operating a speech recognition system
DE112007003024T5 (en) Vehicle mounted speech recognition device
EP3430615B1 (en) Transportation means, and system and method for adapting the length of a permissible speech pause in the context of a speech input
DE112017007280T5 (en) In-vehicle communication control device, in-vehicle communication system, and in-vehicle communication control method
DE60205095T2 (en) TRANSCRIPTION SERVICE WITH CANCELLATION OF AUTOMATIC TRANSCRIPTION
DE102022124133B3 (en) Method for processing stuttered speech using a voice assistant for a motor vehicle
DE102018132160A1 (en) SYSTEM AND METHOD FOR UNDERSTANDING STANDARD LANGUAGE AND DIALECTS
DE102018215293A1 (en) Multimodal communication with a vehicle
EP2548382B1 (en) Method for testing speech comprehension of a person assisted by a hearing aid
WO2020064281A1 (en) Providing interactive feedback, on a spoken announcement, for vehicle occupants
EP3115886A1 (en) Method for operating a voice controlled system and voice controlled system
DE102006045719B4 (en) Medical system with a voice input device
EP2907048A1 (en) Motor vehicle having a speech translation system
DE112021006996T5 (en) Adjustment device, adjustment system and adjustment method
DE102019133133A1 (en) Assistance system through which the output of at least one media content is controlled in a room, motor vehicle and operating method for the assistance system
DE112018006597B4 (en) Speech processing device and speech processing method
DE102018117205A1 (en) Method for informing an occupant of a motor vehicle about a traffic situation using voice information; Control means; Driver assistance system; as well as computer program product
DE102014108371B4 (en) Method for voice control of entertainment electronic devices
WO2015176986A1 (en) Method for operating a voice dialogue system for a motor vehicle
WO2018188907A1 (en) Processing speech input
DE102022125547A1 (en) Motor vehicle and method for summarizing a conversation in a motor vehicle
DE102017203840A1 (en) CAUSE ANALYSIS AND RECOVERY SYSTEMS AND METHODS

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division