DE102021103310B4 - Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum - Google Patents

Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum Download PDF

Info

Publication number
DE102021103310B4
DE102021103310B4 DE102021103310.1A DE102021103310A DE102021103310B4 DE 102021103310 B4 DE102021103310 B4 DE 102021103310B4 DE 102021103310 A DE102021103310 A DE 102021103310A DE 102021103310 B4 DE102021103310 B4 DE 102021103310B4
Authority
DE
Germany
Prior art keywords
room
speaker
sound
speech
frequencies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102021103310.1A
Other languages
English (en)
Other versions
DE102021103310A1 (de
Inventor
Benjamin Bernard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dr Ing HCF Porsche AG
Original Assignee
Dr Ing HCF Porsche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dr Ing HCF Porsche AG filed Critical Dr Ing HCF Porsche AG
Priority to DE102021103310.1A priority Critical patent/DE102021103310B4/de
Priority to CN202210035822.8A priority patent/CN114974289A/zh
Priority to US17/666,645 priority patent/US20220262389A1/en
Priority to KR1020220016796A priority patent/KR20220115876A/ko
Priority to GB2201829.5A priority patent/GB2605693B/en
Publication of DE102021103310A1 publication Critical patent/DE102021103310A1/de
Application granted granted Critical
Publication of DE102021103310B4 publication Critical patent/DE102021103310B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Verfahren (100) zur Verbesserung der Sprachverständlichkeit in einem Raum, umfassend:- Erkennen (110) eines aktiven Sprechers oder von Sprache,- Identifizieren (120) des aktiven Sprechers,- Beeinflussen (130) mindestens einer Vorrichtung zur Beschallung des Raums derart, dass der Pegel von dieser Vorrichtung in den Raum abgestrahlten Schalls in Frequenzen oder Frequenzbereichen, welche mit den für die Sprachverständlichkeit relevanten Frequenzen oder Frequenzbereichen des Sprechers übereinstimmen oder an diese angrenzen verringert wird, und/oder Beeinflussen mindestens einer Vorrichtung zur Beschallung oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums derart, dass von dieser Vorrichtung der Pegel in den Raum hinein übertragenen Schalls in den für die Sprachverständlichkeit des Sprechers relevanten Frequenzen oder Frequenzbereichen oder an diese angrenzende Frequenzen oder Frequenzbereiche durch destruktive Interferenz oder Dämpfung verringert wird, dadurch gekennzeichnet, dass die mindestens eine Vorrichtung zur Beschallung des Raums so beeinflusst wird, dass die Verringerung des Pegels des von dieser Vorrichtung abgestrahlten Schalls und/oder die Verringerung von Schall durch destruktive Interferenz an den Orten im Raum erfolgt, an denen sich mögliche Zuhörer befinden.

Description

  • Die vorliegende Erfindung bezieht sich auf eine Vorrichtung und ein Verfahren zur Verbesserung der Sprachverständlichkeit in einem Raum, bspw. einem Fahrgastraum eines Luft-, Land oder Seefahrzeugs.
  • HINTERGRUND
  • In einer Vielzahl von Räumen, in denen sich Personen aufhalten, herrscht keine absolute Ruhe, sondern es werden Geräusche in dem Raum bewusst erzeugt oder dringen unerwünschterweise in den Raum ein. So gelangen etwa in motorgetriebenen Fahrzeugen zur Personenbeförderung von dem Fahrzeug während des Betriebs erzeugte Geräusche auf unterschiedlichen Wegen in den Innenraum. Der Schall kann über die Luft geleitet werden, oder über die Schalleitung in miteinander verbundenen Bauteilen des Fahrzeugs in den Innenraum gelangen.
  • Zwar sind insbesondere die Innenräume moderner Fahrzeuge aufgrund verbesserter Schalldämmmaßnahmen gegenüber früheren Fahrzeugen während des Betriebs deutlich leiser geworden, eine nahezu vollständige Schallisolierung des Fahrgastraums ist jedoch häufig aus ökonomischen Gründen nicht gewünscht, und insbesondere bei Landfahrzeugen ist für das Fahrempfinden ein markentypischer Klang der Fahrzeuge in unterschiedlichen Fahrsituationen von erheblicher Bedeutung.
  • Die durch den Betrieb eines Fahrzeugs erzeugten Geräusche können, je nach der Quelle, nur eine einzelne Frequenz aufweisen, sie können jedoch auch über ein schmales oder breites Frequenzspektrum verteilt sein, bspw. als Rauschen.
  • Zusätzlich werden in vielen Räumen Geräuschquellen bewusst in Betrieb genommen, bspw. eine Audioanlage mit Schallwandlern zur Wiedergabe von Musik und Sprache. In Fahrzeugen, insbesondere in Landfahrzeugen kommen häufig Vorrichtungen zum Einsatz, welche über Schallwandler oder andere Einrichtungen einen u.a. von der jeweiligen Fahrsituation abhängigen Fahrzeugsound im Innenraum erzeugen.
  • In vielen Räumen, u.a. auch in modernen Fahrzeugen, werden zunehmend sprachgesteuerte Systeme zur Steuerung von Funktionen in dem Raum angeordneter oder diesem zugeordneter technischer Systeme genutzt. Außerdem werden sich mehrere zur gleichen Zeit in dem Raum befindliche Personen in der Regel miteinander unterhalten. Aus diesem Grund ist es wünschenswert, in dem Raum eine Geräuschkulisse bzw. Akustik zu erhalten, welche eine gute Sprachverständigung unterstützt.
  • Aus der DE 10 2014 107 028 A1 ist ein System bekannt, welches ein Nutzersprachprofil für eine biometrische Identifikation speichert. Um eine Nutzeridentifikation auch bei Umgebungsrauschen zu verbessern ist ein Sprachprozessor des Systems dazu eingerichtet, Phoneme einer den Nutzer kennzeichnenden Phrase in Abhängigkeit von dem Umgebungsrauschen zu erzeugen, so dass die Phrase vom Umgebungsrauschen und Phrasen anderer Nutzer unterscheidbar ist.
  • Aus der DE 10 2019 201 456 B3 ist ein Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgeräts, bei dem Sprachsignale von bevorzugten Sprechern nach deren Identifikation anhand eines Abgleichs mit in einem Speicher gespeicherten Sprachprofilen im Audiosignal des Hörgeräts angehoben werden.
  • Aus der US 2020 / 0 411 025 A1 ist ein Verfahren zur Verbesserung der Sprachverständlichkeit bei einer Sprachübertragung zwischen zwei Endgeräten bekannt, bei dem aus von einem Endgerät aufgenommenen Sprachsignalen vor der Übertragung an das zweite Endgerät anhand eines Sprachprofils des Sprechers im Sprachprofil des Sprechers nicht vorkommende Frequenzen oder Frequenzbereiche vor der Übertragung herausgefiltert werden.
  • DE 10 2017 117 569 A1 offenbart den Gegenstand des Oberbegriffs von Anspruch 1.
  • BESCHREIBUNG DER ERFINDUNG
  • Es ist daher eine Aufgabe der vorliegenden Erfindung ein Verfahren und eine Vorrichtung vorzuschlagen, welches bzw. welche zumindest situationsbedingt, zeitweise und/oder vorübergehend eine Verbesserung der Sprachverständlichkeit in einem Raum bewirkt, insbesondere in einem Fahrzeuginnenraum.
  • Diese Aufgabe wird durch das in Anspruch 1 angegebene Verfahren und die in Anspruch 8 angegebene Vorrichtung gelöst. Vorteilhafte Weiterentwicklungen und Ausgestaltungen sind in jeweiligen abhängigen Ansprüchen angegeben.
  • Die menschliche Stimme wird durch das Zusammenwirken der Stimmlippen im Kehlkopf und den Ansatzräumen erzeugt. Dabei lassen sich physikalisch vier Stimmparameter unterscheiden: Tonhöhe, Lautheit, Klangfarbe und Vokal. Aufgrund der unterschiedlichen Größe des Kehlkopfes und damit der Länge der Stimmbänder liegt die Tonhöhe des Grundtons für die männliche Stimme bei etwa 125 Hz und für die weibliche bei etwa 250 Hz. Kleine Kinder haben eine Tonlage um 440 Hz. Der Stimmumfang beträgt normalerweise 1,3-2,5 Oktaven, mit Training sind aber auch 3 und mehr möglich. Der Frequenzbereich der menschlichen Stimme mit den Obertönen beträgt etwa 80 Hz bis 12 kHz. In diesem Frequenzgang befinden sich Frequenzabschnitte, die für die Sprachverständlichkeit, die Erkennbarkeit der Vokale und Konsonanten sowie Brillanz und Wärme eine Rolle spielen.
  • Jede Person hat ein individuelles Stimmfrequenzprofil, bei dem der Grundton und die Harmonischen sich in der Frequenz und den Amplituden zueinander von denen anderer Personen unterscheiden. Dabei sind für jeden Menschen unterschiedliche Frequenzen bzw. Frequenzbereiche für dessen Sprachverständlichkeit besonders relevant, während andere Bereiche nur wenig oder überhaupt nicht zur Sprachverständlichkeit beitragen.
  • Das menschliche Gehör weist eine über den gesamten Frequenzbereich variierende Empfindlichkeit auf. Dabei ist das Gehör für sehr niedrige und sehr hohe Töne weniger empfindlich als für Töne im mittleren Bereich des Hörspektrums. Außerdem werden im menschlichen Gehör Töne einer Frequenz durch Töne einer im Frequenzspektrum nahe daneben liegenden Frequenz mit ausreichender Amplitude verdeckt, werden also nicht wahrgenommen. Dieses Phänomen wird auch als Maskierung bezeichnet. In 1 zeigt die gestrichelte Linie eine beispielhafte Hörempfindlichkeitskurve des menschlichen Gehörs. In der Grafik ist der für eine bewusste Wahrnehmung der jeweiligen Frequenz erforderliche Schalldruckpegel über der Frequenz aufgetragen. Es ist deutlich erkennbar, wie die Empfindlichkeit zu niedrigen und hohen Frequenzen hin abnimmt, und ein Maximum im Frequenzbereich um etwa 3 kHz aufweist. In der Figur sind außerdem eine als „Maskierer“ bezeichnete Frequenz knapp oberhalb von 200 Hz mit einem Schalldruckpegel von über 60 dB, sowie ein daneben liegendes Signal knapp oberhalb von 400 Hz mit einem Schalldruckpegel von etwa 20 dB dargestellt. Das maskierende Signal wirkt sich auf einen zu beiden Seiten liegenden Frequenzbereich aus, in der Figur als Maskierbereich bezeichnet, so dass das daneben liegende Signal für einen Menschen nicht hörbar ist, also verdeckt oder eben „maskiert“. Die Maskierungswirkung eines Störgeräuschs hängt von dem Amplitudenunterschied und dem Frequenzabstand zu einem verdeckten Geräusch ab.
  • Wenn nun Störgeräusche in Frequenzbereichen liegen, in denen für die Sprachverständlichkeit wichtige Frequenzen bzw. Frequenzbereiche eines Sprechers liegen, so kann dies zu einer erheblich verringerten Verständlichkeit der von diesem Sprecher gesprochenen Worte führen.
  • Die vorliegende Erfindung nutzt diese Erkenntnis, um in einem Raum mit zumindest in Grenzen beeinflussbaren, die Raumakustik bestimmenden Merkmalen oder Parametern die Sprachverständlichkeit für einzelne Sprecher zu verbessern. Ein solcher Raum ist bspw. ein Fahrzeuginnenraum. Im Folgenden wird der Begriff Fahrzeuginnenraum synonym für jeglichen Raum verwendet, in welchem sich Menschen aufhalten und sprechen können, und dessen die Raumakustik bestimmende Merkmale oder Parameter zumindest in Grenzen beeinflussbar sind. Im Kontext dieser Beschreibung umfasst der Begriff Raumakustik nicht nur die Schallausbreitung und Reflexion, sondern insbesondere auch Störgeräusche jeglicher Art, und die beeinflussbaren Merkmale oder Parameter können Vorrichtungen umfassen, mittels derer Schall bewusst in den Raum eingebracht wird oder in den Raum hinein übertragener Schall verringert werden kann, bspw. Vorrichtungen zur aktiven Geräuschminderung oder in ihrer akustischen Dämpfung einstellbare Vorrichtungen im Raum.
  • Erfindungsgemäß wird für individuelle Sprecher ein Stimmfrequenzprofil bestimmt, aus welchem die für die Sprachverständlichkeit des Sprechers wichtigen Frequenzen bzw. Frequenzbereiche ermittelt werden. Die Bestimmung des Stimmfrequenzprofils kann bspw. das Vorlesen eines vorbestimmten Texts umfassen, und eine entsprechende Tonaufnahme des vorgelesenen Texts wird von einer künstlichen Intelligenz oder mittels Maschinenlernens analysiert, um die relevanten Frequenzen bzw. Frequenzbereiche zu ermitteln. Zugleich wird das Gesicht des Sprechers mit einer Kamera aufgenommen und mittels eines entsprechenden Erkennungsverfahrens analysiert, so dass zum einen der Sprecher als Individuum identifiziert werden kann, und zum anderen typische Gesichtsbewegungen des Sprechers beim Sprechen erfasst werden. Somit liegen nun sprecherspezifische Datensätze vor, welche für individuelle Sprecher ein Stimmfrequenzprofil, für die Sprachverständlichkeit relevante Frequenzen bzw. Frequenzbereiche sowie beim Sprechen typische Gesichtsbewegungen enthalten.
  • Die so gewonnenen Informationen können nun gespeichert werden und in einem erfindungsgemäßen Verfahren zur Verbesserung der Sprachverständlichkeit in einem Raum genutzt werden. Die Speicherung der Informationen kann in einem mit dem Raum fest oder über eine Datenverbindung verbundenen Speichermedium erfolgen, oder in einem tragbaren Speichermedium, welches ein Sprecher mit sich führt, wenn er sich in dem Raum befindet, bspw. in einem Speicher eines Schlüssels, mittels dessen sich der Sprecher Zutritt zu dem Raum verschaffen kann, oder in einem mobilen Kommunikationsgerät, welches dem Sprecher eindeutig zugeordnet ist, bspw. ein Mobiltelefon oder dergleichen. Das Speichermedium bzw. ein Gerät, in welchem das Speichermedium angeordnet ist, kann vorzugsweise drahtlos mit einer in dem Raum vorgesehenen Vorrichtung zur Verbesserung der Sprachverständlichkeit kommunizieren, um dieser die für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereiche sowie Informationen zur Gesichtserkennung und typische Gesichtsbewegungen des Individuums zur Verfügung zu stellen.
  • Die sprecherspezifischen Datensätze können außerdem dazu genutzt werden, sprecherunabhängige Kriterien zur Erkennung eines sprechenden Individuums zu ermitteln, ohne daraus unmittelbar eine Bestimmung des Individuums abzuleiten, bspw. für eine Vielzahl von Sprechern typische Gesichtsbewegungen, Frequenzen bzw. Frequenzbereiche oder dergleichen.
  • Ein erfindungsgemäßes Verfahren zur Verbesserung der Sprachverständlichkeit in einem Raum umfasst das Erkennen eines aktiven Sprechers bzw. von Sprache. Dies kann bspw. mittels einer Kamera unter Nutzung zuvor ermittelter sprecherunabhängiger typischer Gesichtsbewegungen erfolgen und/oder mittels eines oder mehrerer in dem Raum angeordneter Mikrofone, welche aufgenommene Schallsignale mit sprecherunabhängigen, für Sprache typischen Frequenzen bzw. Frequenzbereichen und/oder Lauten vergleichen. Es sein darauf hingewiesen, dass das Erkennen nicht zwingend bereits eine Identifikation des Sprechers umfasst. Es kommt zunächst darauf an, dass erkannt wird, dass ein sich im Raum befindendes Individuum spricht.
  • Sofern einem das Verfahren ausführenden System das oder in dem Raum befindlichen Individuen bekannt sind können anstelle der sprecherunabhängigen Kriterien zur Erkennung eines sprechenden Individuums für das oder die in dem Raum befindlichen Individuen spezifische Kriterien genutzt werden, wodurch die Erkennungsgenauigkeit weiter gesteigert werden kann.
  • Nachdem ein aktiver Sprecher bzw. Sprache erkannt wurde wird der Sprecher, d.h. das sprechende Individuum, identifiziert. Identifizieren bedeutet in diesem Kontext, dass ein zu dem sprechenden Individuum zugehöriger Datensatz abgerufen werden kann, welcher zumindest die für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereiche umfasst. Eine weitergehende Identifikation im klassischen Sinne, also bspw. die Zuordnung eines Namens und dergleichen ist nicht erforderlich. Das Identifizieren des Individuums kann mittels eines Vergleichs der von mindestens einem in dem Raum angeordneten Mikrofon aufgenommenen Sprache mit aus einem Speicher bezogenen Sprachprofilen von Individuen erfolgen. Vorzugsweise werden dabei nur Sprachprofile von Individuen bezogen, von denen bekannt ist, dass sie sich in dem Raum aufhalten, bspw. weil sie zuvor bereits einmal in dem Raum waren, oder weil deren Präsenz einem das Verfahren ausführenden System auf anderem Wege mitgeteilt wurde, bspw. durch einen Kalendereintrag. Andere Wege zur Feststellung der Anwesenheit von Individuen können auch die Auswertung drahtloser Kommunikation von Geräten umfassen, welche die Individuen bei sich tragen und welche diesen zugeordnet sind, bspw. von Mobiltelefonen, welche sich mit Kommunikationsnetzen verbinden, welche dem Raum zuordenbar sind.
  • Das Identifizieren des aktiv sprechenden Individuums kann auch in grundsätzlich bekannter Weise mittels eines Vergleichs eines von einer in dem Raum angeordneten Kamera aufgenommenen Gesichts mit aus einer Datenbank abgerufenen Gesichtern erfolgen, bspw. aus Datensätzen, welche Stimmfrequenzprofile und/oder für die Sprachverständlichkeit relevante Frequenzen bzw. Frequenzbereiche sowie beim Sprechen typische Gesichtsbewegungen beinhalten.
  • Falls die Position von Individuen in dem Raum im Wesentlichen unveränderlich ist, bspw. bei Fahrzeuginsassen, welche sich in der Regel über einen längeren Zeitraum an derselben Stelle im Raum befinden, und falls die Identität der Individuen in dem Raum bekannt ist, bspw. nach einer zuvor bereits erfolgten Bestimmung, kann die Identifikation des Sprechers schon dadurch erfolgen, dass an der Position eines Sprechers Sprache erkannt wird. Die Positionserkennung kann leicht auf bekannte Weise aus einem Kamerabild erfolgen, in welchem nach für ein Individuum typische Gesichtsbewegungen beim Sprechen gesucht wird, und/oder über eine Analyse des Schallpegels und/oder der Phasenlage des Schalls mittels einer mindestens zwei Mikrofone umfassenden Mikrofonanordnung.
  • In einer oder mehreren Ausgestaltungen können bei der Erkennung eines aktiven Sprechers bzw. von Sprache und/oder bei der Identifikation des sprechenden Individuums neben der Auswertung von Kamerabildern und/oder der Auswertung von durch ein oder mehrere Mikrofone aufgenommener Töne zusätzliche von in dem Raum angeordneten Sensoren bereitgestellte Signale genutzt werden, bspw. um die Auswertung zu beschleunigen. Diese zusätzlichen Signale können bspw. Signale einer Sitzbelegungserkennung eines Fahrzeugs sein, welche unter anderem zur Steuerung von Airbags oder für Gurtwarner genutzt werden. Die Auswertung kann dann die Bereiche, von denen bekannt ist, dass sich dort keine Person aufhält, aussparen, so dass eine Falscherkennung in diesen Bereichen ausgeschlossen werden kann.
  • Wenn der Sprecher identifiziert ist, wird mindestens eine Vorrichtung zur Beschallung des Raums derart beeinflusst, dass der Pegel von dieser Vorrichtung in den Raum abgestrahlten Schalls in Frequenzen oder Frequenzbereichen, welche mit den für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen des Sprechers übereinstimmen oder an diese angrenzen verringert wird.
  • Bei einer oder mehreren Ausgestaltungen des Verfahrens ist in dem Raum eine Vorrichtung zur aktiven Geräuschverminderung vorgesehen. Solche Vorrichtungen nehmen mittels Mikrofonen Geräusche in einer Umgebung auf und erzeugen selbst entsprechende Geräusche, welche an mindestens einem Ort oder Bereich im Raum eine zumindest in etwa gleiche Amplitude, jedoch eine um 180° gedrehte Phase aufweisen. Die an dem mindestens einen Ort oder Bereich im Raum in etwa in gleicher Amplitude vorliegenden Schallwellen löschen sich durch destruktive Interferenz vollständig oder zumindest weitgehend aus. Je nach Frequenz des Geräusches und nach Auslegung der Vorrichtung kann eine signifikante Verringerung von Geräuschen an mehreren Orten oder Bereichen im Raum erzielt werden. Entsprechend umfasst das Verfahren zusätzlich das Beeinflussen mindestens einer Vorrichtung zur Beschallung des Raums oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums derart, dass der wahrnehmbare Pegel in den Raum hinein übertragenen Schalls durch destruktive Interferenz oder Dämpfung insbesondere in den Frequenzen bzw. Frequenzbereichen verringert wird, welche für die Sprachverständlichkeit des Sprechers relevant sind, oder an diese angrenzen. Die Verringerung des Schalls durch destruktive Interferenz oder Dämpfung in bzw. bei den für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen kann zulasten der Verringerung bei anderen Frequenzen bzw. in anderen Frequenzbereichen gehen. Die mindestens eine Vorrichtung zur Beschallung des Raums und/oder die mindestens eine Vorrichtung von akustischen Merkmalen oder Parametern des Raums, durch welche letztlich eine Verringerung des Pegels in den Raum hinein übertragenen Schalls bewirkt wird, kann bspw. Lautsprecher bekannter Bauart umfassen, welche Schall in den Raum abstrahlen, oder Aktuatoren, welche Teile der Raumstruktur oder von Raumverkleidungen dazu konfigurieren oder anregen, Schall abzustrahlen oder Schallwellen zu dämpfen.
  • Für die Beeinflussung der mindestens einen Vorrichtung kann ein zu dem identifizierten sprechenden Individuum gehörender Datensatz bezogen werden, welcher zumindest die für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereiche umfasst. Der Datensatz kann, wie bereits zuvor erwähnt, von einem Speichermedium bezogen werden, welches sich in dem Raum befindet oder diesem zugeordnet ist, oder von einer von dem Raum entfernt angeordneten Datenbank. Das Beziehen des Datensatzes kann vorzugsweise drahtlos erfolgen, und zumindest Teile des Datensatzes können zumindest vorübergehend in der mindestens einen Vorrichtung gespeichert werden.
  • Die Verringerung des wahrnehmbaren Schalls bei den für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen führt in vorteilhafter Weise dazu, dass die Gefahr einer Maskierung dieser Frequenzen bzw. Frequenzbereiche durch Fremdschall verringert bzw. vollständig ausgeschlossen wird, so dass mitfahrende Individuen oder über eine Sprachkommunikationsverbindung zuhörende Individuen das Gesprochene besser verstehen können.
  • Erfindungsgemäß wird die mindestens eine Vorrichtung zur Beschallung des Raums so beeinflusst, dass die Verringerung des Pegels des von dieser Vorrichtung abgestrahlten Schalls insbesondere an den Orten im Raum erfolgt, an denen sich mögliche Zuhörer befinden. Gleiches gilt für die Verringerung des in den Raum hinein übertragenen Schalls durch destruktive Interferenz. Die Erkennung von Orten im Raum, an denen sich mögliche Zuhörer befinden kann bspw. mittels Auswertung von Kamerabildern erfolgen. In einem Fahrzeuginnenraum kann dies auch durch Auswertung von Signalen einer Sitzbelegungserkennung erfolgen.
  • Bei einer oder mehreren Ausgestaltungen des Verfahrens erfolgt zusätzlich zu der Verringerung des nicht von der Sprache stammenden Schalls eine laufzeitverzögerte und/oder phasenrichtige Wiedergabe der durch mindestens ein Mikrofon aufgenommenen Sprache in dem Raum über mindestens eine in dem Raum angeordnete Vorrichtung zur Beschallung. Die Wiedergabe kann vorzugsweise insbesondere an einem oder mehreren Bereichen des Raums erfolgen, in denen sich mögliche Zuhörer befinden. Mögliche Zuhörer können bspw. durch die Analyse von Kamerabildern lokalisiert werden, oder mittels zusätzlicher Signale von in dem Raum angeordneten Sensoren, bspw. Sitzbelegungserkennungssignale in Fahrzeugen. Bei der Sprachwiedergabe kann der Pegel in den für die Sprachverständlichkeit relevanten Frequenzen oder Frequenzbereichen angehoben sein. Diese Ausgestaltungen können die Verbesserung der Sprachverständlichkeit auch in solchen Umgebungen erzielen, in denen passive schalldämmende Vorrichtungen, bspw. Verkleidungen und dergleichen, für die Sprachverständlichkeit relevante Frequenzen bzw. Frequenzbereiche besonders dämpfen.
  • Eine Vorrichtung zur Verbesserung der Sprachverständlichkeit in einem Raum umfasst neben einer Erkennungsvorrichtung, welche zur Erkennung eines aktiven Sprechers bzw. von Sprache eingerichtet ist, eine Identifizierungsvorrichtung, welche zur Identifizierung eines aktiven Sprechers eingerichtet ist, und mindestens eine Vorrichtung zur Beschallung und/oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums. Die erfindungsgemäße Vorrichtung zur Verbesserung der Sprachverständlichkeit umfasst ferner eine Steuervorrichtung, welche die mindestens eine Vorrichtung zur Beschallung und/oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums so ansteuert, dass der Pegel von dieser Vorrichtung in den Raum abgestrahlten Schalls in Frequenzen oder Frequenzbereichen, welche mit den für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen des Sprechers übereinstimmen oder an diese angrenzen verringert wird und/oder dass in den Raum hinein übertragener Schall in den für die Sprachverständlichkeit des Sprechers relevanten Frequenzen oder Frequenzbereichen oder an diese angrenzende Frequenzen oder Frequenzbereiche verringert wird.
  • Die Erkennungsvorrichtung und/oder die Identifizierungsvorrichtung können eine oder mehrere Kameras und/oder Mikrofone umfassen, deren Signale einem Computer zugeführt sind. Der Computer kann zugleich die Steuervorrichtung implementieren. Die Beschallungsvorrichtung und/oder die Vorrichtung zur Veränderung von akustischen Merkmalen oder Parametern des Raums kann Lautsprecher mit entsprechenden Verstärkern umfassen, aber auch dem Raum zugeordnete oder darin angeordnete Vorrichtungen, mittels derer eine Dämpfung von Schall bei verschiedenen Frequenzen bzw. in verschiedenen Frequenzbereichen aktiv einstellbar ist. Der Computer führt ein Computerprogramm aus, das den Computer dazu veranlasst, eine oder mehrere Ausgestaltungen und Weiterentwicklungen des vorstehend beschriebenen Verfahrens auszuführen.
  • Entsprechend enthält ein erfindungsgemäßes Computerprogrammprodukt Befehle, die bei der Ausführung durch einen Computer diesen dazu veranlassen, eine oder mehrere Ausgestaltungen und Weiterentwicklungen des vorstehend beschriebenen Verfahrens ausführen.
  • Das Computerprogrammprodukt kann auf einem computerlesbaren Medium bzw. Datenträger gespeichert sein. Das Medium bzw. der Datenträger kann physisch verkörpert sein, bspw. als Festplatte, CD, DVD, Flash-Speicher oder dergleichen, das Medium bzw. der Datenträger kann aber auch ein moduliertes elektrisches, elektromagnetisches oder optisches Signal umfassen, das von einem Computer mittels eines entsprechenden Empfängers empfangen und in dem Speicher des Computers gespeichert werden kann.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • Im Folgenden wird die Erfindung mit Bezug auf die Zeichnung näher erläutert. In der Zeichnung zeigt
    • 1 eine Darstellung des Hörbereichs des menschlichen Gehörs mit einem Ton, der durch einen maskierenden Ton verdeckt und daher für Menschen nicht mehr wahrnehmbar ist,
    • 2 ein vereinfachtes schematisches Flussdiagramm des erfindungsgemäßen Verfahrens,
    • 3 a) eine beispielhafte Darstellung eines Stimmfrequenzprofils eines Individuums mit für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen,
    • 3 b) die Darstellung des Stimmfrequenzprofils aus 3 a) mit einem überlagerten Frequenzprofil eines beispielhaften Störgeräusches,
    • 3 c) eine exemplarische Darstellung der Wirkung der Erfindung auf das in 3 b) dargestellte Frequenzprofil des Störgeräusches, und
    • 4 ein beispielhaftes und schematisches Blockschaltbild einer erfindungsgemäßen Vorrichtung zur Verbesserung der Sprachverständlichkeit in einem Raum.
  • Gleiche oder ähnliche Elemente sind in den Figuren mit den gleichen Bezugszeichen versehen.
  • 1 wurde bereits weiter oben beschrieben und wird daher an dieser Stelle nicht erneut besprochen.
  • BESCHREIBUNG VON AUSFÜHRUNSGBEISPIELEN
  • 2 zeigt ein vereinfachtes schematisches Flussdiagramm des erfindungsgemäßen Verfahrens 100 zur Verbesserung der Sprachverständlichkeit in einem Raum. In Schritt 110 wird zunächst ein aktiver Sprecher bzw. Sprache in dem Raum erkannt, d.h., es wird festgestellt, dass ein sich in dem Raum befindendes Individuum spricht. Das Erkennen eines aktiven Sprechers bzw. von Sprache kann bspw. das Erkennen von für menschliche Sprache typischen Frequenzen und/oder Lauten mittels mindestens eines Mikrofons in dem Raum und/oder das Erkennen von für Sprache typischen Gesichtsbewegungen von Personen mittels einer oder mehrerer den Raum erfassender Kameras umfassen.
  • Anschließend wird in Schritt 120 der Sprecher identifiziert, d.h., es wird die Identität des sprechenden Individuums zumindest insoweit festgestellt, dass ein zu dem sprechenden Individuum zugehöriger Datensatz abgerufen werden kann, welcher zumindest die für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereiche umfasst. Das Identifizieren kann bspw. das Vergleichen der von dem mindestens einen Mikrofon aufgenommenen Sprache mit aus einem Speicher bezogenen Sprachprofilen von Personen und/oder das Vergleichen von Gesichtern mit in einem Speicher gespeicherten Repräsentationen von Gesichtern, zu welchen Stimmprofile gespeichert sind, umfassen.
  • Schließlich wird in Schritt 130 mindestens eine Vorrichtung zur Beschallung des Raums derart beeinflusst, dass der Pegel von dieser Vorrichtung in den Raum abgestrahlten Schalls in Frequenzen oder Frequenzbereichen, welche mit den für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen des Sprechers übereinstimmen oder an diese angrenzen verringert wird. Zusätzlich wird mindestens eine Vorrichtung zur Beschallung des Raums derart beeinflusst, dass von mindestens einer Vorrichtung zur Verringerung von Schall durch destruktive Interferenz ein in den Raum hinein übertragener Schall in den für die Sprachverständlichkeit des Sprechers relevanten Frequenzen oder Frequenzbereichen oder an diese angrenzende Frequenzen oder Frequenzbereiche verringert wird.
  • 3 a) zeigt eine beispielhafte Darstellung eines Stimmfrequenzprofils eines Individuums als Amplitudenverlauf über die Frequenz. Die für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereiche A, B und C sind deutlich erkennbar und weisen gegenüber den übrigen Frequenzen höhere Amplituden auf.
  • 3 b) zeigt die Darstellung des Stimmfrequenzprofils aus 3 a) mit einem überlagerten Frequenzprofil eines beispielhaften Störgeräusches. Das Störgeräusch ist als fett gestrichelte Linie dargestellt. Für eine gute Sprachverständlichkeit muss der Pegel der Sprache um einen Mindestwert über dem von Störgeräuschen liegen, bspw. 9 dB. In der Figur ist der Mindestabstand bei den für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen jeweils mit den gestrichelten Δm in Störabstandsgrenzen eingezeichnet. Es ist klar erkennbar, dass der Mindestabstand zwischen Störgeräusch und Sprache in dem mit B bezeichneten Frequenzbereich nicht eingehalten ist. Vielmehr wird dieser Frequenzbereich nahezu vollständig von dem Störgeräusch verdeckt.
  • 3 c) zeigt eine exemplarische Darstellung der Wirkung der Erfindung auf das in 3 b) dargestellte Frequenzprofil des Störgeräusches. Während in den Frequenzbereichen A und C der Pegel der Sprache einen ausreichenden Abstand zu dem Störgeräusch aufweist, so dass hier kein Eingriff notwendig war, ist durch aktive Beeinflussung der Quelle des Störgeräuschs bzw. durch aktive Verringerung des Störgeräuschs in dem Frequenzbereich B sowie in den daneben liegenden, schraffierten Frequenzbereichen der Pegel des Störgeräuschs reduziert worden, so dass der Pegel der Sprache nun einen ausreichenden Abstand zum Pegel des Störgeräuschs aufweist. Die Reduzierung des Pegels des Störgeräuschs auch in den schraffierten Bereichen dient dazu, mögliche Maskierungseffekte durch nahe an dem relevanten Frequenzbereich liegenden Störfrequenzen auszuschließen. Zur Verdeutlichung der Wirkung ist der ursprüngliche Pegel des Störgeräuschs als gepunktete Linie in der Figur dargestellt.
  • 4 zeigt ein beispielhaftes und schematisches Blockschaltbild einer erfindungsgemäßen Vorrichtung 200 zur Verbesserung der Sprachverständlichkeit in einem Raum. Eine Erkennungsvorrichtung 202, eine Identifizierungsvorrichtung 204, eine Vorrichtung 208 zur Beschallung und/oder zur Veränderung von akustischen Merkmalen oder Parametern eines Raums sowie eine Steuervorrichtung 206 sind über einen oder mehrere Daten- oder Steuerungsleitungen oder -busse 210 miteinander verbunden. Die Erkennungsvorrichtung 202, die Identifizierungsvorrichtung 204 und die Steuervorrichtung 206 können ein oder mehrere ihrer Komponenten gemeinsam nutzen, wie in der Figur durch den gestrichelten Kasten angedeutet ist.
  • Die vorstehend beschriebene Erfindung ermöglicht es, die Sprachverständlichkeit in einem Raum sprecherspezifisch zu verbessern, unabhängig davon, ob sich zwei oder mehr Individuen in dem Raum befinden und miteinander sprechen, oder ob ein sich in dem Raum befindliches Individuum telefoniert oder eine Konversation mit einer Sprachsteuerung einer Vorrichtung „unterhält“. Dabei können bewusst zur Beschallung des Raumes eingesetzte Beschallungsvorrichtungen weitgehend weiterbetrieben werden, bspw. eine Audioanlage oder dergleichen. Ebenso können bewusst zur Senkung des Pegels von in den Raum eindringenden Geräuschen eingesetzte Vorrichtungen so weiterbetrieben werden, dass deren Wirkung während einer Konversation nicht stört, aber dennoch allgemein eine Senkung des Pegels von Geräuschen erzielt wird.
  • LISTE DER BEZUGSZEICHEN (Teil der Beschreibung)
  • 100
    Verfahren
    110
    Sprechererkennung
    120
    Sprecheridentifikation
    130
    Beeinflussung der Raumakustik
    200
    Vorrichtung
    202
    Erkennungsvorrichtung
    204
    Identifizierungsvorrichtung
    206
    Steuervorrichtung
    208
    Vorrichtung zur Beschallung eines Raumes
    210
    Daten-/Steuerleitungen bzw. -busse
    A... C
    für die Sprachverständlichkeit relevante Frequenzen bzw. Frequenzbereiche

Claims (11)

  1. Verfahren (100) zur Verbesserung der Sprachverständlichkeit in einem Raum, umfassend: - Erkennen (110) eines aktiven Sprechers oder von Sprache, - Identifizieren (120) des aktiven Sprechers, - Beeinflussen (130) mindestens einer Vorrichtung zur Beschallung des Raums derart, dass der Pegel von dieser Vorrichtung in den Raum abgestrahlten Schalls in Frequenzen oder Frequenzbereichen, welche mit den für die Sprachverständlichkeit relevanten Frequenzen oder Frequenzbereichen des Sprechers übereinstimmen oder an diese angrenzen verringert wird, und/oder Beeinflussen mindestens einer Vorrichtung zur Beschallung oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums derart, dass von dieser Vorrichtung der Pegel in den Raum hinein übertragenen Schalls in den für die Sprachverständlichkeit des Sprechers relevanten Frequenzen oder Frequenzbereichen oder an diese angrenzende Frequenzen oder Frequenzbereiche durch destruktive Interferenz oder Dämpfung verringert wird, dadurch gekennzeichnet, dass die mindestens eine Vorrichtung zur Beschallung des Raums so beeinflusst wird, dass die Verringerung des Pegels des von dieser Vorrichtung abgestrahlten Schalls und/oder die Verringerung von Schall durch destruktive Interferenz an den Orten im Raum erfolgt, an denen sich mögliche Zuhörer befinden.
  2. Verfahren nach Anspruch 1, wobei das Erkennen (110) eines aktiven Sprechers umfasst: - Erkennen von für menschliche Sprache typischen Frequenzen und/oder Lauten mittels mindestens eines Mikrofons in dem Raum, und/oder - Erkennen von für Sprache typischen Gesichtsbewegungen von Personen mittels einer oder mehrerer den Raum erfassender Kameras.
  3. Verfahren nach Anspruch 1 oder 2, wobei das Identifizieren (120) des Sprechers umfasst: - Vergleichen der von mindestens einem in dem Raum angeordneten Mikrofon aufgenommenen Sprache mit aus einem Speicher bezogenen Sprachprofilen von Personen, und/oder - Vergleichen eines von einer in dem Raum angeordneten Kamera aufgenommenen Gesichts mit in einem Speicher gespeicherten Repräsentationen von Gesichtern, zu welchen Stimmprofile gespeichert sind.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei bei der Erkennung eines aktiven Sprechers oder von Sprache und/oder bei der Identifikation des sprechenden Individuums neben der Auswertung von Kamerabildern und/oder der Auswertung von durch ein oder mehrere Mikrofone aufgenommener Töne zusätzliche von in dem Raum angeordneten Sensoren bereitgestellte Signale genutzt werden.
  5. Verfahren nach einem der vorhergehenden Ansprüche, außerdem umfassend: - laufzeitverzögertes und/oder phasenrichtiges Wiedergeben der von mindestens einem Mikrofon aufgenommenen Sprache in dem Raum über eine in dem Raum angeordnete Vorrichtung zur Beschallung.
  6. Verfahren nach Anspruch 5, wobei die Wiedergabe der Sprache in dem Raum in einem oder mehreren Bereichen des Raums erfolgt, in denen sich mögliche Zuhörer befinden.
  7. Verfahren nach einem der vorhergehenden Ansprüche, außerdem umfassend: - Bestimmen eines Stimmfrequenzprofils eines Sprechers, - Ermitteln von für die Sprachverständlichkeit des Sprechers wichtigen Frequenzen oder Frequenzbereichen, - Bestimmen von zur Identifizierung des Sprechers geeigneten Merkmalen des Gesichts des Sprechers sowie von typischen Gesichtsbewegungen des Sprechers beim Sprechen, und - Speichern des ermittelten Stimmfrequenzprofils und/oder von für die Sprachverständlichkeit des Sprechers wichtigen Frequenzen oder Frequenzbereichen sowie der von zur Identifizierung des Sprechers geeigneten Merkmale des Gesichts des Sprechers sowie der typischen Gesichtsbewegungen des Sprechers beim Sprechen in einem Speicher, auf welchen von einer in dem Raum angeordneten oder diesem zugeordneten Vorrichtung zur Verbesserung der Sprachverständlichkeit in dem Raum zugegriffen werden kann.
  8. Vorrichtung (200) zur Verbesserung der Sprachverständlichkeit in einem Raum umfassend eine Erkennungsvorrichtung (202), welche zur Erkennung eines aktiven Sprechers oder von Sprache eingerichtet ist, eine Identifizierungsvorrichtung (204), welche zur Identifizierung eines aktiven Sprechers eingerichtet ist, mindestens eine Vorrichtung (208) zur Beschallung und/oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums, und eine Steuervorrichtung (206), welche die mindestens eine Vorrichtung zur Beschallung und/oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums so ansteuert, dass der Pegel von dieser Vorrichtung in den Raum abgestrahlten Schalls in Frequenzen oder Frequenzbereichen, welche mit den für die Sprachverständlichkeit relevanten Frequenzen oder Frequenzbereichen des Sprechers übereinstimmen oder an diese angrenzen verringert wird und/oder dass in den Raum hinein übertragener Schall in den für die Sprachverständlichkeit des Sprechers relevanten Frequenzen oder Frequenzbereichen oder an diese angrenzende Frequenzen oder Frequenzbereiche verringert wird, dadurch gekennzeichnet, dass die mindestens eine Vorrichtung zur Beschallung des Raums so beeinflusst wird, dass die Verringerung des Pegels des von dieser Vorrichtung abgestrahlten Schalls und/oder die Verringerung von Schall durch destruktive Interferenz an den Orten im Raum erfolgt, an denen sich mögliche Zuhörer befinden.
  9. Fahrzeug, insbesondere Kraftfahrzeug, mit einem Innenraum, in welchem sich Personen aufhalten können, mit einer Vorrichtung nach Anspruch 8.
  10. Computerprogrammprodukt umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren nach einem oder mehreren der Ansprüche 1 bis 7 auszuführen.
  11. Computerlesbares Medium, auf dem das Computerprogrammprodukt nach Anspruch 10 gespeichert ist.
DE102021103310.1A 2021-02-12 2021-02-12 Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum Active DE102021103310B4 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE102021103310.1A DE102021103310B4 (de) 2021-02-12 2021-02-12 Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum
CN202210035822.8A CN114974289A (zh) 2021-02-12 2022-01-07 用于改善空间中的语音可懂度的方法和装置
US17/666,645 US20220262389A1 (en) 2021-02-12 2022-02-08 Method and apparatus for improving speech intelligibility in a room
KR1020220016796A KR20220115876A (ko) 2021-02-12 2022-02-09 공간 내에서의 음성 요해도를 개선하기 위한 방법 및 장치
GB2201829.5A GB2605693B (en) 2021-02-12 2022-02-11 Method and apparatus for improving speech intelligibility in a room

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021103310.1A DE102021103310B4 (de) 2021-02-12 2021-02-12 Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum

Publications (2)

Publication Number Publication Date
DE102021103310A1 DE102021103310A1 (de) 2022-08-18
DE102021103310B4 true DE102021103310B4 (de) 2024-01-04

Family

ID=80820805

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021103310.1A Active DE102021103310B4 (de) 2021-02-12 2021-02-12 Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum

Country Status (5)

Country Link
US (1) US20220262389A1 (de)
KR (1) KR20220115876A (de)
CN (1) CN114974289A (de)
DE (1) DE102021103310B4 (de)
GB (1) GB2605693B (de)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014107028A1 (de) 2013-09-18 2015-03-19 Lenovo (Singapore) Pte. Ltd. Verbesserte biometrische Passwortsicherheit
DE102017117569A1 (de) 2017-08-02 2019-02-07 Alexander Augst Verfahren, System, Anwendergerät sowie ein Computerprogramm zum Erzeugen eines in einem stationären Wohnraum auszugebenden Audiosignals
DE102019201456B3 (de) 2019-02-05 2020-07-23 Sivantos Pte. Ltd. Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgerätes
US20200411025A1 (en) 2012-11-20 2020-12-31 Ringcentral, Inc. Method, device, and system for audio data processing

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2133866B1 (de) * 2008-06-13 2016-02-17 Harman Becker Automotive Systems GmbH Adaptives Geräuschdämpfungssystem
US10163432B2 (en) * 2017-02-23 2018-12-25 2236008 Ontario Inc. Active noise control using variable step-size adaptation
US10803857B2 (en) * 2017-03-10 2020-10-13 James Jordan Rosenberg System and method for relative enhancement of vocal utterances in an acoustically cluttered environment
US10477148B2 (en) * 2017-06-23 2019-11-12 Cisco Technology, Inc. Speaker anticipation
US20210076002A1 (en) * 2017-09-11 2021-03-11 Michael H Peters Enhanced video conference management
JP2023514647A (ja) * 2020-02-25 2023-04-06 ボーズ・コーポレーション 狭帯域の除去
DE102020133448A1 (de) * 2020-12-15 2022-06-15 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Fahrzeug

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200411025A1 (en) 2012-11-20 2020-12-31 Ringcentral, Inc. Method, device, and system for audio data processing
DE102014107028A1 (de) 2013-09-18 2015-03-19 Lenovo (Singapore) Pte. Ltd. Verbesserte biometrische Passwortsicherheit
DE102017117569A1 (de) 2017-08-02 2019-02-07 Alexander Augst Verfahren, System, Anwendergerät sowie ein Computerprogramm zum Erzeugen eines in einem stationären Wohnraum auszugebenden Audiosignals
DE102019201456B3 (de) 2019-02-05 2020-07-23 Sivantos Pte. Ltd. Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgerätes

Also Published As

Publication number Publication date
GB2605693B (en) 2023-06-21
US20220262389A1 (en) 2022-08-18
CN114974289A (zh) 2022-08-30
GB202201829D0 (en) 2022-03-30
DE102021103310A1 (de) 2022-08-18
GB2605693A (en) 2022-10-12
KR20220115876A (ko) 2022-08-19

Similar Documents

Publication Publication Date Title
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE602004004242T2 (de) System und Verfahren zur Verbesserung eines Audiosignals
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
WO2021023667A1 (de) System und verfahren zur unterstützung von selektivem hören
DE69011709T2 (de) Einrichtung zur Feststellung eines akustischen Signals.
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE2719973C2 (de)
DE69816610T2 (de) Verfahren und vorrichtung zur rauschverminderung, insbesondere bei hörhilfegeräten
DE102019200954A1 (de) Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
DE102019206743A1 (de) Hörgeräte-System und Verfahren zur Verarbeitung von Audiosignalen
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
EP0747880B1 (de) Spracherkennungssystem
EP1143416A2 (de) Geräuschunterdrückung im Zeitbereich
DE112011105908B4 (de) Verfahren und Gerät zur adaptiven Regelung des Toneffekts
DE102014017293A1 (de) Verfahren zur Verzerrungskompensation im Hörfrequenzbereich und damit zu verwendendes Verfahren zur Schätzung akustischer Kanäle
DE102019200956A1 (de) Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
EP3337187A1 (de) Verfahren zum betrieb eines hörgerätes
DE102018107326A1 (de) Adaptives Insassengespräch-Frühwarnsystem
EP2077059B1 (de) Verfahren zum betreiben einer hörhilfe, sowie hörhilfe
EP1808853B1 (de) Beschallungsanlage, Beschallungsverfahren und Computerprogramm zur Verbesserung der Sprachqualität und/oder Verständlichkeit von Sprachdurchsagen
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
DE4010028C2 (de) Spracherkennungsverfahren
DE102014207437B4 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
EP3945729A1 (de) System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality
DE102017213249A1 (de) Verfahren und System zum Erzeugen einer auditiven Meldung in einem Innenraum eines Fahrzeugs

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0021020000

Ipc: G10K0011175000

R016 Response to examination communication
R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division