DE102021103310B4

DE102021103310B4 - Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum

Info

Publication number: DE102021103310B4
Application number: DE102021103310.1A
Authority: DE
Inventors: Benjamin Bernard
Original assignee: Dr Ing HCF Porsche AG
Current assignee: Dr Ing HCF Porsche AG
Priority date: 2021-02-12
Filing date: 2021-02-12
Publication date: 2024-01-04
Anticipated expiration: 2041-02-13
Also published as: GB2605693B; US20220262389A1; CN114974289A; GB202201829D0; DE102021103310A1; GB2605693A; KR20220115876A

Abstract

Verfahren (100) zur Verbesserung der Sprachverständlichkeit in einem Raum, umfassend:- Erkennen (110) eines aktiven Sprechers oder von Sprache,- Identifizieren (120) des aktiven Sprechers,- Beeinflussen (130) mindestens einer Vorrichtung zur Beschallung des Raums derart, dass der Pegel von dieser Vorrichtung in den Raum abgestrahlten Schalls in Frequenzen oder Frequenzbereichen, welche mit den für die Sprachverständlichkeit relevanten Frequenzen oder Frequenzbereichen des Sprechers übereinstimmen oder an diese angrenzen verringert wird, und/oder Beeinflussen mindestens einer Vorrichtung zur Beschallung oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums derart, dass von dieser Vorrichtung der Pegel in den Raum hinein übertragenen Schalls in den für die Sprachverständlichkeit des Sprechers relevanten Frequenzen oder Frequenzbereichen oder an diese angrenzende Frequenzen oder Frequenzbereiche durch destruktive Interferenz oder Dämpfung verringert wird, dadurch gekennzeichnet, dass die mindestens eine Vorrichtung zur Beschallung des Raums so beeinflusst wird, dass die Verringerung des Pegels des von dieser Vorrichtung abgestrahlten Schalls und/oder die Verringerung von Schall durch destruktive Interferenz an den Orten im Raum erfolgt, an denen sich mögliche Zuhörer befinden.

Description

Die vorliegende Erfindung bezieht sich auf eine Vorrichtung und ein Verfahren zur Verbesserung der Sprachverständlichkeit in einem Raum, bspw. einem Fahrgastraum eines Luft-, Land oder Seefahrzeugs.
HINTERGRUND
In einer Vielzahl von Räumen, in denen sich Personen aufhalten, herrscht keine absolute Ruhe, sondern es werden Geräusche in dem Raum bewusst erzeugt oder dringen unerwünschterweise in den Raum ein. So gelangen etwa in motorgetriebenen Fahrzeugen zur Personenbeförderung von dem Fahrzeug während des Betriebs erzeugte Geräusche auf unterschiedlichen Wegen in den Innenraum. Der Schall kann über die Luft geleitet werden, oder über die Schalleitung in miteinander verbundenen Bauteilen des Fahrzeugs in den Innenraum gelangen.
Zwar sind insbesondere die Innenräume moderner Fahrzeuge aufgrund verbesserter Schalldämmmaßnahmen gegenüber früheren Fahrzeugen während des Betriebs deutlich leiser geworden, eine nahezu vollständige Schallisolierung des Fahrgastraums ist jedoch häufig aus ökonomischen Gründen nicht gewünscht, und insbesondere bei Landfahrzeugen ist für das Fahrempfinden ein markentypischer Klang der Fahrzeuge in unterschiedlichen Fahrsituationen von erheblicher Bedeutung.
Die durch den Betrieb eines Fahrzeugs erzeugten Geräusche können, je nach der Quelle, nur eine einzelne Frequenz aufweisen, sie können jedoch auch über ein schmales oder breites Frequenzspektrum verteilt sein, bspw. als Rauschen.
Zusätzlich werden in vielen Räumen Geräuschquellen bewusst in Betrieb genommen, bspw. eine Audioanlage mit Schallwandlern zur Wiedergabe von Musik und Sprache. In Fahrzeugen, insbesondere in Landfahrzeugen kommen häufig Vorrichtungen zum Einsatz, welche über Schallwandler oder andere Einrichtungen einen u.a. von der jeweiligen Fahrsituation abhängigen Fahrzeugsound im Innenraum erzeugen.
In vielen Räumen, u.a. auch in modernen Fahrzeugen, werden zunehmend sprachgesteuerte Systeme zur Steuerung von Funktionen in dem Raum angeordneter oder diesem zugeordneter technischer Systeme genutzt. Außerdem werden sich mehrere zur gleichen Zeit in dem Raum befindliche Personen in der Regel miteinander unterhalten. Aus diesem Grund ist es wünschenswert, in dem Raum eine Geräuschkulisse bzw. Akustik zu erhalten, welche eine gute Sprachverständigung unterstützt.
Aus der DE 10 2014 107 028 A1 ist ein System bekannt, welches ein Nutzersprachprofil für eine biometrische Identifikation speichert. Um eine Nutzeridentifikation auch bei Umgebungsrauschen zu verbessern ist ein Sprachprozessor des Systems dazu eingerichtet, Phoneme einer den Nutzer kennzeichnenden Phrase in Abhängigkeit von dem Umgebungsrauschen zu erzeugen, so dass die Phrase vom Umgebungsrauschen und Phrasen anderer Nutzer unterscheidbar ist.
Aus der DE 10 2019 201 456 B3 ist ein Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgeräts, bei dem Sprachsignale von bevorzugten Sprechern nach deren Identifikation anhand eines Abgleichs mit in einem Speicher gespeicherten Sprachprofilen im Audiosignal des Hörgeräts angehoben werden.
Aus der US 2020 / 0 411 025 A1 ist ein Verfahren zur Verbesserung der Sprachverständlichkeit bei einer Sprachübertragung zwischen zwei Endgeräten bekannt, bei dem aus von einem Endgerät aufgenommenen Sprachsignalen vor der Übertragung an das zweite Endgerät anhand eines Sprachprofils des Sprechers im Sprachprofil des Sprechers nicht vorkommende Frequenzen oder Frequenzbereiche vor der Übertragung herausgefiltert werden.
DE 10 2017 117 569 A1 offenbart den Gegenstand des Oberbegriffs von Anspruch 1.
BESCHREIBUNG DER ERFINDUNG
Es ist daher eine Aufgabe der vorliegenden Erfindung ein Verfahren und eine Vorrichtung vorzuschlagen, welches bzw. welche zumindest situationsbedingt, zeitweise und/oder vorübergehend eine Verbesserung der Sprachverständlichkeit in einem Raum bewirkt, insbesondere in einem Fahrzeuginnenraum.
Diese Aufgabe wird durch das in Anspruch 1 angegebene Verfahren und die in Anspruch 8 angegebene Vorrichtung gelöst. Vorteilhafte Weiterentwicklungen und Ausgestaltungen sind in jeweiligen abhängigen Ansprüchen angegeben.
Die menschliche Stimme wird durch das Zusammenwirken der Stimmlippen im Kehlkopf und den Ansatzräumen erzeugt. Dabei lassen sich physikalisch vier Stimmparameter unterscheiden: Tonhöhe, Lautheit, Klangfarbe und Vokal. Aufgrund der unterschiedlichen Größe des Kehlkopfes und damit der Länge der Stimmbänder liegt die Tonhöhe des Grundtons für die männliche Stimme bei etwa 125 Hz und für die weibliche bei etwa 250 Hz. Kleine Kinder haben eine Tonlage um 440 Hz. Der Stimmumfang beträgt normalerweise 1,3-2,5 Oktaven, mit Training sind aber auch 3 und mehr möglich. Der Frequenzbereich der menschlichen Stimme mit den Obertönen beträgt etwa 80 Hz bis 12 kHz. In diesem Frequenzgang befinden sich Frequenzabschnitte, die für die Sprachverständlichkeit, die Erkennbarkeit der Vokale und Konsonanten sowie Brillanz und Wärme eine Rolle spielen.
Jede Person hat ein individuelles Stimmfrequenzprofil, bei dem der Grundton und die Harmonischen sich in der Frequenz und den Amplituden zueinander von denen anderer Personen unterscheiden. Dabei sind für jeden Menschen unterschiedliche Frequenzen bzw. Frequenzbereiche für dessen Sprachverständlichkeit besonders relevant, während andere Bereiche nur wenig oder überhaupt nicht zur Sprachverständlichkeit beitragen.
Das menschliche Gehör weist eine über den gesamten Frequenzbereich variierende Empfindlichkeit auf. Dabei ist das Gehör für sehr niedrige und sehr hohe Töne weniger empfindlich als für Töne im mittleren Bereich des Hörspektrums. Außerdem werden im menschlichen Gehör Töne einer Frequenz durch Töne einer im Frequenzspektrum nahe daneben liegenden Frequenz mit ausreichender Amplitude verdeckt, werden also nicht wahrgenommen. Dieses Phänomen wird auch als Maskierung bezeichnet. In 1 zeigt die gestrichelte Linie eine beispielhafte Hörempfindlichkeitskurve des menschlichen Gehörs. In der Grafik ist der für eine bewusste Wahrnehmung der jeweiligen Frequenz erforderliche Schalldruckpegel über der Frequenz aufgetragen. Es ist deutlich erkennbar, wie die Empfindlichkeit zu niedrigen und hohen Frequenzen hin abnimmt, und ein Maximum im Frequenzbereich um etwa 3 kHz aufweist. In der Figur sind außerdem eine als „Maskierer“ bezeichnete Frequenz knapp oberhalb von 200 Hz mit einem Schalldruckpegel von über 60 dB, sowie ein daneben liegendes Signal knapp oberhalb von 400 Hz mit einem Schalldruckpegel von etwa 20 dB dargestellt. Das maskierende Signal wirkt sich auf einen zu beiden Seiten liegenden Frequenzbereich aus, in der Figur als Maskierbereich bezeichnet, so dass das daneben liegende Signal für einen Menschen nicht hörbar ist, also verdeckt oder eben „maskiert“. Die Maskierungswirkung eines Störgeräuschs hängt von dem Amplitudenunterschied und dem Frequenzabstand zu einem verdeckten Geräusch ab.
Wenn nun Störgeräusche in Frequenzbereichen liegen, in denen für die Sprachverständlichkeit wichtige Frequenzen bzw. Frequenzbereiche eines Sprechers liegen, so kann dies zu einer erheblich verringerten Verständlichkeit der von diesem Sprecher gesprochenen Worte führen.
Die vorliegende Erfindung nutzt diese Erkenntnis, um in einem Raum mit zumindest in Grenzen beeinflussbaren, die Raumakustik bestimmenden Merkmalen oder Parametern die Sprachverständlichkeit für einzelne Sprecher zu verbessern. Ein solcher Raum ist bspw. ein Fahrzeuginnenraum. Im Folgenden wird der Begriff Fahrzeuginnenraum synonym für jeglichen Raum verwendet, in welchem sich Menschen aufhalten und sprechen können, und dessen die Raumakustik bestimmende Merkmale oder Parameter zumindest in Grenzen beeinflussbar sind. Im Kontext dieser Beschreibung umfasst der Begriff Raumakustik nicht nur die Schallausbreitung und Reflexion, sondern insbesondere auch Störgeräusche jeglicher Art, und die beeinflussbaren Merkmale oder Parameter können Vorrichtungen umfassen, mittels derer Schall bewusst in den Raum eingebracht wird oder in den Raum hinein übertragener Schall verringert werden kann, bspw. Vorrichtungen zur aktiven Geräuschminderung oder in ihrer akustischen Dämpfung einstellbare Vorrichtungen im Raum.
Erfindungsgemäß wird für individuelle Sprecher ein Stimmfrequenzprofil bestimmt, aus welchem die für die Sprachverständlichkeit des Sprechers wichtigen Frequenzen bzw. Frequenzbereiche ermittelt werden. Die Bestimmung des Stimmfrequenzprofils kann bspw. das Vorlesen eines vorbestimmten Texts umfassen, und eine entsprechende Tonaufnahme des vorgelesenen Texts wird von einer künstlichen Intelligenz oder mittels Maschinenlernens analysiert, um die relevanten Frequenzen bzw. Frequenzbereiche zu ermitteln. Zugleich wird das Gesicht des Sprechers mit einer Kamera aufgenommen und mittels eines entsprechenden Erkennungsverfahrens analysiert, so dass zum einen der Sprecher als Individuum identifiziert werden kann, und zum anderen typische Gesichtsbewegungen des Sprechers beim Sprechen erfasst werden. Somit liegen nun sprecherspezifische Datensätze vor, welche für individuelle Sprecher ein Stimmfrequenzprofil, für die Sprachverständlichkeit relevante Frequenzen bzw. Frequenzbereiche sowie beim Sprechen typische Gesichtsbewegungen enthalten.
Die so gewonnenen Informationen können nun gespeichert werden und in einem erfindungsgemäßen Verfahren zur Verbesserung der Sprachverständlichkeit in einem Raum genutzt werden. Die Speicherung der Informationen kann in einem mit dem Raum fest oder über eine Datenverbindung verbundenen Speichermedium erfolgen, oder in einem tragbaren Speichermedium, welches ein Sprecher mit sich führt, wenn er sich in dem Raum befindet, bspw. in einem Speicher eines Schlüssels, mittels dessen sich der Sprecher Zutritt zu dem Raum verschaffen kann, oder in einem mobilen Kommunikationsgerät, welches dem Sprecher eindeutig zugeordnet ist, bspw. ein Mobiltelefon oder dergleichen. Das Speichermedium bzw. ein Gerät, in welchem das Speichermedium angeordnet ist, kann vorzugsweise drahtlos mit einer in dem Raum vorgesehenen Vorrichtung zur Verbesserung der Sprachverständlichkeit kommunizieren, um dieser die für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereiche sowie Informationen zur Gesichtserkennung und typische Gesichtsbewegungen des Individuums zur Verfügung zu stellen.
Die sprecherspezifischen Datensätze können außerdem dazu genutzt werden, sprecherunabhängige Kriterien zur Erkennung eines sprechenden Individuums zu ermitteln, ohne daraus unmittelbar eine Bestimmung des Individuums abzuleiten, bspw. für eine Vielzahl von Sprechern typische Gesichtsbewegungen, Frequenzen bzw. Frequenzbereiche oder dergleichen.
Ein erfindungsgemäßes Verfahren zur Verbesserung der Sprachverständlichkeit in einem Raum umfasst das Erkennen eines aktiven Sprechers bzw. von Sprache. Dies kann bspw. mittels einer Kamera unter Nutzung zuvor ermittelter sprecherunabhängiger typischer Gesichtsbewegungen erfolgen und/oder mittels eines oder mehrerer in dem Raum angeordneter Mikrofone, welche aufgenommene Schallsignale mit sprecherunabhängigen, für Sprache typischen Frequenzen bzw. Frequenzbereichen und/oder Lauten vergleichen. Es sein darauf hingewiesen, dass das Erkennen nicht zwingend bereits eine Identifikation des Sprechers umfasst. Es kommt zunächst darauf an, dass erkannt wird, dass ein sich im Raum befindendes Individuum spricht.
Sofern einem das Verfahren ausführenden System das oder in dem Raum befindlichen Individuen bekannt sind können anstelle der sprecherunabhängigen Kriterien zur Erkennung eines sprechenden Individuums für das oder die in dem Raum befindlichen Individuen spezifische Kriterien genutzt werden, wodurch die Erkennungsgenauigkeit weiter gesteigert werden kann.
Nachdem ein aktiver Sprecher bzw. Sprache erkannt wurde wird der Sprecher, d.h. das sprechende Individuum, identifiziert. Identifizieren bedeutet in diesem Kontext, dass ein zu dem sprechenden Individuum zugehöriger Datensatz abgerufen werden kann, welcher zumindest die für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereiche umfasst. Eine weitergehende Identifikation im klassischen Sinne, also bspw. die Zuordnung eines Namens und dergleichen ist nicht erforderlich. Das Identifizieren des Individuums kann mittels eines Vergleichs der von mindestens einem in dem Raum angeordneten Mikrofon aufgenommenen Sprache mit aus einem Speicher bezogenen Sprachprofilen von Individuen erfolgen. Vorzugsweise werden dabei nur Sprachprofile von Individuen bezogen, von denen bekannt ist, dass sie sich in dem Raum aufhalten, bspw. weil sie zuvor bereits einmal in dem Raum waren, oder weil deren Präsenz einem das Verfahren ausführenden System auf anderem Wege mitgeteilt wurde, bspw. durch einen Kalendereintrag. Andere Wege zur Feststellung der Anwesenheit von Individuen können auch die Auswertung drahtloser Kommunikation von Geräten umfassen, welche die Individuen bei sich tragen und welche diesen zugeordnet sind, bspw. von Mobiltelefonen, welche sich mit Kommunikationsnetzen verbinden, welche dem Raum zuordenbar sind.
Das Identifizieren des aktiv sprechenden Individuums kann auch in grundsätzlich bekannter Weise mittels eines Vergleichs eines von einer in dem Raum angeordneten Kamera aufgenommenen Gesichts mit aus einer Datenbank abgerufenen Gesichtern erfolgen, bspw. aus Datensätzen, welche Stimmfrequenzprofile und/oder für die Sprachverständlichkeit relevante Frequenzen bzw. Frequenzbereiche sowie beim Sprechen typische Gesichtsbewegungen beinhalten.
Falls die Position von Individuen in dem Raum im Wesentlichen unveränderlich ist, bspw. bei Fahrzeuginsassen, welche sich in der Regel über einen längeren Zeitraum an derselben Stelle im Raum befinden, und falls die Identität der Individuen in dem Raum bekannt ist, bspw. nach einer zuvor bereits erfolgten Bestimmung, kann die Identifikation des Sprechers schon dadurch erfolgen, dass an der Position eines Sprechers Sprache erkannt wird. Die Positionserkennung kann leicht auf bekannte Weise aus einem Kamerabild erfolgen, in welchem nach für ein Individuum typische Gesichtsbewegungen beim Sprechen gesucht wird, und/oder über eine Analyse des Schallpegels und/oder der Phasenlage des Schalls mittels einer mindestens zwei Mikrofone umfassenden Mikrofonanordnung.
In einer oder mehreren Ausgestaltungen können bei der Erkennung eines aktiven Sprechers bzw. von Sprache und/oder bei der Identifikation des sprechenden Individuums neben der Auswertung von Kamerabildern und/oder der Auswertung von durch ein oder mehrere Mikrofone aufgenommener Töne zusätzliche von in dem Raum angeordneten Sensoren bereitgestellte Signale genutzt werden, bspw. um die Auswertung zu beschleunigen. Diese zusätzlichen Signale können bspw. Signale einer Sitzbelegungserkennung eines Fahrzeugs sein, welche unter anderem zur Steuerung von Airbags oder für Gurtwarner genutzt werden. Die Auswertung kann dann die Bereiche, von denen bekannt ist, dass sich dort keine Person aufhält, aussparen, so dass eine Falscherkennung in diesen Bereichen ausgeschlossen werden kann.
Wenn der Sprecher identifiziert ist, wird mindestens eine Vorrichtung zur Beschallung des Raums derart beeinflusst, dass der Pegel von dieser Vorrichtung in den Raum abgestrahlten Schalls in Frequenzen oder Frequenzbereichen, welche mit den für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen des Sprechers übereinstimmen oder an diese angrenzen verringert wird.
Bei einer oder mehreren Ausgestaltungen des Verfahrens ist in dem Raum eine Vorrichtung zur aktiven Geräuschverminderung vorgesehen. Solche Vorrichtungen nehmen mittels Mikrofonen Geräusche in einer Umgebung auf und erzeugen selbst entsprechende Geräusche, welche an mindestens einem Ort oder Bereich im Raum eine zumindest in etwa gleiche Amplitude, jedoch eine um 180° gedrehte Phase aufweisen. Die an dem mindestens einen Ort oder Bereich im Raum in etwa in gleicher Amplitude vorliegenden Schallwellen löschen sich durch destruktive Interferenz vollständig oder zumindest weitgehend aus. Je nach Frequenz des Geräusches und nach Auslegung der Vorrichtung kann eine signifikante Verringerung von Geräuschen an mehreren Orten oder Bereichen im Raum erzielt werden. Entsprechend umfasst das Verfahren zusätzlich das Beeinflussen mindestens einer Vorrichtung zur Beschallung des Raums oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums derart, dass der wahrnehmbare Pegel in den Raum hinein übertragenen Schalls durch destruktive Interferenz oder Dämpfung insbesondere in den Frequenzen bzw. Frequenzbereichen verringert wird, welche für die Sprachverständlichkeit des Sprechers relevant sind, oder an diese angrenzen. Die Verringerung des Schalls durch destruktive Interferenz oder Dämpfung in bzw. bei den für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen kann zulasten der Verringerung bei anderen Frequenzen bzw. in anderen Frequenzbereichen gehen. Die mindestens eine Vorrichtung zur Beschallung des Raums und/oder die mindestens eine Vorrichtung von akustischen Merkmalen oder Parametern des Raums, durch welche letztlich eine Verringerung des Pegels in den Raum hinein übertragenen Schalls bewirkt wird, kann bspw. Lautsprecher bekannter Bauart umfassen, welche Schall in den Raum abstrahlen, oder Aktuatoren, welche Teile der Raumstruktur oder von Raumverkleidungen dazu konfigurieren oder anregen, Schall abzustrahlen oder Schallwellen zu dämpfen.
Für die Beeinflussung der mindestens einen Vorrichtung kann ein zu dem identifizierten sprechenden Individuum gehörender Datensatz bezogen werden, welcher zumindest die für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereiche umfasst. Der Datensatz kann, wie bereits zuvor erwähnt, von einem Speichermedium bezogen werden, welches sich in dem Raum befindet oder diesem zugeordnet ist, oder von einer von dem Raum entfernt angeordneten Datenbank. Das Beziehen des Datensatzes kann vorzugsweise drahtlos erfolgen, und zumindest Teile des Datensatzes können zumindest vorübergehend in der mindestens einen Vorrichtung gespeichert werden.
Die Verringerung des wahrnehmbaren Schalls bei den für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen führt in vorteilhafter Weise dazu, dass die Gefahr einer Maskierung dieser Frequenzen bzw. Frequenzbereiche durch Fremdschall verringert bzw. vollständig ausgeschlossen wird, so dass mitfahrende Individuen oder über eine Sprachkommunikationsverbindung zuhörende Individuen das Gesprochene besser verstehen können.
Erfindungsgemäß wird die mindestens eine Vorrichtung zur Beschallung des Raums so beeinflusst, dass die Verringerung des Pegels des von dieser Vorrichtung abgestrahlten Schalls insbesondere an den Orten im Raum erfolgt, an denen sich mögliche Zuhörer befinden. Gleiches gilt für die Verringerung des in den Raum hinein übertragenen Schalls durch destruktive Interferenz. Die Erkennung von Orten im Raum, an denen sich mögliche Zuhörer befinden kann bspw. mittels Auswertung von Kamerabildern erfolgen. In einem Fahrzeuginnenraum kann dies auch durch Auswertung von Signalen einer Sitzbelegungserkennung erfolgen.
Bei einer oder mehreren Ausgestaltungen des Verfahrens erfolgt zusätzlich zu der Verringerung des nicht von der Sprache stammenden Schalls eine laufzeitverzögerte und/oder phasenrichtige Wiedergabe der durch mindestens ein Mikrofon aufgenommenen Sprache in dem Raum über mindestens eine in dem Raum angeordnete Vorrichtung zur Beschallung. Die Wiedergabe kann vorzugsweise insbesondere an einem oder mehreren Bereichen des Raums erfolgen, in denen sich mögliche Zuhörer befinden. Mögliche Zuhörer können bspw. durch die Analyse von Kamerabildern lokalisiert werden, oder mittels zusätzlicher Signale von in dem Raum angeordneten Sensoren, bspw. Sitzbelegungserkennungssignale in Fahrzeugen. Bei der Sprachwiedergabe kann der Pegel in den für die Sprachverständlichkeit relevanten Frequenzen oder Frequenzbereichen angehoben sein. Diese Ausgestaltungen können die Verbesserung der Sprachverständlichkeit auch in solchen Umgebungen erzielen, in denen passive schalldämmende Vorrichtungen, bspw. Verkleidungen und dergleichen, für die Sprachverständlichkeit relevante Frequenzen bzw. Frequenzbereiche besonders dämpfen.
Eine Vorrichtung zur Verbesserung der Sprachverständlichkeit in einem Raum umfasst neben einer Erkennungsvorrichtung, welche zur Erkennung eines aktiven Sprechers bzw. von Sprache eingerichtet ist, eine Identifizierungsvorrichtung, welche zur Identifizierung eines aktiven Sprechers eingerichtet ist, und mindestens eine Vorrichtung zur Beschallung und/oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums. Die erfindungsgemäße Vorrichtung zur Verbesserung der Sprachverständlichkeit umfasst ferner eine Steuervorrichtung, welche die mindestens eine Vorrichtung zur Beschallung und/oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums so ansteuert, dass der Pegel von dieser Vorrichtung in den Raum abgestrahlten Schalls in Frequenzen oder Frequenzbereichen, welche mit den für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen des Sprechers übereinstimmen oder an diese angrenzen verringert wird und/oder dass in den Raum hinein übertragener Schall in den für die Sprachverständlichkeit des Sprechers relevanten Frequenzen oder Frequenzbereichen oder an diese angrenzende Frequenzen oder Frequenzbereiche verringert wird.
Die Erkennungsvorrichtung und/oder die Identifizierungsvorrichtung können eine oder mehrere Kameras und/oder Mikrofone umfassen, deren Signale einem Computer zugeführt sind. Der Computer kann zugleich die Steuervorrichtung implementieren. Die Beschallungsvorrichtung und/oder die Vorrichtung zur Veränderung von akustischen Merkmalen oder Parametern des Raums kann Lautsprecher mit entsprechenden Verstärkern umfassen, aber auch dem Raum zugeordnete oder darin angeordnete Vorrichtungen, mittels derer eine Dämpfung von Schall bei verschiedenen Frequenzen bzw. in verschiedenen Frequenzbereichen aktiv einstellbar ist. Der Computer führt ein Computerprogramm aus, das den Computer dazu veranlasst, eine oder mehrere Ausgestaltungen und Weiterentwicklungen des vorstehend beschriebenen Verfahrens auszuführen.
Entsprechend enthält ein erfindungsgemäßes Computerprogrammprodukt Befehle, die bei der Ausführung durch einen Computer diesen dazu veranlassen, eine oder mehrere Ausgestaltungen und Weiterentwicklungen des vorstehend beschriebenen Verfahrens ausführen.
Das Computerprogrammprodukt kann auf einem computerlesbaren Medium bzw. Datenträger gespeichert sein. Das Medium bzw. der Datenträger kann physisch verkörpert sein, bspw. als Festplatte, CD, DVD, Flash-Speicher oder dergleichen, das Medium bzw. der Datenträger kann aber auch ein moduliertes elektrisches, elektromagnetisches oder optisches Signal umfassen, das von einem Computer mittels eines entsprechenden Empfängers empfangen und in dem Speicher des Computers gespeichert werden kann.
KURZE BESCHREIBUNG DER ZEICHNUNG
Im Folgenden wird die Erfindung mit Bezug auf die Zeichnung näher erläutert. In der Zeichnung zeigt

1 eine Darstellung des Hörbereichs des menschlichen Gehörs mit einem Ton, der durch einen maskierenden Ton verdeckt und daher für Menschen nicht mehr wahrnehmbar ist,
2 ein vereinfachtes schematisches Flussdiagramm des erfindungsgemäßen Verfahrens,
3 a) eine beispielhafte Darstellung eines Stimmfrequenzprofils eines Individuums mit für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen,
3 b) die Darstellung des Stimmfrequenzprofils aus 3 a) mit einem überlagerten Frequenzprofil eines beispielhaften Störgeräusches,
3 c) eine exemplarische Darstellung der Wirkung der Erfindung auf das in 3 b) dargestellte Frequenzprofil des Störgeräusches, und
4 ein beispielhaftes und schematisches Blockschaltbild einer erfindungsgemäßen Vorrichtung zur Verbesserung der Sprachverständlichkeit in einem Raum.

Gleiche oder ähnliche Elemente sind in den Figuren mit den gleichen Bezugszeichen versehen.
1 wurde bereits weiter oben beschrieben und wird daher an dieser Stelle nicht erneut besprochen.
BESCHREIBUNG VON AUSFÜHRUNSGBEISPIELEN
2 zeigt ein vereinfachtes schematisches Flussdiagramm des erfindungsgemäßen Verfahrens 100 zur Verbesserung der Sprachverständlichkeit in einem Raum. In Schritt 110 wird zunächst ein aktiver Sprecher bzw. Sprache in dem Raum erkannt, d.h., es wird festgestellt, dass ein sich in dem Raum befindendes Individuum spricht. Das Erkennen eines aktiven Sprechers bzw. von Sprache kann bspw. das Erkennen von für menschliche Sprache typischen Frequenzen und/oder Lauten mittels mindestens eines Mikrofons in dem Raum und/oder das Erkennen von für Sprache typischen Gesichtsbewegungen von Personen mittels einer oder mehrerer den Raum erfassender Kameras umfassen.
Anschließend wird in Schritt 120 der Sprecher identifiziert, d.h., es wird die Identität des sprechenden Individuums zumindest insoweit festgestellt, dass ein zu dem sprechenden Individuum zugehöriger Datensatz abgerufen werden kann, welcher zumindest die für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereiche umfasst. Das Identifizieren kann bspw. das Vergleichen der von dem mindestens einen Mikrofon aufgenommenen Sprache mit aus einem Speicher bezogenen Sprachprofilen von Personen und/oder das Vergleichen von Gesichtern mit in einem Speicher gespeicherten Repräsentationen von Gesichtern, zu welchen Stimmprofile gespeichert sind, umfassen.
Schließlich wird in Schritt 130 mindestens eine Vorrichtung zur Beschallung des Raums derart beeinflusst, dass der Pegel von dieser Vorrichtung in den Raum abgestrahlten Schalls in Frequenzen oder Frequenzbereichen, welche mit den für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen des Sprechers übereinstimmen oder an diese angrenzen verringert wird. Zusätzlich wird mindestens eine Vorrichtung zur Beschallung des Raums derart beeinflusst, dass von mindestens einer Vorrichtung zur Verringerung von Schall durch destruktive Interferenz ein in den Raum hinein übertragener Schall in den für die Sprachverständlichkeit des Sprechers relevanten Frequenzen oder Frequenzbereichen oder an diese angrenzende Frequenzen oder Frequenzbereiche verringert wird.
3 a) zeigt eine beispielhafte Darstellung eines Stimmfrequenzprofils eines Individuums als Amplitudenverlauf über die Frequenz. Die für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereiche A, B und C sind deutlich erkennbar und weisen gegenüber den übrigen Frequenzen höhere Amplituden auf.
3 b) zeigt die Darstellung des Stimmfrequenzprofils aus 3 a) mit einem überlagerten Frequenzprofil eines beispielhaften Störgeräusches. Das Störgeräusch ist als fett gestrichelte Linie dargestellt. Für eine gute Sprachverständlichkeit muss der Pegel der Sprache um einen Mindestwert über dem von Störgeräuschen liegen, bspw. 9 dB. In der Figur ist der Mindestabstand bei den für die Sprachverständlichkeit relevanten Frequenzen bzw. Frequenzbereichen jeweils mit den gestrichelten Δm in Störabstandsgrenzen eingezeichnet. Es ist klar erkennbar, dass der Mindestabstand zwischen Störgeräusch und Sprache in dem mit B bezeichneten Frequenzbereich nicht eingehalten ist. Vielmehr wird dieser Frequenzbereich nahezu vollständig von dem Störgeräusch verdeckt.
3 c) zeigt eine exemplarische Darstellung der Wirkung der Erfindung auf das in 3 b) dargestellte Frequenzprofil des Störgeräusches. Während in den Frequenzbereichen A und C der Pegel der Sprache einen ausreichenden Abstand zu dem Störgeräusch aufweist, so dass hier kein Eingriff notwendig war, ist durch aktive Beeinflussung der Quelle des Störgeräuschs bzw. durch aktive Verringerung des Störgeräuschs in dem Frequenzbereich B sowie in den daneben liegenden, schraffierten Frequenzbereichen der Pegel des Störgeräuschs reduziert worden, so dass der Pegel der Sprache nun einen ausreichenden Abstand zum Pegel des Störgeräuschs aufweist. Die Reduzierung des Pegels des Störgeräuschs auch in den schraffierten Bereichen dient dazu, mögliche Maskierungseffekte durch nahe an dem relevanten Frequenzbereich liegenden Störfrequenzen auszuschließen. Zur Verdeutlichung der Wirkung ist der ursprüngliche Pegel des Störgeräuschs als gepunktete Linie in der Figur dargestellt.
4 zeigt ein beispielhaftes und schematisches Blockschaltbild einer erfindungsgemäßen Vorrichtung 200 zur Verbesserung der Sprachverständlichkeit in einem Raum. Eine Erkennungsvorrichtung 202, eine Identifizierungsvorrichtung 204, eine Vorrichtung 208 zur Beschallung und/oder zur Veränderung von akustischen Merkmalen oder Parametern eines Raums sowie eine Steuervorrichtung 206 sind über einen oder mehrere Daten- oder Steuerungsleitungen oder -busse 210 miteinander verbunden. Die Erkennungsvorrichtung 202, die Identifizierungsvorrichtung 204 und die Steuervorrichtung 206 können ein oder mehrere ihrer Komponenten gemeinsam nutzen, wie in der Figur durch den gestrichelten Kasten angedeutet ist.
Die vorstehend beschriebene Erfindung ermöglicht es, die Sprachverständlichkeit in einem Raum sprecherspezifisch zu verbessern, unabhängig davon, ob sich zwei oder mehr Individuen in dem Raum befinden und miteinander sprechen, oder ob ein sich in dem Raum befindliches Individuum telefoniert oder eine Konversation mit einer Sprachsteuerung einer Vorrichtung „unterhält“. Dabei können bewusst zur Beschallung des Raumes eingesetzte Beschallungsvorrichtungen weitgehend weiterbetrieben werden, bspw. eine Audioanlage oder dergleichen. Ebenso können bewusst zur Senkung des Pegels von in den Raum eindringenden Geräuschen eingesetzte Vorrichtungen so weiterbetrieben werden, dass deren Wirkung während einer Konversation nicht stört, aber dennoch allgemein eine Senkung des Pegels von Geräuschen erzielt wird.
LISTE DER BEZUGSZEICHEN (Teil der Beschreibung)

100: Verfahren
110: Sprechererkennung
120: Sprecheridentifikation
130: Beeinflussung der Raumakustik
200: Vorrichtung
202: Erkennungsvorrichtung
204: Identifizierungsvorrichtung
206: Steuervorrichtung
208: Vorrichtung zur Beschallung eines Raumes
210: Daten-/Steuerleitungen bzw. -busse
A... C: für die Sprachverständlichkeit relevante Frequenzen bzw. Frequenzbereiche

Claims

Verfahren (100) zur Verbesserung der Sprachverständlichkeit in einem Raum, umfassend: - Erkennen (110) eines aktiven Sprechers oder von Sprache, - Identifizieren (120) des aktiven Sprechers, - Beeinflussen (130) mindestens einer Vorrichtung zur Beschallung des Raums derart, dass der Pegel von dieser Vorrichtung in den Raum abgestrahlten Schalls in Frequenzen oder Frequenzbereichen, welche mit den für die Sprachverständlichkeit relevanten Frequenzen oder Frequenzbereichen des Sprechers übereinstimmen oder an diese angrenzen verringert wird, und/oder Beeinflussen mindestens einer Vorrichtung zur Beschallung oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums derart, dass von dieser Vorrichtung der Pegel in den Raum hinein übertragenen Schalls in den für die Sprachverständlichkeit des Sprechers relevanten Frequenzen oder Frequenzbereichen oder an diese angrenzende Frequenzen oder Frequenzbereiche durch destruktive Interferenz oder Dämpfung verringert wird, dadurch gekennzeichnet, dass die mindestens eine Vorrichtung zur Beschallung des Raums so beeinflusst wird, dass die Verringerung des Pegels des von dieser Vorrichtung abgestrahlten Schalls und/oder die Verringerung von Schall durch destruktive Interferenz an den Orten im Raum erfolgt, an denen sich mögliche Zuhörer befinden.
Verfahren nach Anspruch 1, wobei das Erkennen (110) eines aktiven Sprechers umfasst: - Erkennen von für menschliche Sprache typischen Frequenzen und/oder Lauten mittels mindestens eines Mikrofons in dem Raum, und/oder - Erkennen von für Sprache typischen Gesichtsbewegungen von Personen mittels einer oder mehrerer den Raum erfassender Kameras.
Verfahren nach Anspruch 1 oder 2, wobei das Identifizieren (120) des Sprechers umfasst: - Vergleichen der von mindestens einem in dem Raum angeordneten Mikrofon aufgenommenen Sprache mit aus einem Speicher bezogenen Sprachprofilen von Personen, und/oder - Vergleichen eines von einer in dem Raum angeordneten Kamera aufgenommenen Gesichts mit in einem Speicher gespeicherten Repräsentationen von Gesichtern, zu welchen Stimmprofile gespeichert sind.
Verfahren nach einem der vorhergehenden Ansprüche, wobei bei der Erkennung eines aktiven Sprechers oder von Sprache und/oder bei der Identifikation des sprechenden Individuums neben der Auswertung von Kamerabildern und/oder der Auswertung von durch ein oder mehrere Mikrofone aufgenommener Töne zusätzliche von in dem Raum angeordneten Sensoren bereitgestellte Signale genutzt werden.
Verfahren nach einem der vorhergehenden Ansprüche, außerdem umfassend: - laufzeitverzögertes und/oder phasenrichtiges Wiedergeben der von mindestens einem Mikrofon aufgenommenen Sprache in dem Raum über eine in dem Raum angeordnete Vorrichtung zur Beschallung.
Verfahren nach Anspruch 5, wobei die Wiedergabe der Sprache in dem Raum in einem oder mehreren Bereichen des Raums erfolgt, in denen sich mögliche Zuhörer befinden.
Verfahren nach einem der vorhergehenden Ansprüche, außerdem umfassend: - Bestimmen eines Stimmfrequenzprofils eines Sprechers, - Ermitteln von für die Sprachverständlichkeit des Sprechers wichtigen Frequenzen oder Frequenzbereichen, - Bestimmen von zur Identifizierung des Sprechers geeigneten Merkmalen des Gesichts des Sprechers sowie von typischen Gesichtsbewegungen des Sprechers beim Sprechen, und - Speichern des ermittelten Stimmfrequenzprofils und/oder von für die Sprachverständlichkeit des Sprechers wichtigen Frequenzen oder Frequenzbereichen sowie der von zur Identifizierung des Sprechers geeigneten Merkmale des Gesichts des Sprechers sowie der typischen Gesichtsbewegungen des Sprechers beim Sprechen in einem Speicher, auf welchen von einer in dem Raum angeordneten oder diesem zugeordneten Vorrichtung zur Verbesserung der Sprachverständlichkeit in dem Raum zugegriffen werden kann.
Vorrichtung (200) zur Verbesserung der Sprachverständlichkeit in einem Raum umfassend eine Erkennungsvorrichtung (202), welche zur Erkennung eines aktiven Sprechers oder von Sprache eingerichtet ist, eine Identifizierungsvorrichtung (204), welche zur Identifizierung eines aktiven Sprechers eingerichtet ist, mindestens eine Vorrichtung (208) zur Beschallung und/oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums, und eine Steuervorrichtung (206), welche die mindestens eine Vorrichtung zur Beschallung und/oder zur Veränderung von akustischen Merkmalen oder Parametern des Raums so ansteuert, dass der Pegel von dieser Vorrichtung in den Raum abgestrahlten Schalls in Frequenzen oder Frequenzbereichen, welche mit den für die Sprachverständlichkeit relevanten Frequenzen oder Frequenzbereichen des Sprechers übereinstimmen oder an diese angrenzen verringert wird und/oder dass in den Raum hinein übertragener Schall in den für die Sprachverständlichkeit des Sprechers relevanten Frequenzen oder Frequenzbereichen oder an diese angrenzende Frequenzen oder Frequenzbereiche verringert wird, dadurch gekennzeichnet, dass die mindestens eine Vorrichtung zur Beschallung des Raums so beeinflusst wird, dass die Verringerung des Pegels des von dieser Vorrichtung abgestrahlten Schalls und/oder die Verringerung von Schall durch destruktive Interferenz an den Orten im Raum erfolgt, an denen sich mögliche Zuhörer befinden.
Fahrzeug, insbesondere Kraftfahrzeug, mit einem Innenraum, in welchem sich Personen aufhalten können, mit einer Vorrichtung nach Anspruch 8.
Computerprogrammprodukt umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren nach einem oder mehreren der Ansprüche 1 bis 7 auszuführen.
Computerlesbares Medium, auf dem das Computerprogrammprodukt nach Anspruch 10 gespeichert ist.