DE60212528T2

DE60212528T2 - Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung

Info

Publication number: DE60212528T2
Application number: DE60212528T
Authority: DE
Inventors: Franck Dunrobin Ontario Beaucoup; Michael Ottawa Ontario Tetelbaum
Original assignee: Mitel Networks Corp
Current assignee: Mitel Networks Corp
Priority date: 2001-08-21
Filing date: 2002-08-19
Publication date: 2007-01-18
Anticipated expiration: 2022-08-20
Also published as: EP1286328A3; CA2397826A1; GB2379148A; US20030053639A1; DE60212528D1; EP1286328B1; GB0120322D0; EP1286328A2

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft allgemein Audiosysteme und insbesondere ein Verfahren zur Verbesserung der Nahfeld-Sprachaktivitätserkennung in einem Sprecher-Lokalisierungssystem, das Strahlformungstechnologie nutzt, und einen Sprachaktivitätsdetektor für ein Sprecher-Lokalisierungssystem.
HINTERGRUND DER ERFINDUNG
Die Lokalisierung von Audioquellen ist in vielen Anwendungen erforderlich, wie etwa bei Telekonferenzen, wo die Position der Audioquelle verwendet wird, um ein Mikrofon hoher Qualität auf den Sprechenden zu richten. In Videokonferenzsystemen kann die Position der Audioquelle außerdem verwendet werden, um eine Kamera auf den Sprechenden zu richten.
Es ist bekannt, daß elektronisch richtbare Anordnungen von Mikrofonen in Kombination mit Standortschätzer-Algorithmen verwendet werden, um den Standort eines Sprechenden in einem Raum genau zu bestimmen. Dabei sind komplizierte Strahlformer hoher Qualität verwendet worden, um die Leistung an unterschiedlichen Positionen zu messen. Es sind Versuche unternommen worden, das Leistungsvermögen von Strahlformern nach dem Stand der Technik durch Verbesserung der akustischen Hörbarkeit unter Verwendung von Filtern und so weiter zu erhöhen. Die vorhergehenden Methoden nach dem Stand der Technik sind in Speaker localization using a steered Filter and sum Beamformer, N. Strobel, T. Meier, R. Rabenstein, vorgestellt auf dem "Erlangen Workshop 99, Vision, Modeling and Visualization", 17.–19. November 1999, Erlangen, Deutschland, beschrieben.
Die Lokalisierung von Audioquellen steckt voller praktischer Schwierigkeiten. Erstens erzeugen reflektierende Wände (oder andere Objekte) virtuelle akustische Bilder von Audioquellen, die durch die Standortschätzer-Algorithmen als reale Audioquellen mißdeutet werden können. Zweitens sind die meisten bekannten Standortschätzer-Algorithmen außerstande, zwischen Geräuschquellen und Sprechenden zu unterscheiden, vor allem in Gegenwart von korreliertem Rauschen und in Sprechpausen.
Sprachaktivitätsdetektoren, die Sprachaktivitätsdetektor-(VAD-)Algorithmen ausführen, sind verwendet worden, um die Audioquellen-Lokalisierung in Sprechpausen auszusetzen, so daß die Standortschätzer-Algorithmen die Mikrofone nicht infolge von Schwankungen im Umgebungsgeräusch in die falsche Richtung richten. Das trägt natürlich dazu bei, das Auftreten von inkorrekter Sprecherlokalisierung infolge von Echos oder Geräuschen zu verringern.
Ein bekannter Sprachaktivitätsdetektor nach dem Stand der Technik führt einen einzelnen VAD-Algorithmus aus, in den das Ausgangssignal eines ausgewählten Mikrofons oder einer Teilanordnung von Mikrofonen in der Anordnung eingespeist wird. Die Auswahl des Mikrofons oder der Teilanordnung von Mikrofonen, das bzw. die in den VAD-Algorithmus einspeist, kann feststehend oder zufällig sein oder auf der Eignung des Mikrofons oder der Teilanordnung von Mikrofonen für den VAD-Algorithmus beruhen. Das Ausgangssignal des VAD-Algorithmus wird dann verarbeitet, um ein Sprechzustand/Sprechpause-Entscheidungslogik-Ausgangssignal zu erzeugen.
Ein anderer Sprachaktivitätsdetektor nach dem Stand der Technik führt mehrere Instanzen des gleichen VAD-Algorithmus parallel aus. Jeder VAD-Algorithmus empfängt das Ausgangssignal von einem jeweiligen der Mikrofone oder Teilanordnungen von Mikrofonen in der Anordnung. Die Ausgangssignale des VAD-Algorithmus werden kombiniert, und eine Entscheidungslogik wird verwendet, um ein Sprechzustand/Sprechpause-Entscheidungslogik-Ausgangssignal zu erzeugen.
Das Leistungsvermögen des/der durch den Sprachaktivitätsdetektor ausgeführten VAD-Algorithmus bzw. -Algorithmen beeinflußt das Leistungsvermögen des Sprecher-Lokalisierungssystems erheblich, sowohl in bezug auf die Reaktionsschnelligkeit als auch in bezug auf die Beständigkeit gegen Umgebungsgeräusche. Infolgedessen sind Methoden erwünscht, um die Sprachaktivitätserkennung zu verbessern.
Es ist daher eine Aufgabe der vorliegenden Erfindung, ein neuartiges Verfahren zur Verbesserung der Nahfeld-Sprachaktivitätserkennung in einem Sprecher-Lokalisierungssystem, das Strahlformungstechnologie nutzt, und einen neuartigen Sprachaktivitätsdetektor für ein Sprecher-Lokalisierungssystem bereitzustellen.
ZUSAMMENFASSUNG DER ERFINDUNG
Dementsprechend wird unter einem Aspekt der vorliegenden Erfindung ein Verfahren zur Erkennung von Sprachaktivität bereitgestellt, wie in Anspruch 1 ausgeführt.
In einer Ausführungsform beruht das Erbringen nur auf dem Ausgangssignal der Sprachaktivitäts-Erkennungsalgorithmen. In einer weiteren Ausführungsform beruht das Erbringen sowohl auf dem Ausgangssignal der Sprachaktivitäts-Erkennungsalgorithmen als auch auf dem Ausgangssignal der Strahlformungsalgorithmen. In diesem letzteren Fall kann das Erbringen auf einem ausgewählten der Sprachaktivitäts-Erkennungsalgorithmen beruhen. Der ausgewählte Sprachaktivitäts-Erkennungsalgorithmus ist dem Strahlformungsalgorithmus zugeordnet, der Audioleistungssignale ausgibt, die die lautesten Audiosignale darstellen.
Unter einem weiteren Aspekt der Erfindung wird ein Sprachaktivitätsdetektor bereitgestellt, wie in Anspruch 6 ausgeführt.
Die Strahlformer dämpfen den Nachhall und das Umgebungsgeräusch in den Audiosignalen, um dadurch deren Signal-Rausch-Verhältnis zu verbessern. Vorzugsweise empfangen die Strahlformer die Audiosignale von ungerichteten Schallaufnehmern. Die ungerichteten Schallaufnehmer können ungerichtete Mikrofon-Teilanordnungen oder individuelle ungerichtete Mikrofone sein.
Die vorliegende Erfindung bietet insofern Vorteile, als das Leistungsvermögen des Sprachaktivitätsdetektors erhöht wird, wodurch das Auftreten von inkorrekter Sprecherlokalisierung infolge von Echos oder Geräuschen verringert wird. Das ist auf die Tatsache zurückzuführen, daß jede Instanz des durch den Sprachaktivitätsdetektor ausgeführten VAD-Algorithmus das Ausgangssignal eines Strahlformers empfängt, der eingegebene Audiosignale verarbeitet hat. Die Richtwirkung der Strahlformer dämpft den Nachhall und das Umgebungsgeräusch in den Audiosignalen. Somit haben Signale, die in die VAD-Algorithmen eingespeist werden, ein besseres Signal-Rausch-Verhältnis (SNR).
KURZBESCHREIBUNG DER ZEICHNUNGEN
Ausführungsformen der vorliegenden Erfindung werden nunmehr mit Bezug auf die beigefügten Zeichnungen umfassender beschrieben, wobei diese folgendes darstellen:
1 ist ein schematisches Blockschaltbild eines Sprecher-Lokalisierungssystems, das Strahlformungstechnologie nutzt und einen Sprachaktivitätsdetektor gemäß der vorliegenden Erfindung aufweist;
2 ist ein schematisches Blockschaltbild des in 1 gezeigten Sprachaktivitätsdetektors;
3 ist eine Zustandsmaschine der Entscheidungslogik, die Teil des Sprachaktivitätsdetektors von 2 ist;
4 ist eine Zustandsmaschine der Entscheidungslogik, die Teil des Sprecher-Lokalisierungssystems von 1 ist; und
5 ist eine Zustandsmaschine einer alternativen Ausführungsform der Entscheidungslogik, die Teil des Sprachaktivitätsdetektors von 2 ist.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Die vorliegende Erfindung betrifft allgemein ein Verfahren zur Erkennung von Sprachaktivität und einen Sprachaktivitätsdetektor. Audiosignale, die auf einer Vielzahl von Kanälen empfangen werden, werden verarbeitet, um ihr Signal-Rausch-Verhältnis zu verbessern. Die verarbeiteten Signale werden dann in zugeordnete Sprachaktivitäts-Erkennungsalgorithmen eingespeist und durch die Sprachaktivitäts-Erkennungsalgorithmen weiterverarbeitet. Dann wird auf der Grundlage mindestens des Ausgangssignals der Sprachaktivitäts-Erkennungsalgorithmen eine Sprechzustand/Sprechpause-Entscheidung erbracht.
Die vorliegende Erfindung ist zur Verwendung in grundsätzlich jeder Umgebung geeignet, wo es erwünscht ist, das Vorhandensein von Sprache in Audiosignalen zu erkennen, und mehrere Schallaufnehmer verfügbar sind. Ein Beispiel, wie die vorliegende Erfindung in ein Sprecher-Lokalisierungssystem einbezogen wird, wird nunmehr beschrieben.
Wendet man sich nun 1 zu, ist dort ein Sprecher-Lokalisierungssystem gezeigt und ist insgesamt durch das Bezugszeichen 90 bezeichnet. Wie zu sehen ist, weist das Sprecher-Lokalisierungssystem 90 folgendes auf: eine Anordnung 100 von ungerichteten Mikrofonen, einen Spektrum-Aufbereiter 110, einen Sprachaktivitätsdetektor 120, einen Schätzer 130, eine Entscheidungslogik 140 und eine gerichtete Vorrichtung 150, wie zum Beispiel einen Strahlformer, einen Bildverfolgungsalgorithmus oder ein anderes System.
Die ungerichteten Mikrofone in der Anordnung 100 sind in kreisförmigen Mikrofon-Teilanordnungen angeordnet, wobei die Mikrofone jeder Teilanordnung hunderte Segmente einer 360°-Anordnung abdecken. Die durch die kreisförmigen Mikrofon-Teilanordnungen der Anordnung 100 ausgegebenen Audiosignale werden in den Spektrum-Aufbereiter 110, den Sprachaktivitätsdetektor 120 und die gerichtete Vorrichtung 150 eingespeist.
Der Spektrum-Aufbereiter 110 filtert das Ausgangssignal jeder kreisförmigen Mikrofon-Teilanordnung getrennt, bevor das Ausgangssignal der kreisförmigen Mikrofon-Teilanordnungen in den Schätzer 130 eingegeben wird. Der Zweck der Filterung besteht darin, die durch den Schätzer 130 durchgeführte Prozedur auf ein schmales Frequenzband zu beschränken, das für das beste Leistungsvermögen des Schätzers 130 wie auch zur Unterdrückung von Geräuschquellen ausgewählt wird.
Der Schätzer 130 erzeugt Positionsschätzwerte erster Ordnung nach Segmentnummern, wie es Stand der Technik ist, und gibt die Positionsschätzwerte an die Entscheidungslogik 140 aus. Während des Betriebs des Schätzers 130 wird auf jede der Positionen eine Strahlformerinstanz "gerichtet" (das heißt, auf die verschiedenen Mikrofon-Ausgangsaudiosignale werden unterschiedliche Dämpfungs-Wichtungsfaktoren angewendet). Die Position mit dem stärksten Strahlformer-Ausgangssignal wird als die Audiosignalquelle festgelegt. Da die Strahlformerinstanzen nur für Energieberechnungen verwendet werden, ist die Qualität des Strahlformer-Ausgangssignals nicht besonders wichtig. Daher kann ein einfacher Strahlformungsalgorithmus wie zum Beispiel ein Verzögerungs- und Summen-Strahlformeralgorithmus verwendet werden, im Gegensatz zu den meisten Telekonferenz-Implementierungen, wo zur Messung der Leistung an jeder Position Strahlformer hoher Qualität verwendet werden, die Filter- und Summen-Strahlformeralgorithmen ausführen. Spezifische Einzelheiten des Spektrum-Aufbereiters 110 und des Schätzers 130 sind in der am 30. Juni 2000 eingereichten GB-Patentanmeldung Nr. 0016142 für eine Erfindung mit dem Titel "Method and Apparatus For Locating A Talker" beschrieben. Dementsprechend werden weitere Einzelheiten des Spektrumn-Aufbereiters 110 und des Schätzers 130 hierin nicht weiter beschrieben.
Der Sprachaktivitätsdetektor 120 bestimmt mit Sprache gefüllte Zeitsegmente, um in Sprechpausen die Sprecherlokalisierung auszusetzen. Wie in 2 zu sehen ist, weist der Sprachaktivitätsdetektor 120 eine Anordnung von Strahlformern 200 auf, die jeweils eine Instanz eines herkömmlichen Strahlformungsalgorithmus BA_N ausführen, wobei N die Anzahl der Strahlformer 200 in der Anordnung ist. Jeder Strahlformungsalgorithmus BA_N hat eine andere "Blickrichtung" entsprechend den Segmenten der Mikrofonanordnung 100. Jeder Strahlformungsalgorithmus BA_N verarbeitet die Audiosignale auf seinem Kanal, die von den kreisförmigen Mikrofon-Teilanordnungen M_N empfangen werden, um Audioleistungssignale zu erzeugen. Während dieser Verarbeitung werden Nachhall und Umgebungsgeräusche in den Audiosignalen gedämpft. Infolgedessen wird das Signal-Rausch-Verhältnis (SNR) der durch die kreisförmigen Mikrofon-Teilanordnungen M_N ausgegebenen Audiosignale verbessert.
Der Sprachaktivitätsdetektor 120 weist ferner eine Anordnung von Sprachaktivitätsdetektor-(VAD-)Modulen 202 auf, die jeweils eine Instanz eines VAD-Algorithmus VADA_N ausführen. Jedes VAD-Modul 202 empfängt das Ausgangssignal eines jeweiligen der Strahlformer 200. Da die Signale, die durch die VAD-Module 202 von den Strahlformern 200 empfangen werden, ein verbessertes SNR haben, wird das Leistungsvermögen der VAD-Algorithmen verbessert. Die Ausgangssignale der Strahlformer 200 und die Ausgangssignale der VAD-Module 202 werden an die Entscheidungslogik 204 übermittelt.
Die Entscheidungslogik 204 führt einen Entscheidungslogik-Algorithmus aus und erzeugt als Antwort auf die Ausgangssignale der VAD-Module 202 entweder ein "Sprechzustand"- oder ein "Sprechpause"-Entscheidungslogik-Ausgangssignal. 3 ist eine Zustandsmaschine, die den durch die Entscheidungslogik 204 ausgeführten Entscheidungslogik-Algorithmus zeigt. Wie zu sehen ist, werden die Ausgangssignale der Strahlformer 200 in dieser Ausführungsform verworfen. Die Ausgangssignale der VAD-Module 202 jedoch werden untersucht, um zu bestimmen, ob einer oder mehrere der VAD-Algorithmen ein Ausgangssignal erzeugt haben, das das Vorhandensein von Sprache bedeutet, die durch eine oder mehrere der kreisförmigen Mikrofon-Teilanordnungen aufgenommen wurde. Das durch die Entscheidungslogik 204 erzeugte Logik-Ausgangssignal wird an die Entscheidungslogik 140 übermittelt.
Die Entscheidungslogik 140 ist in 4 näher dargestellt, und wie zu sehen ist, ist die Entscheidungslogik eine Zustandsmaschine, die das Ausgangssignal des Sprachaktivitätsdetektors 120 verwendet, um die vom Schätzer 130 empfangenen Positionsschätzwerte zu filtern. Die Positionsschätzwerte, die durch die Entscheidungslogik 140 empfangen werden, wenn der Sprachaktivitätsdetektor 120 ein "Sprechpause"-Entscheidungslogik-Ausgangssignal erzeugt, das heißt während Pausen beim Sprechen, werden ignoriert (Schritte 300 und 320). Die Positionsschätzwerte, die durch die Entscheidungslogik 140 empfangen werden, wenn der Sprachaktivitätsdetektor 120 ein "Sprechzustand"-Entscheidungslogik-Ausgangssignal erzeugt, werden gespeichert (Schritt 310) und dann einem Überprüfungsprozeß unterzogen. Während des Überprüfungsprozesses wartet die Entscheidungslogik 140 darauf, daß der Schätzer 130 einen Rahmen beendet und seinen Positionsschätzwert bis zu einer Schwellwertzahl n von Wiederholungen wiederholt, einschließlich bis zu m < n Fehler.
Ein FIFO-Stapelspeicher 330 speichert die Positionsschätzwerte. Die Größe des Stapelspeichers und die Mindestzahl n der für die Überprüfung benötigten korrekten Positionsschätzwerte werden auf der Grundlage des Sprach-Leistungsvermögens des Sprachaktivitätsdetektors 120 und des Schätzers 130 gewählt. Jeder neue Positionsschätzwert, der durch den Sprachaktivitätsdetektor 120 als mit Sprache gefüllt festgelegt worden ist, wird an die Spitze des FIFO-Stapelspeichers 330 verschoben. Ein Zähler 340 zählt, wie oft in der Vergangenheit der letzte Positionsschätzwert innerhalb der Größenbeschränkung M des FIFO-Stapelspeichers 330 aufgetreten ist. Wenn der aktuelle Positionsschätzwert öfter als die Schwellwertzahl von Wiederholungen aufgetreten ist, wird der aktuelle Positionsschätzwert als richtig erkannt (Schritt 350), und das Schätzungs-Ausgangssignal wird aktualisiert (Schritt 360) und in einem Zwischenspeicher gespeichert (Schritt 380). Wenn der Zähler 340 den Schwellwert n nicht erreicht, bleibt die Zählerausgabe so, wie sie vorher war (Schritt 370). In Sprechpausen wird keine Überprüfung durchgeführt (Schritt 300), und statt des Positionsschätzwerts wird ein Wert von 0xFFFFF(xx) an die erste Stelle des FIFO-Stapelspeichers 330 verschoben. Die Zählerausgabe wird nicht verändert.
Das Ausgangssignal der Entscheidungslogik 140 ist ein als richtig erkannter endgültiger Positionsschätzwert, der dann durch die gerichtete Vorrichtung 150 verwendet wird. Wenn erwünscht, muß die Entscheidungslogik 140 nicht darauf warten, daß der Schätzer 130 Rahmen beendet. Die Entscheidungslogik 140 kann natürlich die für jeden Abtastwert erzeugten Ausgangssignale des Sprachaktivitätsdetektors 120 und des Schätzers 130 verarbeiten.
Wie man anerkennen wird, sorgt der Sprachaktivitätsdetektor 120 unabhängig von den durch die VAD-Module 202 ausgeführten VAD-Algorithmen für eine genauere Sprechzustand/Sprechpause-Bestimmung, und zwar aufgrund der Tatsache, daß die VAD-Algorithmen Signale mit verbessertem SNR verarbeiten. Das Maß, bis zu dem die Sprechzustand/Sprechpause-Bestimmung verbessert wird, hängt vom Maß der Richtwirkung der durch die Strahlformer 200 ausgeführten Strahlformungsalgorithmen ab.
Wendet man sich nunmehr 5 zu, so ist dort die Zustandsmaschine einer alternativen Ausführungsform eines durch die Entscheidungslogik 140 ausgeführten Entscheidungslogik-Algorithmus gezeigt. Wie zu sehen ist, werden in dieser Ausführungsform die Ausgangssignale der Strahlformer 200 untersucht, um den Strahlformer 200 zu bestimmen, der die lautesten Audiosignale empfängt. Das Ausgangssignal des VAD-Moduls 202, das das Ausgangssignal von dem bestimmten Strahlformer 200 empfängt, wird dann untersucht, um zu bestimmen, ob das Ausgangssignal Sprache in den Audiosignalen bedeutet.
Wenngleich spezifische Beispiele für Entscheidungslogik-Algorithmen beschrieben werden, wird der Fachmann anerkennen, daß andere Logik verwendet werden kann, um die Ausgangssignale der Strahlformer 200 und der VAD-Module 202 zu verarbeiten, um eine "Sprechzustand oder Sprechpause"-Bestimmung zu erbringen. Außerdem kann, wenngleich die Strahlformer 200 so beschrieben sind, daß sie Ausgangssignale von Audio-Schallaufnehmern in Form von kreisförmigen Mikrofon-Teilanordnungen empfangen, jeder Strahlformer 200 das Ausgangssignal von individuellen ungerichteten Mikrofonen empfangen. Ferner wird der Fachmann anerkennen, wenngleich der Sprachaktivitätsdetektor mit Bezug auf ein spezifisches Sprecher-Lokalisierungssystem gezeigt und beschrieben wird, daß der Sprachaktivitätsdetektor 120 in grundsätzlich jeder Umgebung verwendet werden kann, wo mehrere Schallaufnehmer verfügbar sind und es erwünscht ist, das Vorhandensein von Sprache in Audiosignalen zu erkennen.
Wenngleich bevorzugte Ausführungsformen der vorliegenden Erfindung beschrieben worden sind, wird der Fachmann anerkennen, daß Veränderungen und Modifikationen möglich sind, ohne von ihrem Schutzbereich abzuweichen, wie er in den beigefügten Ansprüchen definiert ist.

Claims

Verfahren zur Erkennung von Sprachaktivität mit den folgenden Schritten: Empfangen von Audiosignalen auf einer Vielzahl von Kanälen; Verarbeiten der Audiosignale auf den Kanälen, um ihr Signal-Rausch-Verhältnis zu verbessern, mit den folgenden Schritten: Einspeisen der Audiosignale auf mehreren Kanälen in Strahlformungsalgorithmen während der Verarbeitung, wobei jeder Strahlformungsalgorithmus einer anderen Sichtverbindungsrichtung zugeordnet ist; Einspeisen der verarbeiteten Audiosignale auf jedem Kanal in einen zugeordneten Sprachaktivitätserkennungsalgorithmus und Weiterverarbeiten der Audiosignale mit den Sprachaktivitätserkennungsalgorithmen; und Erbringen einer Sprechzustand/Sprechpause-Bestimmung auf der Grundlage mindestens des Ausgangssignals der Sprachaktivitätserkennungsalgorithmen.
Verfahren nach Anspruch 1, wobei das Erbringen nur auf dem Ausgangssignal der Sprachaktivitätserkennungsalgorithmen beruht.
Verfahren nach Anspruch 1, wobei das Erbringen sowohl auf dem Ausgangssignal der Sprachaktivitätserkennungsalgorithmen als auch auf dem Ergebnis der Strahlformungsalgorithmen beruht.
Verfahren nach Anspruch 3, wobei das Erbringen auf dem Ergebnis eines ausgewählten der Sprachaktivitätserkennungsalgorithmen beruht, wobei der eine ausgewählte Sprachaktivitätserkennungsalgorithmus dem Strahlformungsalgorithmus zugeordnet ist, der Leistungsinformationssignale ausgibt, welche die lautesten Audiosignale darstellen.
Verfahren nach einem der Ansprüche 1 bis 4, wobei die Audiosignale auf den Kanälen durch ungerichtete Schallaufnehmer empfangen werden.
Sprachaktivitätsdetektor (120) mit: einer Anordnung von Strahlformern (200), wobei jeder Strahlformer (200) in der Anordnung eine andere Sichtverbindungsrichtung hat und Audiosignale auf mehreren Kanälen empfängt, wobei jeder Strahlformer (200) die Audiosignale verarbeitet, um deren Signal-Rausch-Verhältnis zu verbessern; einer Anordnung von Sprachaktivitätsdetektormodulen (202), wobei jedes Sprachaktivitätsdetektormodul (202) einem jeweiligen der Strahlformer (200) zugeordnet ist und das Ausgangssignal des zugeordneten Strahlformers (200) verarbeitet; und einer Logik, die das Ausgangssignal der Sprachaktivitätsdetektormodule (202) empfängt und ein Ausgangssignal erzeugt, welches das Vorhandensein oder Nichtvorhandensein von Sprache in den Audiosignalen bedeutet.
Sprachaktivitätsdetektor nach Anspruch 6, wobei die Strahlformer (200) den Nachhall und das Umgebungsgeräusch in den Audiosignalen dämpfen.
Sprachaktivitätsdetektor nach Anspruch 7, wobei die Strahlformer (200) die Audiosignale von ungerichteten Schallaufnehmern empfangen.
Sprachaktivitätsdetektor nach Anspruch 8, wobei die ungerichteten Schallaufnehmer ungerichtete Mikrofon-Teilanordnungen sind.
Sprachaktivitätsdetektor nach Anspruch 8, wobei die ungerichteten Schallaufnehmer ungerichtete Mikrofone sind.
Sprachaktivitätsdetektor nach einem der Ansprüche 6 bis 10, wobei die Logik ferner das Ausgangssignal der Strahlformer (200) empfängt.
Sprachaktivitätsdetektor nach Anspruch 11, wobei die Logik das Ausgangssignal auf der Grundlage der Ausgangssignale der Sprachaktivitätsmodule und der Strahlformer (200) erzeugt.