DE60212528T2 - Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung - Google Patents

Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung Download PDF

Info

Publication number
DE60212528T2
DE60212528T2 DE60212528T DE60212528T DE60212528T2 DE 60212528 T2 DE60212528 T2 DE 60212528T2 DE 60212528 T DE60212528 T DE 60212528T DE 60212528 T DE60212528 T DE 60212528T DE 60212528 T2 DE60212528 T2 DE 60212528T2
Authority
DE
Germany
Prior art keywords
voice activity
audio signals
output
activity detector
activity detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Revoked
Application number
DE60212528T
Other languages
English (en)
Other versions
DE60212528D1 (de
Inventor
Franck Dunrobin Ontario Beaucoup
Michael Ottawa Ontario Tetelbaum
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitel Networks Corp
Original Assignee
Mitel Networks Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=9920748&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE60212528(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Mitel Networks Corp filed Critical Mitel Networks Corp
Application granted granted Critical
Publication of DE60212528D1 publication Critical patent/DE60212528D1/de
Publication of DE60212528T2 publication Critical patent/DE60212528T2/de
Anticipated expiration legal-status Critical
Revoked legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Time-Division Multiplex Systems (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft allgemein Audiosysteme und insbesondere ein Verfahren zur Verbesserung der Nahfeld-Sprachaktivitätserkennung in einem Sprecher-Lokalisierungssystem, das Strahlformungstechnologie nutzt, und einen Sprachaktivitätsdetektor für ein Sprecher-Lokalisierungssystem.
  • HINTERGRUND DER ERFINDUNG
  • Die Lokalisierung von Audioquellen ist in vielen Anwendungen erforderlich, wie etwa bei Telekonferenzen, wo die Position der Audioquelle verwendet wird, um ein Mikrofon hoher Qualität auf den Sprechenden zu richten. In Videokonferenzsystemen kann die Position der Audioquelle außerdem verwendet werden, um eine Kamera auf den Sprechenden zu richten.
  • Es ist bekannt, daß elektronisch richtbare Anordnungen von Mikrofonen in Kombination mit Standortschätzer-Algorithmen verwendet werden, um den Standort eines Sprechenden in einem Raum genau zu bestimmen. Dabei sind komplizierte Strahlformer hoher Qualität verwendet worden, um die Leistung an unterschiedlichen Positionen zu messen. Es sind Versuche unternommen worden, das Leistungsvermögen von Strahlformern nach dem Stand der Technik durch Verbesserung der akustischen Hörbarkeit unter Verwendung von Filtern und so weiter zu erhöhen. Die vorhergehenden Methoden nach dem Stand der Technik sind in Speaker localization using a steered Filter and sum Beamformer, N. Strobel, T. Meier, R. Rabenstein, vorgestellt auf dem "Erlangen Workshop 99, Vision, Modeling and Visualization", 17.–19. November 1999, Erlangen, Deutschland, beschrieben.
  • Die Lokalisierung von Audioquellen steckt voller praktischer Schwierigkeiten. Erstens erzeugen reflektierende Wände (oder andere Objekte) virtuelle akustische Bilder von Audioquellen, die durch die Standortschätzer-Algorithmen als reale Audioquellen mißdeutet werden können. Zweitens sind die meisten bekannten Standortschätzer-Algorithmen außerstande, zwischen Geräuschquellen und Sprechenden zu unterscheiden, vor allem in Gegenwart von korreliertem Rauschen und in Sprechpausen.
  • Sprachaktivitätsdetektoren, die Sprachaktivitätsdetektor-(VAD-)Algorithmen ausführen, sind verwendet worden, um die Audioquellen-Lokalisierung in Sprechpausen auszusetzen, so daß die Standortschätzer-Algorithmen die Mikrofone nicht infolge von Schwankungen im Umgebungsgeräusch in die falsche Richtung richten. Das trägt natürlich dazu bei, das Auftreten von inkorrekter Sprecherlokalisierung infolge von Echos oder Geräuschen zu verringern.
  • Ein bekannter Sprachaktivitätsdetektor nach dem Stand der Technik führt einen einzelnen VAD-Algorithmus aus, in den das Ausgangssignal eines ausgewählten Mikrofons oder einer Teilanordnung von Mikrofonen in der Anordnung eingespeist wird. Die Auswahl des Mikrofons oder der Teilanordnung von Mikrofonen, das bzw. die in den VAD-Algorithmus einspeist, kann feststehend oder zufällig sein oder auf der Eignung des Mikrofons oder der Teilanordnung von Mikrofonen für den VAD-Algorithmus beruhen. Das Ausgangssignal des VAD-Algorithmus wird dann verarbeitet, um ein Sprechzustand/Sprechpause-Entscheidungslogik-Ausgangssignal zu erzeugen.
  • Ein anderer Sprachaktivitätsdetektor nach dem Stand der Technik führt mehrere Instanzen des gleichen VAD-Algorithmus parallel aus. Jeder VAD-Algorithmus empfängt das Ausgangssignal von einem jeweiligen der Mikrofone oder Teilanordnungen von Mikrofonen in der Anordnung. Die Ausgangssignale des VAD-Algorithmus werden kombiniert, und eine Entscheidungslogik wird verwendet, um ein Sprechzustand/Sprechpause-Entscheidungslogik-Ausgangssignal zu erzeugen.
  • Das Leistungsvermögen des/der durch den Sprachaktivitätsdetektor ausgeführten VAD-Algorithmus bzw. -Algorithmen beeinflußt das Leistungsvermögen des Sprecher-Lokalisierungssystems erheblich, sowohl in bezug auf die Reaktionsschnelligkeit als auch in bezug auf die Beständigkeit gegen Umgebungsgeräusche. Infolgedessen sind Methoden erwünscht, um die Sprachaktivitätserkennung zu verbessern.
  • Es ist daher eine Aufgabe der vorliegenden Erfindung, ein neuartiges Verfahren zur Verbesserung der Nahfeld-Sprachaktivitätserkennung in einem Sprecher-Lokalisierungssystem, das Strahlformungstechnologie nutzt, und einen neuartigen Sprachaktivitätsdetektor für ein Sprecher-Lokalisierungssystem bereitzustellen.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Dementsprechend wird unter einem Aspekt der vorliegenden Erfindung ein Verfahren zur Erkennung von Sprachaktivität bereitgestellt, wie in Anspruch 1 ausgeführt.
  • In einer Ausführungsform beruht das Erbringen nur auf dem Ausgangssignal der Sprachaktivitäts-Erkennungsalgorithmen. In einer weiteren Ausführungsform beruht das Erbringen sowohl auf dem Ausgangssignal der Sprachaktivitäts-Erkennungsalgorithmen als auch auf dem Ausgangssignal der Strahlformungsalgorithmen. In diesem letzteren Fall kann das Erbringen auf einem ausgewählten der Sprachaktivitäts-Erkennungsalgorithmen beruhen. Der ausgewählte Sprachaktivitäts-Erkennungsalgorithmus ist dem Strahlformungsalgorithmus zugeordnet, der Audioleistungssignale ausgibt, die die lautesten Audiosignale darstellen.
  • Unter einem weiteren Aspekt der Erfindung wird ein Sprachaktivitätsdetektor bereitgestellt, wie in Anspruch 6 ausgeführt.
  • Die Strahlformer dämpfen den Nachhall und das Umgebungsgeräusch in den Audiosignalen, um dadurch deren Signal-Rausch-Verhältnis zu verbessern. Vorzugsweise empfangen die Strahlformer die Audiosignale von ungerichteten Schallaufnehmern. Die ungerichteten Schallaufnehmer können ungerichtete Mikrofon-Teilanordnungen oder individuelle ungerichtete Mikrofone sein.
  • Die vorliegende Erfindung bietet insofern Vorteile, als das Leistungsvermögen des Sprachaktivitätsdetektors erhöht wird, wodurch das Auftreten von inkorrekter Sprecherlokalisierung infolge von Echos oder Geräuschen verringert wird. Das ist auf die Tatsache zurückzuführen, daß jede Instanz des durch den Sprachaktivitätsdetektor ausgeführten VAD-Algorithmus das Ausgangssignal eines Strahlformers empfängt, der eingegebene Audiosignale verarbeitet hat. Die Richtwirkung der Strahlformer dämpft den Nachhall und das Umgebungsgeräusch in den Audiosignalen. Somit haben Signale, die in die VAD-Algorithmen eingespeist werden, ein besseres Signal-Rausch-Verhältnis (SNR).
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Ausführungsformen der vorliegenden Erfindung werden nunmehr mit Bezug auf die beigefügten Zeichnungen umfassender beschrieben, wobei diese folgendes darstellen:
  • 1 ist ein schematisches Blockschaltbild eines Sprecher-Lokalisierungssystems, das Strahlformungstechnologie nutzt und einen Sprachaktivitätsdetektor gemäß der vorliegenden Erfindung aufweist;
  • 2 ist ein schematisches Blockschaltbild des in 1 gezeigten Sprachaktivitätsdetektors;
  • 3 ist eine Zustandsmaschine der Entscheidungslogik, die Teil des Sprachaktivitätsdetektors von 2 ist;
  • 4 ist eine Zustandsmaschine der Entscheidungslogik, die Teil des Sprecher-Lokalisierungssystems von 1 ist; und
  • 5 ist eine Zustandsmaschine einer alternativen Ausführungsform der Entscheidungslogik, die Teil des Sprachaktivitätsdetektors von 2 ist.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Die vorliegende Erfindung betrifft allgemein ein Verfahren zur Erkennung von Sprachaktivität und einen Sprachaktivitätsdetektor. Audiosignale, die auf einer Vielzahl von Kanälen empfangen werden, werden verarbeitet, um ihr Signal-Rausch-Verhältnis zu verbessern. Die verarbeiteten Signale werden dann in zugeordnete Sprachaktivitäts-Erkennungsalgorithmen eingespeist und durch die Sprachaktivitäts-Erkennungsalgorithmen weiterverarbeitet. Dann wird auf der Grundlage mindestens des Ausgangssignals der Sprachaktivitäts-Erkennungsalgorithmen eine Sprechzustand/Sprechpause-Entscheidung erbracht.
  • Die vorliegende Erfindung ist zur Verwendung in grundsätzlich jeder Umgebung geeignet, wo es erwünscht ist, das Vorhandensein von Sprache in Audiosignalen zu erkennen, und mehrere Schallaufnehmer verfügbar sind. Ein Beispiel, wie die vorliegende Erfindung in ein Sprecher-Lokalisierungssystem einbezogen wird, wird nunmehr beschrieben.
  • Wendet man sich nun 1 zu, ist dort ein Sprecher-Lokalisierungssystem gezeigt und ist insgesamt durch das Bezugszeichen 90 bezeichnet. Wie zu sehen ist, weist das Sprecher-Lokalisierungssystem 90 folgendes auf: eine Anordnung 100 von ungerichteten Mikrofonen, einen Spektrum-Aufbereiter 110, einen Sprachaktivitätsdetektor 120, einen Schätzer 130, eine Entscheidungslogik 140 und eine gerichtete Vorrichtung 150, wie zum Beispiel einen Strahlformer, einen Bildverfolgungsalgorithmus oder ein anderes System.
  • Die ungerichteten Mikrofone in der Anordnung 100 sind in kreisförmigen Mikrofon-Teilanordnungen angeordnet, wobei die Mikrofone jeder Teilanordnung hunderte Segmente einer 360°-Anordnung abdecken. Die durch die kreisförmigen Mikrofon-Teilanordnungen der Anordnung 100 ausgegebenen Audiosignale werden in den Spektrum-Aufbereiter 110, den Sprachaktivitätsdetektor 120 und die gerichtete Vorrichtung 150 eingespeist.
  • Der Spektrum-Aufbereiter 110 filtert das Ausgangssignal jeder kreisförmigen Mikrofon-Teilanordnung getrennt, bevor das Ausgangssignal der kreisförmigen Mikrofon-Teilanordnungen in den Schätzer 130 eingegeben wird. Der Zweck der Filterung besteht darin, die durch den Schätzer 130 durchgeführte Prozedur auf ein schmales Frequenzband zu beschränken, das für das beste Leistungsvermögen des Schätzers 130 wie auch zur Unterdrückung von Geräuschquellen ausgewählt wird.
  • Der Schätzer 130 erzeugt Positionsschätzwerte erster Ordnung nach Segmentnummern, wie es Stand der Technik ist, und gibt die Positionsschätzwerte an die Entscheidungslogik 140 aus. Während des Betriebs des Schätzers 130 wird auf jede der Positionen eine Strahlformerinstanz "gerichtet" (das heißt, auf die verschiedenen Mikrofon-Ausgangsaudiosignale werden unterschiedliche Dämpfungs-Wichtungsfaktoren angewendet). Die Position mit dem stärksten Strahlformer-Ausgangssignal wird als die Audiosignalquelle festgelegt. Da die Strahlformerinstanzen nur für Energieberechnungen verwendet werden, ist die Qualität des Strahlformer-Ausgangssignals nicht besonders wichtig. Daher kann ein einfacher Strahlformungsalgorithmus wie zum Beispiel ein Verzögerungs- und Summen-Strahlformeralgorithmus verwendet werden, im Gegensatz zu den meisten Telekonferenz-Implementierungen, wo zur Messung der Leistung an jeder Position Strahlformer hoher Qualität verwendet werden, die Filter- und Summen-Strahlformeralgorithmen ausführen. Spezifische Einzelheiten des Spektrum-Aufbereiters 110 und des Schätzers 130 sind in der am 30. Juni 2000 eingereichten GB-Patentanmeldung Nr. 0016142 für eine Erfindung mit dem Titel "Method and Apparatus For Locating A Talker" beschrieben. Dementsprechend werden weitere Einzelheiten des Spektrumn-Aufbereiters 110 und des Schätzers 130 hierin nicht weiter beschrieben.
  • Der Sprachaktivitätsdetektor 120 bestimmt mit Sprache gefüllte Zeitsegmente, um in Sprechpausen die Sprecherlokalisierung auszusetzen. Wie in 2 zu sehen ist, weist der Sprachaktivitätsdetektor 120 eine Anordnung von Strahlformern 200 auf, die jeweils eine Instanz eines herkömmlichen Strahlformungsalgorithmus BAN ausführen, wobei N die Anzahl der Strahlformer 200 in der Anordnung ist. Jeder Strahlformungsalgorithmus BAN hat eine andere "Blickrichtung" entsprechend den Segmenten der Mikrofonanordnung 100. Jeder Strahlformungsalgorithmus BAN verarbeitet die Audiosignale auf seinem Kanal, die von den kreisförmigen Mikrofon-Teilanordnungen MN empfangen werden, um Audioleistungssignale zu erzeugen. Während dieser Verarbeitung werden Nachhall und Umgebungsgeräusche in den Audiosignalen gedämpft. Infolgedessen wird das Signal-Rausch-Verhältnis (SNR) der durch die kreisförmigen Mikrofon-Teilanordnungen MN ausgegebenen Audiosignale verbessert.
  • Der Sprachaktivitätsdetektor 120 weist ferner eine Anordnung von Sprachaktivitätsdetektor-(VAD-)Modulen 202 auf, die jeweils eine Instanz eines VAD-Algorithmus VADAN ausführen. Jedes VAD-Modul 202 empfängt das Ausgangssignal eines jeweiligen der Strahlformer 200. Da die Signale, die durch die VAD-Module 202 von den Strahlformern 200 empfangen werden, ein verbessertes SNR haben, wird das Leistungsvermögen der VAD-Algorithmen verbessert. Die Ausgangssignale der Strahlformer 200 und die Ausgangssignale der VAD-Module 202 werden an die Entscheidungslogik 204 übermittelt.
  • Die Entscheidungslogik 204 führt einen Entscheidungslogik-Algorithmus aus und erzeugt als Antwort auf die Ausgangssignale der VAD-Module 202 entweder ein "Sprechzustand"- oder ein "Sprechpause"-Entscheidungslogik-Ausgangssignal. 3 ist eine Zustandsmaschine, die den durch die Entscheidungslogik 204 ausgeführten Entscheidungslogik-Algorithmus zeigt. Wie zu sehen ist, werden die Ausgangssignale der Strahlformer 200 in dieser Ausführungsform verworfen. Die Ausgangssignale der VAD-Module 202 jedoch werden untersucht, um zu bestimmen, ob einer oder mehrere der VAD-Algorithmen ein Ausgangssignal erzeugt haben, das das Vorhandensein von Sprache bedeutet, die durch eine oder mehrere der kreisförmigen Mikrofon-Teilanordnungen aufgenommen wurde. Das durch die Entscheidungslogik 204 erzeugte Logik-Ausgangssignal wird an die Entscheidungslogik 140 übermittelt.
  • Die Entscheidungslogik 140 ist in 4 näher dargestellt, und wie zu sehen ist, ist die Entscheidungslogik eine Zustandsmaschine, die das Ausgangssignal des Sprachaktivitätsdetektors 120 verwendet, um die vom Schätzer 130 empfangenen Positionsschätzwerte zu filtern. Die Positionsschätzwerte, die durch die Entscheidungslogik 140 empfangen werden, wenn der Sprachaktivitätsdetektor 120 ein "Sprechpause"-Entscheidungslogik-Ausgangssignal erzeugt, das heißt während Pausen beim Sprechen, werden ignoriert (Schritte 300 und 320). Die Positionsschätzwerte, die durch die Entscheidungslogik 140 empfangen werden, wenn der Sprachaktivitätsdetektor 120 ein "Sprechzustand"-Entscheidungslogik-Ausgangssignal erzeugt, werden gespeichert (Schritt 310) und dann einem Überprüfungsprozeß unterzogen. Während des Überprüfungsprozesses wartet die Entscheidungslogik 140 darauf, daß der Schätzer 130 einen Rahmen beendet und seinen Positionsschätzwert bis zu einer Schwellwertzahl n von Wiederholungen wiederholt, einschließlich bis zu m < n Fehler.
  • Ein FIFO-Stapelspeicher 330 speichert die Positionsschätzwerte. Die Größe des Stapelspeichers und die Mindestzahl n der für die Überprüfung benötigten korrekten Positionsschätzwerte werden auf der Grundlage des Sprach-Leistungsvermögens des Sprachaktivitätsdetektors 120 und des Schätzers 130 gewählt. Jeder neue Positionsschätzwert, der durch den Sprachaktivitätsdetektor 120 als mit Sprache gefüllt festgelegt worden ist, wird an die Spitze des FIFO-Stapelspeichers 330 verschoben. Ein Zähler 340 zählt, wie oft in der Vergangenheit der letzte Positionsschätzwert innerhalb der Größenbeschränkung M des FIFO-Stapelspeichers 330 aufgetreten ist. Wenn der aktuelle Positionsschätzwert öfter als die Schwellwertzahl von Wiederholungen aufgetreten ist, wird der aktuelle Positionsschätzwert als richtig erkannt (Schritt 350), und das Schätzungs-Ausgangssignal wird aktualisiert (Schritt 360) und in einem Zwischenspeicher gespeichert (Schritt 380). Wenn der Zähler 340 den Schwellwert n nicht erreicht, bleibt die Zählerausgabe so, wie sie vorher war (Schritt 370). In Sprechpausen wird keine Überprüfung durchgeführt (Schritt 300), und statt des Positionsschätzwerts wird ein Wert von 0xFFFFF(xx) an die erste Stelle des FIFO-Stapelspeichers 330 verschoben. Die Zählerausgabe wird nicht verändert.
  • Das Ausgangssignal der Entscheidungslogik 140 ist ein als richtig erkannter endgültiger Positionsschätzwert, der dann durch die gerichtete Vorrichtung 150 verwendet wird. Wenn erwünscht, muß die Entscheidungslogik 140 nicht darauf warten, daß der Schätzer 130 Rahmen beendet. Die Entscheidungslogik 140 kann natürlich die für jeden Abtastwert erzeugten Ausgangssignale des Sprachaktivitätsdetektors 120 und des Schätzers 130 verarbeiten.
  • Wie man anerkennen wird, sorgt der Sprachaktivitätsdetektor 120 unabhängig von den durch die VAD-Module 202 ausgeführten VAD-Algorithmen für eine genauere Sprechzustand/Sprechpause-Bestimmung, und zwar aufgrund der Tatsache, daß die VAD-Algorithmen Signale mit verbessertem SNR verarbeiten. Das Maß, bis zu dem die Sprechzustand/Sprechpause-Bestimmung verbessert wird, hängt vom Maß der Richtwirkung der durch die Strahlformer 200 ausgeführten Strahlformungsalgorithmen ab.
  • Wendet man sich nunmehr 5 zu, so ist dort die Zustandsmaschine einer alternativen Ausführungsform eines durch die Entscheidungslogik 140 ausgeführten Entscheidungslogik-Algorithmus gezeigt. Wie zu sehen ist, werden in dieser Ausführungsform die Ausgangssignale der Strahlformer 200 untersucht, um den Strahlformer 200 zu bestimmen, der die lautesten Audiosignale empfängt. Das Ausgangssignal des VAD-Moduls 202, das das Ausgangssignal von dem bestimmten Strahlformer 200 empfängt, wird dann untersucht, um zu bestimmen, ob das Ausgangssignal Sprache in den Audiosignalen bedeutet.
  • Wenngleich spezifische Beispiele für Entscheidungslogik-Algorithmen beschrieben werden, wird der Fachmann anerkennen, daß andere Logik verwendet werden kann, um die Ausgangssignale der Strahlformer 200 und der VAD-Module 202 zu verarbeiten, um eine "Sprechzustand oder Sprechpause"-Bestimmung zu erbringen. Außerdem kann, wenngleich die Strahlformer 200 so beschrieben sind, daß sie Ausgangssignale von Audio-Schallaufnehmern in Form von kreisförmigen Mikrofon-Teilanordnungen empfangen, jeder Strahlformer 200 das Ausgangssignal von individuellen ungerichteten Mikrofonen empfangen. Ferner wird der Fachmann anerkennen, wenngleich der Sprachaktivitätsdetektor mit Bezug auf ein spezifisches Sprecher-Lokalisierungssystem gezeigt und beschrieben wird, daß der Sprachaktivitätsdetektor 120 in grundsätzlich jeder Umgebung verwendet werden kann, wo mehrere Schallaufnehmer verfügbar sind und es erwünscht ist, das Vorhandensein von Sprache in Audiosignalen zu erkennen.
  • Wenngleich bevorzugte Ausführungsformen der vorliegenden Erfindung beschrieben worden sind, wird der Fachmann anerkennen, daß Veränderungen und Modifikationen möglich sind, ohne von ihrem Schutzbereich abzuweichen, wie er in den beigefügten Ansprüchen definiert ist.

Claims (12)

  1. Verfahren zur Erkennung von Sprachaktivität mit den folgenden Schritten: Empfangen von Audiosignalen auf einer Vielzahl von Kanälen; Verarbeiten der Audiosignale auf den Kanälen, um ihr Signal-Rausch-Verhältnis zu verbessern, mit den folgenden Schritten: Einspeisen der Audiosignale auf mehreren Kanälen in Strahlformungsalgorithmen während der Verarbeitung, wobei jeder Strahlformungsalgorithmus einer anderen Sichtverbindungsrichtung zugeordnet ist; Einspeisen der verarbeiteten Audiosignale auf jedem Kanal in einen zugeordneten Sprachaktivitätserkennungsalgorithmus und Weiterverarbeiten der Audiosignale mit den Sprachaktivitätserkennungsalgorithmen; und Erbringen einer Sprechzustand/Sprechpause-Bestimmung auf der Grundlage mindestens des Ausgangssignals der Sprachaktivitätserkennungsalgorithmen.
  2. Verfahren nach Anspruch 1, wobei das Erbringen nur auf dem Ausgangssignal der Sprachaktivitätserkennungsalgorithmen beruht.
  3. Verfahren nach Anspruch 1, wobei das Erbringen sowohl auf dem Ausgangssignal der Sprachaktivitätserkennungsalgorithmen als auch auf dem Ergebnis der Strahlformungsalgorithmen beruht.
  4. Verfahren nach Anspruch 3, wobei das Erbringen auf dem Ergebnis eines ausgewählten der Sprachaktivitätserkennungsalgorithmen beruht, wobei der eine ausgewählte Sprachaktivitätserkennungsalgorithmus dem Strahlformungsalgorithmus zugeordnet ist, der Leistungsinformationssignale ausgibt, welche die lautesten Audiosignale darstellen.
  5. Verfahren nach einem der Ansprüche 1 bis 4, wobei die Audiosignale auf den Kanälen durch ungerichtete Schallaufnehmer empfangen werden.
  6. Sprachaktivitätsdetektor (120) mit: einer Anordnung von Strahlformern (200), wobei jeder Strahlformer (200) in der Anordnung eine andere Sichtverbindungsrichtung hat und Audiosignale auf mehreren Kanälen empfängt, wobei jeder Strahlformer (200) die Audiosignale verarbeitet, um deren Signal-Rausch-Verhältnis zu verbessern; einer Anordnung von Sprachaktivitätsdetektormodulen (202), wobei jedes Sprachaktivitätsdetektormodul (202) einem jeweiligen der Strahlformer (200) zugeordnet ist und das Ausgangssignal des zugeordneten Strahlformers (200) verarbeitet; und einer Logik, die das Ausgangssignal der Sprachaktivitätsdetektormodule (202) empfängt und ein Ausgangssignal erzeugt, welches das Vorhandensein oder Nichtvorhandensein von Sprache in den Audiosignalen bedeutet.
  7. Sprachaktivitätsdetektor nach Anspruch 6, wobei die Strahlformer (200) den Nachhall und das Umgebungsgeräusch in den Audiosignalen dämpfen.
  8. Sprachaktivitätsdetektor nach Anspruch 7, wobei die Strahlformer (200) die Audiosignale von ungerichteten Schallaufnehmern empfangen.
  9. Sprachaktivitätsdetektor nach Anspruch 8, wobei die ungerichteten Schallaufnehmer ungerichtete Mikrofon-Teilanordnungen sind.
  10. Sprachaktivitätsdetektor nach Anspruch 8, wobei die ungerichteten Schallaufnehmer ungerichtete Mikrofone sind.
  11. Sprachaktivitätsdetektor nach einem der Ansprüche 6 bis 10, wobei die Logik ferner das Ausgangssignal der Strahlformer (200) empfängt.
  12. Sprachaktivitätsdetektor nach Anspruch 11, wobei die Logik das Ausgangssignal auf der Grundlage der Ausgangssignale der Sprachaktivitätsmodule und der Strahlformer (200) erzeugt.
DE60212528T 2001-08-21 2002-08-19 Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung Revoked DE60212528T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0120322 2001-08-21
GB0120322A GB2379148A (en) 2001-08-21 2001-08-21 Voice activity detection

Publications (2)

Publication Number Publication Date
DE60212528D1 DE60212528D1 (de) 2006-08-03
DE60212528T2 true DE60212528T2 (de) 2007-01-18

Family

ID=9920748

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60212528T Revoked DE60212528T2 (de) 2001-08-21 2002-08-19 Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung

Country Status (5)

Country Link
US (1) US20030053639A1 (de)
EP (1) EP1286328B1 (de)
CA (1) CA2397826A1 (de)
DE (1) DE60212528T2 (de)
GB (1) GB2379148A (de)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1580882B1 (de) * 2004-03-19 2007-01-10 Harman Becker Automotive Systems GmbH System und Verfahren zur Verbesserung eines Audiosignals
EP1833163B1 (de) * 2004-07-20 2019-12-18 Harman Becker Automotive Systems GmbH Audioverbesserungssystem und -verfahren
US7970151B2 (en) * 2004-10-15 2011-06-28 Lifesize Communications, Inc. Hybrid beamforming
US7826624B2 (en) * 2004-10-15 2010-11-02 Lifesize Communications, Inc. Speakerphone self calibration and beam forming
US20060133621A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone having multiple microphones
US20070116300A1 (en) * 2004-12-22 2007-05-24 Broadcom Corporation Channel decoding for wireless telephones with multiple microphones and multiple description transmission
US7983720B2 (en) * 2004-12-22 2011-07-19 Broadcom Corporation Wireless telephone with adaptive microphone array
US20060147063A1 (en) * 2004-12-22 2006-07-06 Broadcom Corporation Echo cancellation in telephones with multiple microphones
US8509703B2 (en) * 2004-12-22 2013-08-13 Broadcom Corporation Wireless telephone with multiple microphones and multiple description transmission
US8170221B2 (en) * 2005-03-21 2012-05-01 Harman Becker Automotive Systems Gmbh Audio enhancement system and method
DE602005015426D1 (de) 2005-05-04 2009-08-27 Harman Becker Automotive Sys System und Verfahren zur Intensivierung von Audiosignalen
US8374851B2 (en) * 2007-07-30 2013-02-12 Texas Instruments Incorporated Voice activity detector and method
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
US8208656B2 (en) * 2009-06-23 2012-06-26 Fortemedia, Inc. Array microphone system including omni-directional microphones to receive sound in cone-shaped beam
JP5793500B2 (ja) * 2009-10-19 2015-10-14 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声区間検出器及び方法
CN102884575A (zh) 2010-04-22 2013-01-16 高通股份有限公司 话音活动检测
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
EP2494545A4 (de) * 2010-12-24 2012-11-21 Huawei Tech Co Ltd Verfahren und vorrichtung zur erkennung von sprachaktivitäten
US9226088B2 (en) 2011-06-11 2015-12-29 Clearone Communications, Inc. Methods and apparatuses for multiple configurations of beamforming microphone arrays
US9615172B2 (en) * 2012-10-04 2017-04-04 Siemens Aktiengesellschaft Broadband sensor location selection using convex optimization in very large scale arrays
JP2014106247A (ja) * 2012-11-22 2014-06-09 Fujitsu Ltd 信号処理装置、信号処理方法および信号処理プログラム
GB2553683B (en) * 2013-06-26 2018-04-18 Cirrus Logic Int Semiconductor Ltd Speech recognition
US9697831B2 (en) 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
CN103426440A (zh) * 2013-08-22 2013-12-04 厦门大学 利用能量谱熵空间信息的语音端点检测装置及其检测方法
US10360926B2 (en) * 2014-07-10 2019-07-23 Analog Devices Global Unlimited Company Low-complexity voice activity detection
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9691413B2 (en) * 2015-10-06 2017-06-27 Microsoft Technology Licensing, Llc Identifying sound from a source of interest based on multiple audio feeds
US10366701B1 (en) * 2016-08-27 2019-07-30 QoSound, Inc. Adaptive multi-microphone beamforming
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
CN107424625A (zh) * 2017-06-27 2017-12-01 南京邮电大学 一种基于向量机框架的多通道语音活动检测方法
WO2019126569A1 (en) * 2017-12-21 2019-06-27 Synaptics Incorporated Analog voice activity detector systems and methods
US10586538B2 (en) 2018-04-25 2020-03-10 Comcast Cable Comminications, LLC Microphone array beamforming control
CN112335261B (zh) 2018-06-01 2023-07-18 舒尔获得控股公司 图案形成麦克风阵列
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
EP3942845A1 (de) 2019-03-21 2022-01-26 Shure Acquisition Holdings, Inc. Autofokus, autofokus in regionen und autoplatzierung von strahlgeformten mikrofonkeulen mit hemmfunktion
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
EP3977449A1 (de) 2019-05-31 2022-04-06 Shure Acquisition Holdings, Inc. Mit sprach- und rauschaktivitätsdetektion integrierter automatischer mischer mit niedriger latenz
US11650625B1 (en) * 2019-06-28 2023-05-16 Amazon Technologies, Inc. Multi-sensor wearable device with audio processing
JP2022545113A (ja) 2019-08-23 2022-10-25 シュアー アクイジッション ホールディングス インコーポレイテッド 指向性が改善された一次元アレイマイクロホン
CN110648692B (zh) * 2019-09-26 2022-04-12 思必驰科技股份有限公司 语音端点检测方法及***
WO2021087377A1 (en) 2019-11-01 2021-05-06 Shure Acquisition Holdings, Inc. Proximity microphone
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
USD944776S1 (en) 2020-05-05 2022-03-01 Shure Acquisition Holdings, Inc. Audio device
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
EP4285605A1 (de) 2021-01-28 2023-12-06 Shure Acquisition Holdings, Inc. Hybrides audiostrahlformungssystem

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1147071A (en) * 1980-09-09 1983-05-24 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
US4741038A (en) * 1986-09-26 1988-04-26 American Telephone And Telegraph Company, At&T Bell Laboratories Sound location arrangement
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
US5402520A (en) * 1992-03-06 1995-03-28 Schnitta; Bonnie S. Neural network method and apparatus for retrieving signals embedded in noise and analyzing the retrieved signals
GB2278984A (en) * 1993-06-11 1994-12-14 Redifon Technology Limited Speech presence detector
US5884255A (en) * 1996-07-16 1999-03-16 Coherent Communications Systems Corp. Speech detection system employing multiple determinants
JPH10145487A (ja) * 1996-11-15 1998-05-29 Kyocera Corp 高品質拡声情報通信システム
US6469732B1 (en) * 1998-11-06 2002-10-22 Vtel Corporation Acoustic source location using a microphone array
US6430528B1 (en) * 1999-08-20 2002-08-06 Siemens Corporate Research, Inc. Method and apparatus for demixing of degenerate mixtures
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
US6449593B1 (en) * 2000-01-13 2002-09-10 Nokia Mobile Phones Ltd. Method and system for tracking human speakers
GB2364121B (en) * 2000-06-30 2004-11-24 Mitel Corp Method and apparatus for locating a talker

Also Published As

Publication number Publication date
EP1286328A3 (de) 2004-02-18
CA2397826A1 (en) 2003-02-21
GB2379148A (en) 2003-02-26
US20030053639A1 (en) 2003-03-20
DE60212528D1 (de) 2006-08-03
EP1286328B1 (de) 2006-06-21
GB0120322D0 (en) 2001-10-17
EP1286328A2 (de) 2003-02-26

Similar Documents

Publication Publication Date Title
DE60212528T2 (de) Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung
DE69932626T2 (de) Signalverarbeitungsvorrichtung und verfahren
DE60303338T2 (de) Orthogonales und kreisförmiges Gruppensystem von Mikrofonen und Verfahren zur Erkennung der dreidimensionalen Richtung einer Schallquelle mit diesem System
EP1251493B1 (de) Verfahren zur Geräuschreduktion mit selbststeuernder Störfrequenz
EP1977626B1 (de) Verfahren zur aufnahme einer tonquelle mit zeitlich variabler richtcharakteristik und zur wiedergabe
DE112009000805B4 (de) Rauschreduktion
EP1595427B1 (de) Verfahren und vorrichtung zur separierung von schallsignalen
DE69324646T2 (de) Verfahren für die Ortsbestimmung eines Sprechers und zur Erhaltung einer Nachricht und verwandte Systeme
DE112016006218B4 (de) Schallsignal-Verbesserungsvorrichtung
DE60022304T2 (de) Verfahren und Anordnung zur Ortung von Sprechern
DE102017102134A1 (de) Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung
DE102011012573B4 (de) Sprachbedienvorrichtung für Kraftfahrzeuge und Verfahren zur Auswahl eines Mikrofons für den Betrieb einer Sprachbedienvorrichtung
WO2009049773A1 (de) Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung
WO2002075725A1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE102014002899A1 (de) Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung
DE102018109247A1 (de) Verfahren zur genauen Berechnung der Ankunftsrichtung von Schall an einer Mikrofon-Anordnung
DE112012006780T5 (de) Strahlformungsvorrichtung
EP3490270B1 (de) Verfahren zum betrieb eines hörgerätes
AT510359B1 (de) Verfahren zur akustischen signalverfolgung
DE60304147T2 (de) Virtuelle Mikrophonanordnung
DE102018117558A1 (de) Adaptives nachfiltern
AT514412A1 (de) Verfahren zur Erhöhung der Sprachverständlichkeit
DE112017007051B4 (de) Signalverarbeitungsvorrichtung
DE112018002744T5 (de) Schallerfassung
DE102019105458B4 (de) System und Verfahren zur Zeitverzögerungsschätzung

Legal Events

Date Code Title Description
8363 Opposition against the patent
8331 Complete revocation