DE60212528T2 - Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung - Google Patents
Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung Download PDFInfo
- Publication number
- DE60212528T2 DE60212528T2 DE60212528T DE60212528T DE60212528T2 DE 60212528 T2 DE60212528 T2 DE 60212528T2 DE 60212528 T DE60212528 T DE 60212528T DE 60212528 T DE60212528 T DE 60212528T DE 60212528 T2 DE60212528 T2 DE 60212528T2
- Authority
- DE
- Germany
- Prior art keywords
- voice activity
- audio signals
- output
- activity detector
- activity detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Revoked
Links
- 230000000694 effects Effects 0.000 title claims description 62
- 238000000034 method Methods 0.000 title claims description 23
- 238000001514 detection method Methods 0.000 title claims description 19
- 230000004807 localization Effects 0.000 title description 12
- 230000005236 sound signal Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 3
- 238000009877 rendering Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 2
- CVOFKRWYWCSDMA-UHFFFAOYSA-N 2-chloro-n-(2,6-diethylphenyl)-n-(methoxymethyl)acetamide;2,6-dinitro-n,n-dipropyl-4-(trifluoromethyl)aniline Chemical compound CCC1=CC=CC(CC)=C1N(COC)C(=O)CCl.CCCN(CCC)C1=C([N+]([O-])=O)C=C(C(F)(F)F)C=C1[N+]([O-])=O CVOFKRWYWCSDMA-UHFFFAOYSA-N 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Time-Division Multiplex Systems (AREA)
Description
- GEBIET DER ERFINDUNG
- Die vorliegende Erfindung betrifft allgemein Audiosysteme und insbesondere ein Verfahren zur Verbesserung der Nahfeld-Sprachaktivitätserkennung in einem Sprecher-Lokalisierungssystem, das Strahlformungstechnologie nutzt, und einen Sprachaktivitätsdetektor für ein Sprecher-Lokalisierungssystem.
- HINTERGRUND DER ERFINDUNG
- Die Lokalisierung von Audioquellen ist in vielen Anwendungen erforderlich, wie etwa bei Telekonferenzen, wo die Position der Audioquelle verwendet wird, um ein Mikrofon hoher Qualität auf den Sprechenden zu richten. In Videokonferenzsystemen kann die Position der Audioquelle außerdem verwendet werden, um eine Kamera auf den Sprechenden zu richten.
- Es ist bekannt, daß elektronisch richtbare Anordnungen von Mikrofonen in Kombination mit Standortschätzer-Algorithmen verwendet werden, um den Standort eines Sprechenden in einem Raum genau zu bestimmen. Dabei sind komplizierte Strahlformer hoher Qualität verwendet worden, um die Leistung an unterschiedlichen Positionen zu messen. Es sind Versuche unternommen worden, das Leistungsvermögen von Strahlformern nach dem Stand der Technik durch Verbesserung der akustischen Hörbarkeit unter Verwendung von Filtern und so weiter zu erhöhen. Die vorhergehenden Methoden nach dem Stand der Technik sind in Speaker localization using a steered Filter and sum Beamformer, N. Strobel, T. Meier, R. Rabenstein, vorgestellt auf dem "Erlangen Workshop 99, Vision, Modeling and Visualization", 17.–19. November 1999, Erlangen, Deutschland, beschrieben.
- Die Lokalisierung von Audioquellen steckt voller praktischer Schwierigkeiten. Erstens erzeugen reflektierende Wände (oder andere Objekte) virtuelle akustische Bilder von Audioquellen, die durch die Standortschätzer-Algorithmen als reale Audioquellen mißdeutet werden können. Zweitens sind die meisten bekannten Standortschätzer-Algorithmen außerstande, zwischen Geräuschquellen und Sprechenden zu unterscheiden, vor allem in Gegenwart von korreliertem Rauschen und in Sprechpausen.
- Sprachaktivitätsdetektoren, die Sprachaktivitätsdetektor-(VAD-)Algorithmen ausführen, sind verwendet worden, um die Audioquellen-Lokalisierung in Sprechpausen auszusetzen, so daß die Standortschätzer-Algorithmen die Mikrofone nicht infolge von Schwankungen im Umgebungsgeräusch in die falsche Richtung richten. Das trägt natürlich dazu bei, das Auftreten von inkorrekter Sprecherlokalisierung infolge von Echos oder Geräuschen zu verringern.
- Ein bekannter Sprachaktivitätsdetektor nach dem Stand der Technik führt einen einzelnen VAD-Algorithmus aus, in den das Ausgangssignal eines ausgewählten Mikrofons oder einer Teilanordnung von Mikrofonen in der Anordnung eingespeist wird. Die Auswahl des Mikrofons oder der Teilanordnung von Mikrofonen, das bzw. die in den VAD-Algorithmus einspeist, kann feststehend oder zufällig sein oder auf der Eignung des Mikrofons oder der Teilanordnung von Mikrofonen für den VAD-Algorithmus beruhen. Das Ausgangssignal des VAD-Algorithmus wird dann verarbeitet, um ein Sprechzustand/Sprechpause-Entscheidungslogik-Ausgangssignal zu erzeugen.
- Ein anderer Sprachaktivitätsdetektor nach dem Stand der Technik führt mehrere Instanzen des gleichen VAD-Algorithmus parallel aus. Jeder VAD-Algorithmus empfängt das Ausgangssignal von einem jeweiligen der Mikrofone oder Teilanordnungen von Mikrofonen in der Anordnung. Die Ausgangssignale des VAD-Algorithmus werden kombiniert, und eine Entscheidungslogik wird verwendet, um ein Sprechzustand/Sprechpause-Entscheidungslogik-Ausgangssignal zu erzeugen.
- Das Leistungsvermögen des/der durch den Sprachaktivitätsdetektor ausgeführten VAD-Algorithmus bzw. -Algorithmen beeinflußt das Leistungsvermögen des Sprecher-Lokalisierungssystems erheblich, sowohl in bezug auf die Reaktionsschnelligkeit als auch in bezug auf die Beständigkeit gegen Umgebungsgeräusche. Infolgedessen sind Methoden erwünscht, um die Sprachaktivitätserkennung zu verbessern.
- Es ist daher eine Aufgabe der vorliegenden Erfindung, ein neuartiges Verfahren zur Verbesserung der Nahfeld-Sprachaktivitätserkennung in einem Sprecher-Lokalisierungssystem, das Strahlformungstechnologie nutzt, und einen neuartigen Sprachaktivitätsdetektor für ein Sprecher-Lokalisierungssystem bereitzustellen.
- ZUSAMMENFASSUNG DER ERFINDUNG
- Dementsprechend wird unter einem Aspekt der vorliegenden Erfindung ein Verfahren zur Erkennung von Sprachaktivität bereitgestellt, wie in Anspruch 1 ausgeführt.
- In einer Ausführungsform beruht das Erbringen nur auf dem Ausgangssignal der Sprachaktivitäts-Erkennungsalgorithmen. In einer weiteren Ausführungsform beruht das Erbringen sowohl auf dem Ausgangssignal der Sprachaktivitäts-Erkennungsalgorithmen als auch auf dem Ausgangssignal der Strahlformungsalgorithmen. In diesem letzteren Fall kann das Erbringen auf einem ausgewählten der Sprachaktivitäts-Erkennungsalgorithmen beruhen. Der ausgewählte Sprachaktivitäts-Erkennungsalgorithmus ist dem Strahlformungsalgorithmus zugeordnet, der Audioleistungssignale ausgibt, die die lautesten Audiosignale darstellen.
- Unter einem weiteren Aspekt der Erfindung wird ein Sprachaktivitätsdetektor bereitgestellt, wie in Anspruch 6 ausgeführt.
- Die Strahlformer dämpfen den Nachhall und das Umgebungsgeräusch in den Audiosignalen, um dadurch deren Signal-Rausch-Verhältnis zu verbessern. Vorzugsweise empfangen die Strahlformer die Audiosignale von ungerichteten Schallaufnehmern. Die ungerichteten Schallaufnehmer können ungerichtete Mikrofon-Teilanordnungen oder individuelle ungerichtete Mikrofone sein.
- Die vorliegende Erfindung bietet insofern Vorteile, als das Leistungsvermögen des Sprachaktivitätsdetektors erhöht wird, wodurch das Auftreten von inkorrekter Sprecherlokalisierung infolge von Echos oder Geräuschen verringert wird. Das ist auf die Tatsache zurückzuführen, daß jede Instanz des durch den Sprachaktivitätsdetektor ausgeführten VAD-Algorithmus das Ausgangssignal eines Strahlformers empfängt, der eingegebene Audiosignale verarbeitet hat. Die Richtwirkung der Strahlformer dämpft den Nachhall und das Umgebungsgeräusch in den Audiosignalen. Somit haben Signale, die in die VAD-Algorithmen eingespeist werden, ein besseres Signal-Rausch-Verhältnis (SNR).
- KURZBESCHREIBUNG DER ZEICHNUNGEN
- Ausführungsformen der vorliegenden Erfindung werden nunmehr mit Bezug auf die beigefügten Zeichnungen umfassender beschrieben, wobei diese folgendes darstellen:
-
1 ist ein schematisches Blockschaltbild eines Sprecher-Lokalisierungssystems, das Strahlformungstechnologie nutzt und einen Sprachaktivitätsdetektor gemäß der vorliegenden Erfindung aufweist; -
2 ist ein schematisches Blockschaltbild des in1 gezeigten Sprachaktivitätsdetektors; -
3 ist eine Zustandsmaschine der Entscheidungslogik, die Teil des Sprachaktivitätsdetektors von2 ist; -
4 ist eine Zustandsmaschine der Entscheidungslogik, die Teil des Sprecher-Lokalisierungssystems von1 ist; und -
5 ist eine Zustandsmaschine einer alternativen Ausführungsform der Entscheidungslogik, die Teil des Sprachaktivitätsdetektors von2 ist. - AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
- Die vorliegende Erfindung betrifft allgemein ein Verfahren zur Erkennung von Sprachaktivität und einen Sprachaktivitätsdetektor. Audiosignale, die auf einer Vielzahl von Kanälen empfangen werden, werden verarbeitet, um ihr Signal-Rausch-Verhältnis zu verbessern. Die verarbeiteten Signale werden dann in zugeordnete Sprachaktivitäts-Erkennungsalgorithmen eingespeist und durch die Sprachaktivitäts-Erkennungsalgorithmen weiterverarbeitet. Dann wird auf der Grundlage mindestens des Ausgangssignals der Sprachaktivitäts-Erkennungsalgorithmen eine Sprechzustand/Sprechpause-Entscheidung erbracht.
- Die vorliegende Erfindung ist zur Verwendung in grundsätzlich jeder Umgebung geeignet, wo es erwünscht ist, das Vorhandensein von Sprache in Audiosignalen zu erkennen, und mehrere Schallaufnehmer verfügbar sind. Ein Beispiel, wie die vorliegende Erfindung in ein Sprecher-Lokalisierungssystem einbezogen wird, wird nunmehr beschrieben.
- Wendet man sich nun
1 zu, ist dort ein Sprecher-Lokalisierungssystem gezeigt und ist insgesamt durch das Bezugszeichen90 bezeichnet. Wie zu sehen ist, weist das Sprecher-Lokalisierungssystem90 folgendes auf: eine Anordnung100 von ungerichteten Mikrofonen, einen Spektrum-Aufbereiter110 , einen Sprachaktivitätsdetektor120 , einen Schätzer130 , eine Entscheidungslogik140 und eine gerichtete Vorrichtung150 , wie zum Beispiel einen Strahlformer, einen Bildverfolgungsalgorithmus oder ein anderes System. - Die ungerichteten Mikrofone in der Anordnung
100 sind in kreisförmigen Mikrofon-Teilanordnungen angeordnet, wobei die Mikrofone jeder Teilanordnung hunderte Segmente einer 360°-Anordnung abdecken. Die durch die kreisförmigen Mikrofon-Teilanordnungen der Anordnung100 ausgegebenen Audiosignale werden in den Spektrum-Aufbereiter110 , den Sprachaktivitätsdetektor120 und die gerichtete Vorrichtung150 eingespeist. - Der Spektrum-Aufbereiter
110 filtert das Ausgangssignal jeder kreisförmigen Mikrofon-Teilanordnung getrennt, bevor das Ausgangssignal der kreisförmigen Mikrofon-Teilanordnungen in den Schätzer130 eingegeben wird. Der Zweck der Filterung besteht darin, die durch den Schätzer130 durchgeführte Prozedur auf ein schmales Frequenzband zu beschränken, das für das beste Leistungsvermögen des Schätzers130 wie auch zur Unterdrückung von Geräuschquellen ausgewählt wird. - Der Schätzer
130 erzeugt Positionsschätzwerte erster Ordnung nach Segmentnummern, wie es Stand der Technik ist, und gibt die Positionsschätzwerte an die Entscheidungslogik140 aus. Während des Betriebs des Schätzers130 wird auf jede der Positionen eine Strahlformerinstanz "gerichtet" (das heißt, auf die verschiedenen Mikrofon-Ausgangsaudiosignale werden unterschiedliche Dämpfungs-Wichtungsfaktoren angewendet). Die Position mit dem stärksten Strahlformer-Ausgangssignal wird als die Audiosignalquelle festgelegt. Da die Strahlformerinstanzen nur für Energieberechnungen verwendet werden, ist die Qualität des Strahlformer-Ausgangssignals nicht besonders wichtig. Daher kann ein einfacher Strahlformungsalgorithmus wie zum Beispiel ein Verzögerungs- und Summen-Strahlformeralgorithmus verwendet werden, im Gegensatz zu den meisten Telekonferenz-Implementierungen, wo zur Messung der Leistung an jeder Position Strahlformer hoher Qualität verwendet werden, die Filter- und Summen-Strahlformeralgorithmen ausführen. Spezifische Einzelheiten des Spektrum-Aufbereiters110 und des Schätzers130 sind in der am 30. Juni 2000 eingereichten GB-Patentanmeldung Nr. 0016142 für eine Erfindung mit dem Titel "Method and Apparatus For Locating A Talker" beschrieben. Dementsprechend werden weitere Einzelheiten des Spektrumn-Aufbereiters110 und des Schätzers130 hierin nicht weiter beschrieben. - Der Sprachaktivitätsdetektor
120 bestimmt mit Sprache gefüllte Zeitsegmente, um in Sprechpausen die Sprecherlokalisierung auszusetzen. Wie in2 zu sehen ist, weist der Sprachaktivitätsdetektor120 eine Anordnung von Strahlformern200 auf, die jeweils eine Instanz eines herkömmlichen Strahlformungsalgorithmus BAN ausführen, wobei N die Anzahl der Strahlformer200 in der Anordnung ist. Jeder Strahlformungsalgorithmus BAN hat eine andere "Blickrichtung" entsprechend den Segmenten der Mikrofonanordnung100 . Jeder Strahlformungsalgorithmus BAN verarbeitet die Audiosignale auf seinem Kanal, die von den kreisförmigen Mikrofon-Teilanordnungen MN empfangen werden, um Audioleistungssignale zu erzeugen. Während dieser Verarbeitung werden Nachhall und Umgebungsgeräusche in den Audiosignalen gedämpft. Infolgedessen wird das Signal-Rausch-Verhältnis (SNR) der durch die kreisförmigen Mikrofon-Teilanordnungen MN ausgegebenen Audiosignale verbessert. - Der Sprachaktivitätsdetektor
120 weist ferner eine Anordnung von Sprachaktivitätsdetektor-(VAD-)Modulen202 auf, die jeweils eine Instanz eines VAD-Algorithmus VADAN ausführen. Jedes VAD-Modul202 empfängt das Ausgangssignal eines jeweiligen der Strahlformer200 . Da die Signale, die durch die VAD-Module202 von den Strahlformern200 empfangen werden, ein verbessertes SNR haben, wird das Leistungsvermögen der VAD-Algorithmen verbessert. Die Ausgangssignale der Strahlformer200 und die Ausgangssignale der VAD-Module202 werden an die Entscheidungslogik204 übermittelt. - Die Entscheidungslogik
204 führt einen Entscheidungslogik-Algorithmus aus und erzeugt als Antwort auf die Ausgangssignale der VAD-Module202 entweder ein "Sprechzustand"- oder ein "Sprechpause"-Entscheidungslogik-Ausgangssignal.3 ist eine Zustandsmaschine, die den durch die Entscheidungslogik204 ausgeführten Entscheidungslogik-Algorithmus zeigt. Wie zu sehen ist, werden die Ausgangssignale der Strahlformer200 in dieser Ausführungsform verworfen. Die Ausgangssignale der VAD-Module202 jedoch werden untersucht, um zu bestimmen, ob einer oder mehrere der VAD-Algorithmen ein Ausgangssignal erzeugt haben, das das Vorhandensein von Sprache bedeutet, die durch eine oder mehrere der kreisförmigen Mikrofon-Teilanordnungen aufgenommen wurde. Das durch die Entscheidungslogik204 erzeugte Logik-Ausgangssignal wird an die Entscheidungslogik140 übermittelt. - Die Entscheidungslogik
140 ist in4 näher dargestellt, und wie zu sehen ist, ist die Entscheidungslogik eine Zustandsmaschine, die das Ausgangssignal des Sprachaktivitätsdetektors120 verwendet, um die vom Schätzer130 empfangenen Positionsschätzwerte zu filtern. Die Positionsschätzwerte, die durch die Entscheidungslogik140 empfangen werden, wenn der Sprachaktivitätsdetektor120 ein "Sprechpause"-Entscheidungslogik-Ausgangssignal erzeugt, das heißt während Pausen beim Sprechen, werden ignoriert (Schritte300 und320 ). Die Positionsschätzwerte, die durch die Entscheidungslogik140 empfangen werden, wenn der Sprachaktivitätsdetektor120 ein "Sprechzustand"-Entscheidungslogik-Ausgangssignal erzeugt, werden gespeichert (Schritt310 ) und dann einem Überprüfungsprozeß unterzogen. Während des Überprüfungsprozesses wartet die Entscheidungslogik140 darauf, daß der Schätzer130 einen Rahmen beendet und seinen Positionsschätzwert bis zu einer Schwellwertzahl n von Wiederholungen wiederholt, einschließlich bis zu m < n Fehler. - Ein FIFO-Stapelspeicher
330 speichert die Positionsschätzwerte. Die Größe des Stapelspeichers und die Mindestzahl n der für die Überprüfung benötigten korrekten Positionsschätzwerte werden auf der Grundlage des Sprach-Leistungsvermögens des Sprachaktivitätsdetektors120 und des Schätzers130 gewählt. Jeder neue Positionsschätzwert, der durch den Sprachaktivitätsdetektor120 als mit Sprache gefüllt festgelegt worden ist, wird an die Spitze des FIFO-Stapelspeichers330 verschoben. Ein Zähler340 zählt, wie oft in der Vergangenheit der letzte Positionsschätzwert innerhalb der Größenbeschränkung M des FIFO-Stapelspeichers330 aufgetreten ist. Wenn der aktuelle Positionsschätzwert öfter als die Schwellwertzahl von Wiederholungen aufgetreten ist, wird der aktuelle Positionsschätzwert als richtig erkannt (Schritt350 ), und das Schätzungs-Ausgangssignal wird aktualisiert (Schritt360 ) und in einem Zwischenspeicher gespeichert (Schritt380 ). Wenn der Zähler340 den Schwellwert n nicht erreicht, bleibt die Zählerausgabe so, wie sie vorher war (Schritt370 ). In Sprechpausen wird keine Überprüfung durchgeführt (Schritt300 ), und statt des Positionsschätzwerts wird ein Wert von 0xFFFFF(xx) an die erste Stelle des FIFO-Stapelspeichers330 verschoben. Die Zählerausgabe wird nicht verändert. - Das Ausgangssignal der Entscheidungslogik
140 ist ein als richtig erkannter endgültiger Positionsschätzwert, der dann durch die gerichtete Vorrichtung150 verwendet wird. Wenn erwünscht, muß die Entscheidungslogik140 nicht darauf warten, daß der Schätzer130 Rahmen beendet. Die Entscheidungslogik140 kann natürlich die für jeden Abtastwert erzeugten Ausgangssignale des Sprachaktivitätsdetektors120 und des Schätzers130 verarbeiten. - Wie man anerkennen wird, sorgt der Sprachaktivitätsdetektor
120 unabhängig von den durch die VAD-Module202 ausgeführten VAD-Algorithmen für eine genauere Sprechzustand/Sprechpause-Bestimmung, und zwar aufgrund der Tatsache, daß die VAD-Algorithmen Signale mit verbessertem SNR verarbeiten. Das Maß, bis zu dem die Sprechzustand/Sprechpause-Bestimmung verbessert wird, hängt vom Maß der Richtwirkung der durch die Strahlformer200 ausgeführten Strahlformungsalgorithmen ab. - Wendet man sich nunmehr
5 zu, so ist dort die Zustandsmaschine einer alternativen Ausführungsform eines durch die Entscheidungslogik140 ausgeführten Entscheidungslogik-Algorithmus gezeigt. Wie zu sehen ist, werden in dieser Ausführungsform die Ausgangssignale der Strahlformer200 untersucht, um den Strahlformer200 zu bestimmen, der die lautesten Audiosignale empfängt. Das Ausgangssignal des VAD-Moduls202 , das das Ausgangssignal von dem bestimmten Strahlformer200 empfängt, wird dann untersucht, um zu bestimmen, ob das Ausgangssignal Sprache in den Audiosignalen bedeutet. - Wenngleich spezifische Beispiele für Entscheidungslogik-Algorithmen beschrieben werden, wird der Fachmann anerkennen, daß andere Logik verwendet werden kann, um die Ausgangssignale der Strahlformer
200 und der VAD-Module202 zu verarbeiten, um eine "Sprechzustand oder Sprechpause"-Bestimmung zu erbringen. Außerdem kann, wenngleich die Strahlformer200 so beschrieben sind, daß sie Ausgangssignale von Audio-Schallaufnehmern in Form von kreisförmigen Mikrofon-Teilanordnungen empfangen, jeder Strahlformer200 das Ausgangssignal von individuellen ungerichteten Mikrofonen empfangen. Ferner wird der Fachmann anerkennen, wenngleich der Sprachaktivitätsdetektor mit Bezug auf ein spezifisches Sprecher-Lokalisierungssystem gezeigt und beschrieben wird, daß der Sprachaktivitätsdetektor120 in grundsätzlich jeder Umgebung verwendet werden kann, wo mehrere Schallaufnehmer verfügbar sind und es erwünscht ist, das Vorhandensein von Sprache in Audiosignalen zu erkennen. - Wenngleich bevorzugte Ausführungsformen der vorliegenden Erfindung beschrieben worden sind, wird der Fachmann anerkennen, daß Veränderungen und Modifikationen möglich sind, ohne von ihrem Schutzbereich abzuweichen, wie er in den beigefügten Ansprüchen definiert ist.
Claims (12)
- Verfahren zur Erkennung von Sprachaktivität mit den folgenden Schritten: Empfangen von Audiosignalen auf einer Vielzahl von Kanälen; Verarbeiten der Audiosignale auf den Kanälen, um ihr Signal-Rausch-Verhältnis zu verbessern, mit den folgenden Schritten: Einspeisen der Audiosignale auf mehreren Kanälen in Strahlformungsalgorithmen während der Verarbeitung, wobei jeder Strahlformungsalgorithmus einer anderen Sichtverbindungsrichtung zugeordnet ist; Einspeisen der verarbeiteten Audiosignale auf jedem Kanal in einen zugeordneten Sprachaktivitätserkennungsalgorithmus und Weiterverarbeiten der Audiosignale mit den Sprachaktivitätserkennungsalgorithmen; und Erbringen einer Sprechzustand/Sprechpause-Bestimmung auf der Grundlage mindestens des Ausgangssignals der Sprachaktivitätserkennungsalgorithmen.
- Verfahren nach Anspruch 1, wobei das Erbringen nur auf dem Ausgangssignal der Sprachaktivitätserkennungsalgorithmen beruht.
- Verfahren nach Anspruch 1, wobei das Erbringen sowohl auf dem Ausgangssignal der Sprachaktivitätserkennungsalgorithmen als auch auf dem Ergebnis der Strahlformungsalgorithmen beruht.
- Verfahren nach Anspruch 3, wobei das Erbringen auf dem Ergebnis eines ausgewählten der Sprachaktivitätserkennungsalgorithmen beruht, wobei der eine ausgewählte Sprachaktivitätserkennungsalgorithmus dem Strahlformungsalgorithmus zugeordnet ist, der Leistungsinformationssignale ausgibt, welche die lautesten Audiosignale darstellen.
- Verfahren nach einem der Ansprüche 1 bis 4, wobei die Audiosignale auf den Kanälen durch ungerichtete Schallaufnehmer empfangen werden.
- Sprachaktivitätsdetektor (
120 ) mit: einer Anordnung von Strahlformern (200 ), wobei jeder Strahlformer (200 ) in der Anordnung eine andere Sichtverbindungsrichtung hat und Audiosignale auf mehreren Kanälen empfängt, wobei jeder Strahlformer (200 ) die Audiosignale verarbeitet, um deren Signal-Rausch-Verhältnis zu verbessern; einer Anordnung von Sprachaktivitätsdetektormodulen (202 ), wobei jedes Sprachaktivitätsdetektormodul (202 ) einem jeweiligen der Strahlformer (200 ) zugeordnet ist und das Ausgangssignal des zugeordneten Strahlformers (200 ) verarbeitet; und einer Logik, die das Ausgangssignal der Sprachaktivitätsdetektormodule (202 ) empfängt und ein Ausgangssignal erzeugt, welches das Vorhandensein oder Nichtvorhandensein von Sprache in den Audiosignalen bedeutet. - Sprachaktivitätsdetektor nach Anspruch 6, wobei die Strahlformer (
200 ) den Nachhall und das Umgebungsgeräusch in den Audiosignalen dämpfen. - Sprachaktivitätsdetektor nach Anspruch 7, wobei die Strahlformer (
200 ) die Audiosignale von ungerichteten Schallaufnehmern empfangen. - Sprachaktivitätsdetektor nach Anspruch 8, wobei die ungerichteten Schallaufnehmer ungerichtete Mikrofon-Teilanordnungen sind.
- Sprachaktivitätsdetektor nach Anspruch 8, wobei die ungerichteten Schallaufnehmer ungerichtete Mikrofone sind.
- Sprachaktivitätsdetektor nach einem der Ansprüche 6 bis 10, wobei die Logik ferner das Ausgangssignal der Strahlformer (
200 ) empfängt. - Sprachaktivitätsdetektor nach Anspruch 11, wobei die Logik das Ausgangssignal auf der Grundlage der Ausgangssignale der Sprachaktivitätsmodule und der Strahlformer (
200 ) erzeugt.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0120322 | 2001-08-21 | ||
GB0120322A GB2379148A (en) | 2001-08-21 | 2001-08-21 | Voice activity detection |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60212528D1 DE60212528D1 (de) | 2006-08-03 |
DE60212528T2 true DE60212528T2 (de) | 2007-01-18 |
Family
ID=9920748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60212528T Revoked DE60212528T2 (de) | 2001-08-21 | 2002-08-19 | Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung |
Country Status (5)
Country | Link |
---|---|
US (1) | US20030053639A1 (de) |
EP (1) | EP1286328B1 (de) |
CA (1) | CA2397826A1 (de) |
DE (1) | DE60212528T2 (de) |
GB (1) | GB2379148A (de) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1580882B1 (de) * | 2004-03-19 | 2007-01-10 | Harman Becker Automotive Systems GmbH | System und Verfahren zur Verbesserung eines Audiosignals |
EP1833163B1 (de) * | 2004-07-20 | 2019-12-18 | Harman Becker Automotive Systems GmbH | Audioverbesserungssystem und -verfahren |
US7970151B2 (en) * | 2004-10-15 | 2011-06-28 | Lifesize Communications, Inc. | Hybrid beamforming |
US7826624B2 (en) * | 2004-10-15 | 2010-11-02 | Lifesize Communications, Inc. | Speakerphone self calibration and beam forming |
US20060133621A1 (en) * | 2004-12-22 | 2006-06-22 | Broadcom Corporation | Wireless telephone having multiple microphones |
US20070116300A1 (en) * | 2004-12-22 | 2007-05-24 | Broadcom Corporation | Channel decoding for wireless telephones with multiple microphones and multiple description transmission |
US7983720B2 (en) * | 2004-12-22 | 2011-07-19 | Broadcom Corporation | Wireless telephone with adaptive microphone array |
US20060147063A1 (en) * | 2004-12-22 | 2006-07-06 | Broadcom Corporation | Echo cancellation in telephones with multiple microphones |
US8509703B2 (en) * | 2004-12-22 | 2013-08-13 | Broadcom Corporation | Wireless telephone with multiple microphones and multiple description transmission |
US8170221B2 (en) * | 2005-03-21 | 2012-05-01 | Harman Becker Automotive Systems Gmbh | Audio enhancement system and method |
DE602005015426D1 (de) | 2005-05-04 | 2009-08-27 | Harman Becker Automotive Sys | System und Verfahren zur Intensivierung von Audiosignalen |
US8374851B2 (en) * | 2007-07-30 | 2013-02-12 | Texas Instruments Incorporated | Voice activity detector and method |
US8428661B2 (en) * | 2007-10-30 | 2013-04-23 | Broadcom Corporation | Speech intelligibility in telephones with multiple microphones |
US8208656B2 (en) * | 2009-06-23 | 2012-06-26 | Fortemedia, Inc. | Array microphone system including omni-directional microphones to receive sound in cone-shaped beam |
JP5793500B2 (ja) * | 2009-10-19 | 2015-10-14 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 音声区間検出器及び方法 |
CN102884575A (zh) | 2010-04-22 | 2013-01-16 | 高通股份有限公司 | 话音活动检测 |
US8898058B2 (en) * | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
EP2494545A4 (de) * | 2010-12-24 | 2012-11-21 | Huawei Tech Co Ltd | Verfahren und vorrichtung zur erkennung von sprachaktivitäten |
US9226088B2 (en) | 2011-06-11 | 2015-12-29 | Clearone Communications, Inc. | Methods and apparatuses for multiple configurations of beamforming microphone arrays |
US9615172B2 (en) * | 2012-10-04 | 2017-04-04 | Siemens Aktiengesellschaft | Broadband sensor location selection using convex optimization in very large scale arrays |
JP2014106247A (ja) * | 2012-11-22 | 2014-06-09 | Fujitsu Ltd | 信号処理装置、信号処理方法および信号処理プログラム |
GB2553683B (en) * | 2013-06-26 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Speech recognition |
US9697831B2 (en) | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
CN103426440A (zh) * | 2013-08-22 | 2013-12-04 | 厦门大学 | 利用能量谱熵空间信息的语音端点检测装置及其检测方法 |
US10360926B2 (en) * | 2014-07-10 | 2019-07-23 | Analog Devices Global Unlimited Company | Low-complexity voice activity detection |
US9565493B2 (en) | 2015-04-30 | 2017-02-07 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
US9554207B2 (en) | 2015-04-30 | 2017-01-24 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
US9691413B2 (en) * | 2015-10-06 | 2017-06-27 | Microsoft Technology Licensing, Llc | Identifying sound from a source of interest based on multiple audio feeds |
US10366701B1 (en) * | 2016-08-27 | 2019-07-30 | QoSound, Inc. | Adaptive multi-microphone beamforming |
US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
CN107424625A (zh) * | 2017-06-27 | 2017-12-01 | 南京邮电大学 | 一种基于向量机框架的多通道语音活动检测方法 |
WO2019126569A1 (en) * | 2017-12-21 | 2019-06-27 | Synaptics Incorporated | Analog voice activity detector systems and methods |
US10586538B2 (en) | 2018-04-25 | 2020-03-10 | Comcast Cable Comminications, LLC | Microphone array beamforming control |
CN112335261B (zh) | 2018-06-01 | 2023-07-18 | 舒尔获得控股公司 | 图案形成麦克风阵列 |
US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
WO2020061353A1 (en) | 2018-09-20 | 2020-03-26 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
EP3942845A1 (de) | 2019-03-21 | 2022-01-26 | Shure Acquisition Holdings, Inc. | Autofokus, autofokus in regionen und autoplatzierung von strahlgeformten mikrofonkeulen mit hemmfunktion |
US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
US11303981B2 (en) | 2019-03-21 | 2022-04-12 | Shure Acquisition Holdings, Inc. | Housings and associated design features for ceiling array microphones |
US11445294B2 (en) | 2019-05-23 | 2022-09-13 | Shure Acquisition Holdings, Inc. | Steerable speaker array, system, and method for the same |
EP3977449A1 (de) | 2019-05-31 | 2022-04-06 | Shure Acquisition Holdings, Inc. | Mit sprach- und rauschaktivitätsdetektion integrierter automatischer mischer mit niedriger latenz |
US11650625B1 (en) * | 2019-06-28 | 2023-05-16 | Amazon Technologies, Inc. | Multi-sensor wearable device with audio processing |
JP2022545113A (ja) | 2019-08-23 | 2022-10-25 | シュアー アクイジッション ホールディングス インコーポレイテッド | 指向性が改善された一次元アレイマイクロホン |
CN110648692B (zh) * | 2019-09-26 | 2022-04-12 | 思必驰科技股份有限公司 | 语音端点检测方法及*** |
WO2021087377A1 (en) | 2019-11-01 | 2021-05-06 | Shure Acquisition Holdings, Inc. | Proximity microphone |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
USD944776S1 (en) | 2020-05-05 | 2022-03-01 | Shure Acquisition Holdings, Inc. | Audio device |
WO2021243368A2 (en) | 2020-05-29 | 2021-12-02 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
EP4285605A1 (de) | 2021-01-28 | 2023-12-06 | Shure Acquisition Holdings, Inc. | Hybrides audiostrahlformungssystem |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1147071A (en) * | 1980-09-09 | 1983-05-24 | Northern Telecom Limited | Method of and apparatus for detecting speech in a voice channel signal |
US4741038A (en) * | 1986-09-26 | 1988-04-26 | American Telephone And Telegraph Company, At&T Bell Laboratories | Sound location arrangement |
IL84902A (en) * | 1987-12-21 | 1991-12-15 | D S P Group Israel Ltd | Digital autocorrelation system for detecting speech in noisy audio signal |
US5402520A (en) * | 1992-03-06 | 1995-03-28 | Schnitta; Bonnie S. | Neural network method and apparatus for retrieving signals embedded in noise and analyzing the retrieved signals |
GB2278984A (en) * | 1993-06-11 | 1994-12-14 | Redifon Technology Limited | Speech presence detector |
US5884255A (en) * | 1996-07-16 | 1999-03-16 | Coherent Communications Systems Corp. | Speech detection system employing multiple determinants |
JPH10145487A (ja) * | 1996-11-15 | 1998-05-29 | Kyocera Corp | 高品質拡声情報通信システム |
US6469732B1 (en) * | 1998-11-06 | 2002-10-22 | Vtel Corporation | Acoustic source location using a microphone array |
US6430528B1 (en) * | 1999-08-20 | 2002-08-06 | Siemens Corporate Research, Inc. | Method and apparatus for demixing of degenerate mixtures |
JP2001075594A (ja) * | 1999-08-31 | 2001-03-23 | Pioneer Electronic Corp | 音声認識システム |
US6219645B1 (en) * | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
US6449593B1 (en) * | 2000-01-13 | 2002-09-10 | Nokia Mobile Phones Ltd. | Method and system for tracking human speakers |
GB2364121B (en) * | 2000-06-30 | 2004-11-24 | Mitel Corp | Method and apparatus for locating a talker |
-
2001
- 2001-08-21 GB GB0120322A patent/GB2379148A/en not_active Withdrawn
-
2002
- 2002-08-13 CA CA002397826A patent/CA2397826A1/en not_active Abandoned
- 2002-08-15 US US10/222,942 patent/US20030053639A1/en not_active Abandoned
- 2002-08-19 DE DE60212528T patent/DE60212528T2/de not_active Revoked
- 2002-08-19 EP EP02255766A patent/EP1286328B1/de not_active Revoked
Also Published As
Publication number | Publication date |
---|---|
EP1286328A3 (de) | 2004-02-18 |
CA2397826A1 (en) | 2003-02-21 |
GB2379148A (en) | 2003-02-26 |
US20030053639A1 (en) | 2003-03-20 |
DE60212528D1 (de) | 2006-08-03 |
EP1286328B1 (de) | 2006-06-21 |
GB0120322D0 (en) | 2001-10-17 |
EP1286328A2 (de) | 2003-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60212528T2 (de) | Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung | |
DE69932626T2 (de) | Signalverarbeitungsvorrichtung und verfahren | |
DE60303338T2 (de) | Orthogonales und kreisförmiges Gruppensystem von Mikrofonen und Verfahren zur Erkennung der dreidimensionalen Richtung einer Schallquelle mit diesem System | |
EP1251493B1 (de) | Verfahren zur Geräuschreduktion mit selbststeuernder Störfrequenz | |
EP1977626B1 (de) | Verfahren zur aufnahme einer tonquelle mit zeitlich variabler richtcharakteristik und zur wiedergabe | |
DE112009000805B4 (de) | Rauschreduktion | |
EP1595427B1 (de) | Verfahren und vorrichtung zur separierung von schallsignalen | |
DE69324646T2 (de) | Verfahren für die Ortsbestimmung eines Sprechers und zur Erhaltung einer Nachricht und verwandte Systeme | |
DE112016006218B4 (de) | Schallsignal-Verbesserungsvorrichtung | |
DE60022304T2 (de) | Verfahren und Anordnung zur Ortung von Sprechern | |
DE102017102134A1 (de) | Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung | |
DE102011012573B4 (de) | Sprachbedienvorrichtung für Kraftfahrzeuge und Verfahren zur Auswahl eines Mikrofons für den Betrieb einer Sprachbedienvorrichtung | |
WO2009049773A1 (de) | Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung | |
WO2002075725A1 (de) | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals | |
DE102014002899A1 (de) | Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung | |
DE102018109247A1 (de) | Verfahren zur genauen Berechnung der Ankunftsrichtung von Schall an einer Mikrofon-Anordnung | |
DE112012006780T5 (de) | Strahlformungsvorrichtung | |
EP3490270B1 (de) | Verfahren zum betrieb eines hörgerätes | |
AT510359B1 (de) | Verfahren zur akustischen signalverfolgung | |
DE60304147T2 (de) | Virtuelle Mikrophonanordnung | |
DE102018117558A1 (de) | Adaptives nachfiltern | |
AT514412A1 (de) | Verfahren zur Erhöhung der Sprachverständlichkeit | |
DE112017007051B4 (de) | Signalverarbeitungsvorrichtung | |
DE112018002744T5 (de) | Schallerfassung | |
DE102019105458B4 (de) | System und Verfahren zur Zeitverzögerungsschätzung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8363 | Opposition against the patent | ||
8331 | Complete revocation |