DE102012220688A1 - Verfahren zum Betreiben eines Telefonkonferenzsystems und Telefonkonferenzsystem - Google Patents

Verfahren zum Betreiben eines Telefonkonferenzsystems und Telefonkonferenzsystem Download PDF

Info

Publication number
DE102012220688A1
DE102012220688A1 DE201210220688 DE102012220688A DE102012220688A1 DE 102012220688 A1 DE102012220688 A1 DE 102012220688A1 DE 201210220688 DE201210220688 DE 201210220688 DE 102012220688 A DE102012220688 A DE 102012220688A DE 102012220688 A1 DE102012220688 A1 DE 102012220688A1
Authority
DE
Germany
Prior art keywords
audio
audio signal
audio signals
activity
linguistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE201210220688
Other languages
English (en)
Inventor
Christian Hoene
Michael Haun
Patrick Schreiner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Symonics GmbH
Original Assignee
Symonics GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Symonics GmbH filed Critical Symonics GmbH
Priority to DE201210220688 priority Critical patent/DE102012220688A1/de
Priority to PCT/EP2013/073720 priority patent/WO2014076129A1/de
Publication of DE102012220688A1 publication Critical patent/DE102012220688A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/50Aspects of automatic or semi-automatic exchanges related to audio conference
    • H04M2203/5072Multiple active speakers

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Ein Verfahren zum Betreiben eines Telefonkonferenzsystems für mindestens zwei Gesprächsteilnehmer weist folgende Schritte auf: Ermitteln einer sprachlichen Aktivität eines jeweiligen Gesprächsteilnehmers und für den Fall, dass bei mehr als einem Gesprächsteilnehmer eine sprachliche Aktivität ermittelt wird, Wiedergeben nur einer einzelnen sprachlichen Aktivität und zeitverzögertes Wiedergeben der verbleibenden sprachlichen Aktivitäten.

Description

  • Die Erfindung betrifft ein Verfahren zum Betreiben eines Telefonkonferenzsystems und ein Telefonkonferenzsystem.
  • In Zuge einer Telefonkonferenz werden auf Sprache basierende Audiosignale der jeweiligen Gesprächsteilnehmer der Telefonkonferenz gemischt, so dass ein jeweiliger Gesprächsteilnehmer die anderen Gesprächsteilnehmer hören kann. Ein System, das mehrere Gesprächsteilnehmer derart zusammenschaltet, wird als Telefonkonferenzsystem bezeichnet.
  • Bei Telefonkonferenzsystemen, die zur Übertragung von auf Sprache basierenden Audiosignalen einkanalige (mono) Übertragungskanäle verwenden, sollte vermieden werden, dass mehrere Gesprächsteilnehmer gleichzeitig sprechen, da basierend auf dem überlagerten Audiosignal ein Separieren der Gesprächsteilnehmer nur schwer möglich ist.
  • In einer klassischen Telefonkonferenz basierend auf einkanaliger Audiosignalübertragung entscheidet daher typischer Weise ein Moderator darüber, wer gerade sprechen darf. In der Regel versuchen alle Gesprächsteilnehmer es zu vermeiden, anderen ins Wort zu fallen.
  • Eine technologisch anspruchsvolle Alternative um mit mehreren gleichzeitigen Gesprächsteilnehmern bzw. Sprechern umzugehen ist die Verwendung von Raumklang-, Surround- oder Stereoübertragungstechnologien. Ein Hörer kann nämlich Stimmen, die aus unterschiedlichen Richtungen kommen, separieren und sich auf eine fokussieren. Dies wird auch Cocktail-Party-Effekt genannt.
  • Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum Betreiben eines Telefonkonferenzsystems und ein Telefonkonferenzsystem zur Verfügung zu stellen, die die Verwendung einkanaliger (mono) Übertragungskanäle bei gleichzeitiger Separierbarkeit der einzelnen Gesprächsanteile ermöglichen, ohne dass beispielweise ein Moderator entscheidet, wer gerade sprechen darf.
  • Die Erfindung löst diese Aufgabe durch ein Verfahren nach Anspruch 1 und ein Telefonkonferenzsystem nach Anspruch 2.
  • Das Verfahren dient zum Betreiben eines Telefonkonferenzsystems für mindestens zwei (Gesprächs-)Teilnehmer.
  • Das Verfahren weist folgende Schritte auf:
    Es wird, insbesondere fortlaufend, eine sprachliche Aktivität eines jeweiligen Gesprächsteilnehmers ermittelt, d.h. es wird beispielsweise ermittelt, ob ein jeweiliger Gesprächsteilnehmer spricht oder schweigt.
  • Für den Fall, dass bei mehr als einem Gesprächsteilnehmer eine sprachliche Aktivität ermittelt wird, d.h. es sprechen mehrere Gesprächsteilnehmer gleichzeitig, wird nur eine einzelne sprachliche Aktivität (d.h. der Gesprächsbeitrag eines einzelnes Gesprächsteilnehmers) zu einem Zeitpunkt wiedergegeben und die verbleibenden sprachlichen Aktivitäten bzw. Gesprächsbeiträge werden zeitverzögert nacheinander wiedergegeben. Hierbei können die sprachlichen Aktivitäten in der Reihenfolge ihres zeitlichen Entstehens sequentiell wiedergegeben werden.
  • Die Ermittlung der sprachlichen Aktivität kann eine so genannte Voice Activity Detection (VAD) umfassen. Grundsätzlich wird im Zuge der VAD die Anwesenheit oder Abwesenheit menschlicher Sprache bzw. eines Gesprächsbeitrags ermittelt, d.h. es wird ermittelt, ob ein Gesprächsteilnehmer schweigt oder spricht. Mittels VAD kann folglich Stille und Sprachaktivität ermittelt bzw. erkannt werden. Ein Umschalten zwischen Gesprächsteilnehmern oder Gesprächsbeiträgen kann beispielsweise am Beginn einer Sprachpause durchgeführt werden. Im Übrigen sei auch auf die einschlägige Fachliteratur verwiesen.
  • Die Ermittlung der sprachlichen Aktivität kann weiter basierend darauf durchgeführt werden, ob es sich um wichtige oder unwichtige Sprachsegmente handelt. Für den Fall eines als wichtig klassifizierten Audiosignals bzw. Sprachsegments, wird eine sprachliche Aktivität ermittelt oder erkannt. Für den Fall eines als nicht wichtig klassifizierten Audiosignals bzw. Sprachsegments, wird keine sprachliche Aktivität ermittelt oder erkannt.
  • Audiosignale verschiedener Gesprächsteilnehmer, in denen mehrere Sprachsegmente präsent sind, die als unwichtig und somit nicht als sprachliche Aktivität klassifiziert sind, können miteinander gemischt und gleichzeitig wiedergegeben werden. Unwichtige Teile wären zum Beispiel Sprachsegmente, in denen sich Sprachmerkmale nicht verändern, beispielsweise während eines „aaah“.
  • Lediglich bei wichtigen Sprachsegmenten, d.h. bei ermittelter sprachlicher Aktivität, ist ein Mischen und gleichzeitiges Wiedergeben nicht empfehlenswert, da die unterschiedlichen und miteinander gemischten Gesprächsanteile von einem Hörer nur schwer wieder separierbar sind, so dass die wichtigen Gesprächsanteile nacheinander wiederzugeben sind, obwohl sie zumindest teilweise gleichzeitig entstehen. Wichtige Teile sind in der Regel die Anlaute (Onsets), sobald angefangen wird zu sprechen.
  • Wenn ein so genannter Codec verwendet wird, der mit variabler Bitrate ein Audiosignal in Form eines Audio-Stroms komprimiert, kann eine sprachliche Aktivität dann mit hoher Wahrscheinlichkeit ausgeschlossen werden, wenn der Codec einen komprimierten Datenstrom mit geringer Bitrate erzeugt.
  • Darüber hinaus ist es möglich, die Audiosignale in die Frequenzdomäne zu transformieren und zu untersuchen, ob sich die Audiosignale in einem oder mehreren Frequenzbändern überlagern. Wenn eine Überlagerung vorliegt, wird auf eine gleichzeitige sprachliche Aktivität geschlossen und es erfolgt keine gleichzeitige Wiedergabe. Wenn keine Überlagerung vorliegt, kann gemischt und gleichzeitig wiedergegeben werden. So würden zum Beispiel eine hohe und eine tiefe Stimme gleichzeitig wiedergegeben werden, wohingegen zwei gleichhohe Stimmen nicht gemischt und gleichzeitig wiedergegeben werden.
  • Eine Kombination der oben genannten Verfahren ist möglich.
  • Das Telefonkonferenzsystem ist für mindestens zwei Gesprächsteilnehmer vorgesehen und ist bevorzugt zur Durchführung des oben genannten Verfahrens ausgebildet.
  • Das Telefonkonferenzsystem umfasst mindestens zwei Audiosignalquellen, wobei eine jeweilige Audiosignalquelle einem Gesprächsteilnehmer zugeordnet und dazu ausgebildet ist, in Abhängigkeit von einer sprachlichen Aktivität des Gesprächsteilnehmers ein Audiosignal zu erzeugen. Das Audiosignal kann ein analoges Audiosignal sein. Typisch handelt es sich jedoch um ein digitales Audiosignal.
  • Weiter ist mindestens ein Puffer bzw. Zwischenspeicher vorgesehen, wobei der Zwischenspeicher dazu ausgebildet ist, zumindest einen Teil eines jeweiligen Audiosignals zwischenzuspeichern. Der Zwischenspeicher kann als First-In-First-Out-Speicher ausgebildet sein. Der Zwischenspeicher kann weiter als Ringspeicher ausgebildet sein. Weiter kann der Zwischenspeicher das (digitale) Audiosignal in Abhängigkeit von einem Steuersignal speichern, das von einer Steuereinrichtung bei Speicherungsbedarf erzeugt wird. Der Zwischenspeicher kann ein elektrischer Speicher, beispielsweise RAM, magnetischer Speicher, usw. sein. Es kann genau ein Zwischenspeicher vorgesehen sein oder es kann pro Audiosignal ein Zwischenspeicher vorgesehen sein.
  • Weiter ist mindestens eine Sprachaktivitätserkennungseinrichtung vorgesehen, die dazu ausgebildet ist, eine sprachliche Aktivität in einem jeweiligen Audiosignal zu ermitteln. Die Sprachaktivitätserkennungseinrichtung kann als Mikroprozessor ausgebildet sein, auf dem eine geeignete Sprachaktivitätserkennungssoftware abläuft. Es kann genau eine Sprachaktivitätserkennungseinrichtung vorgesehen sein oder es kann pro Audiosignal eine Sprachaktivitätserkennungseinrichtung vorgesehen sein.
  • Weiter ist eine (digitale) Audiosignalmischeinrichtung vorgesehen, die dazu ausgebildet ist, (digitale) Eingangsaudiosignale miteinander zu mischen und die gemischten Eingangsaudiosignale als Ausgangsaudiosignal auszugeben. Das Ausgangsaudiosignal kann gleichzeitig an mehreren Ausgängen der Audiosignalmischeinrichtung ausgegeben werden.
  • Weiter sind mindestens zwei Lautsprecher vorgesehen, wobei ein Lautsprecher einem Gesprächsteilnehmer zugeordnet ist, das Ausgangsaudiosignal der Audiosignalmischeinrichtung empfängt und als korrespondierendes Schallsignal ausgibt.
  • Eine Steuereinrichtung des Telefonkonferenzsystems ist dazu ausgebildet, für den Fall, dass in mehr als einem einzelnen der Audiosignale eine sprachliche Aktivität erkannt wird, nur ein einzelnes derjenigen Audiosignale, in denen eine sprachliche Aktivität erkannt wird, an die Audiosignalmischeinrichtung als Audioeingangssignal auszugeben und die nicht an die Audiosignalmischeinrichtung als Audioeingangssignal ausgegebenen Audiosignale, in denen eine sprachliche Aktivität erkannt wird, in dem Zwischenspeicher zwischenzuspeichern, d.h. beispielsweise den Zwischenspeicher zum Zwischenspeichern der Audiosignale anzusteuern, und zeitverzögert als Audioeingangssignal an den Audiosignalmischeinrichtung auszugeben, damit diese zeitverzögert wiedergegeben werden. Die Audiosignale können vor ihrer Wiedergabe ausschließlich während ihrer ermittelten sprachlichen Aktivität zwischengespeichert werden.
  • Die Steuereinrichtung kann dazu ausgebildet sein, für den Fall, dass in keinem der Audiosignale eine sprachliche Aktivität erkannt wird, zu überprüfen, ob zwischengespeicherte Audiosignale vorhanden sind, und falls zwischengespeicherte Audiosignale vorhanden sind, die zwischengespeicherten Audiosignale einzeln nacheinander oder gemischt so lange an den Audiosignalmischeinrichtung als Audioeingangssignale auszugeben, bis keine zwischengespeicherten Audiosignale mehr vorhanden sind.
  • Die Steuereinrichtung kann dazu ausgebildet sein, für den Fall, dass in keinem der Audiosignale eine sprachliche Aktivität erkannt wird und keine zwischengespeicherten Audiosignale vorhanden sind, sämtliche Audiosignale als Audioeingangssignale an die Audiosignalmischeinrichtung auszugeben.
  • Die Steuereinrichtung kann dazu ausgebildet sein, für den Fall, dass nur in einem einzelnen der Audiosignale eine sprachliche Aktivität erkannt wird und keine zwischengespeicherten Audiosignale vorhanden sind, nur das Audiosignal, in dem eine sprachliche Aktivität erkannt wird, als Audioeingangssignal an die Audiosignalmischeinrichtung auszugeben.
  • Die Audiosignale können Mono-Audiosignale sein.
  • Die Audiosignalquellen können Mikrofone von Headsets und/oder Telefonhörern sein und die Lautsprecher können die Lautsprecher der Headsets bzw. Telefonhörer sein, d.h. in die Headsets und/oder die Telefonhörer integriert sein.
  • Die Erfindung wird nachfolgend unter Bezugnahme auf die Zeichnung beschrieben. Hierbei zeigt schematisch:
  • 1 ein Telefonkonferenzsystem für mehrere Gesprächsteilnehmer.
  • 1 zeigt ein Telefonkonferenzsystem für mehrere Gesprächsteilnehmer.
  • Das Telefonkonferenzsystem weist exemplarisch zwei Audiosignalquellen in Form von Mikrofonen 1_1 und 1_2 von zwei Telefonhörern oder Headsets und zwei Lautsprecher 5_1 und 5_2 auf, die Teil der Telefonhörer bzw. Headsets sind.
  • Die Mikrofone 1_1 und 1_2 sind einem Gesprächsteilnehmer zugeordnet und dazu ausgebildet, in Abhängigkeit von einer sprachlichen Aktivität des jeweiligen Gesprächsteilnehmers ein Mono-Audiosignal AS_1 bzw. AS_2 zu erzeugen. Die Audiosignale AS_1 und AS_2 sind digitale Audiosignale, wobei die Digitalisierung der sprachlichen Aktivität in den Mikrofonen oder in einem nachgeschalteten, nicht näher dargestellten A/D-Wandler erfolgen kann.
  • Das Telefonkonferenzsystem weist weiter zwei Zwischenspeicher 2_1 und 2_2 auf, wobei ein jeweiliger Zwischenspeicher 2_1 und 2_2 dazu ausgebildet ist, ein zugehöriges Audiosignal AS_1 bzw. AS_2 in Abhängigkeit von einem von einer Steuereinrichtung 6a und 6b bei Speicherbedarf erzeugten Speichersteuersignal zwischenzuspeichern.
  • Das Telefonkonferenzsystem weist weiter eine Sprachaktivitätserkennungseinrichtung 3 auf, die dazu ausgebildet ist, eine sprachliche Aktivität in einem jeweiligen Audiosignal AS_1 und AS_2 zu ermitteln bzw. zu erkennen und das Ergebnis der Ermittlung an die Steuereinrichtung 6a und 6b zu übermitteln.
  • Weiter ist eine (digitale) Audiosignalmischeinrichtung 4 vorgesehen, die dazu ausgebildet ist, Eingangsaudiosignale miteinander zu mischen und die gemischten Eingangsaudiosignale als Ausgangsaudiosignal OS an exemplarisch zwei Ausgangsanschlüssen auszugeben.
  • Die Steuereinrichtung weist Komponenten 6a und 6b auf.
  • Die Steuereinrichtungskomponente 6a ist mit der Sprachaktivitätserkennungseinrichtung 3 in Datenverbindung und erhält von der Sprachaktivitätserkennungseinrichtung 3 Informationen betreffend die sprachliche Aktivität der Audiosignale AS_1 und AS_2. Die Steuereinrichtungskomponente 6a ist weiter mit den Zwischenspeichern 2_1 und 2_2 verbunden und steuert diese bei Bedarf zum Zwischenspeichern der zugehörigen Audiosignale AS_1 bzw. AS_2 an.
  • Die Steuereinrichtungskomponente 6b ist eingangsseitig mit den Mikrofonen 1_1 und 1_2 und den Zwischenspeichern 2_1 und 2_2 und ausgangsseitig mit der Audiosignalmischeinrichtung 4 verbunden. Die Steuereinrichtungskomponente 6b weist interne, nicht näher dargestellte Schaltlogik auf, deren Schaltstellungen von der Steuereinrichtungskomponente 6a bestimmt werden. Mittels der Schaltlogik wird bestimmt, welcher Eingang bzw. welche Eingänge auf die Audiosignalmischeinrichtung 4 durchgeschleift werden.
  • Die Steuereinrichtung bzw. deren Komponenten 6a und 6b ist/sind dazu ausgebildet, für den Fall, dass in beiden Audiosignalen AS_1 und AS_2 eine sprachliche Aktivität erkannt wird, d.h. beide Gesprächsteilnehmer sprechen, nur eines der beiden Audiosignale AS_1 oder AS_2 über die Steuereinrichtungskomponente 6b an die Audiosignalmischeinrichtung 4 als Audioeingangssignal auszugeben und das andere Audiosignal AS_1 oder AS_2 in dem zugehörigen Zwischenspeicher 2_1 bzw. 2_2 zwischenzuspeichern und dann zeitverzögert als Audioeingangssignal an den Audiosignalmischeinrichtung 4 auszugeben.
  • Das nicht ausgegebene Audiosignal AS_1 oder AS_2 kann so lange zeitverzögert werden, bis in dem anderen Audiosignal AS_1 oder AS_2 keine sprachliche Aktivität mehr ermittelt wird.
  • Die Entscheidung, welches der beiden Audiosignal AS_1 bzw. AS_2 zuerst an die Audiosignalmischeinrichtung 4 ausgegeben wird, kann darauf basieren, in welchem der Audiosignal AS_1 bzw. AS_2 zuerst eine sprachliche Aktivität erkannt worden ist.
  • Die Steuereinrichtung 6a und 6b ist weiter dazu ausgebildet, für den Fall, dass in keinem der Audiosignale AS_1 und AS_2 eine sprachliche Aktivität erkannt wird, zu überprüfen, ob zwischengespeicherte Audiosignale vorhanden sind, und falls zwischengespeicherte Audiosignale vorhanden sind, die zwischengespeicherten Audiosignale einzeln nacheinander so lange an den Audiosignalmischeinrichtung 4 als Audioeingangssignale auszugeben, bis keine zwischengespeicherten Audiosignale mehr vorhanden sind.
  • Für den Fall, dass in keinem der Audiosignale AS_1 und AS_2 eine sprachliche Aktivität erkannt wird, beispielsweise weil die Audiosignale AS_1 und AS_2 als unwichtig klassifiziert sind, und keine zwischengespeicherten Audiosignale (mehr) vorhanden sind, können sämtliche Audiosignale AS_1 und AS_2 als Audioeingangssignale an die Audiosignalmischeinrichtung 4 ausgegeben werden.
  • Für den Fall, dass nur in einem einzelnen der Audiosignale AS_1 oder AS_2 eine sprachliche Aktivität erkannt wird und keine zwischengespeicherten Audiosignale vorhanden sind, kann nur das Audiosignal AS_1 oder AS_2, in dem eine sprachliche Aktivität erkannt wird, als Audioeingangssignal an die Audiosignalmischeinrichtung 4 ausgegeben werden.
  • Erfindungsgemäß ist eine Audiosignalmischeinrichtung 4 vorgesehen, die zwei oder mehr Audiosignale AS_1 und AS_2 mischt, um daraus ein oder mehrere gleiche Ausgangsaudiosignale OS zu erzeugen.
  • Zunächst wird überprüft, ob auf einem oder mehreren der Audiosignale AS_1 und AS_2 Geräusche vorliegen, die für die jeweilige Anwendung des Systems als relevant oder wichtig erachtet werden. Hierzu kann ein herkömmlicher Sprachaktivitätsdetektor verwenden werden, wie er bei Telefonsystem verwendet wird, um Phasen der Stille von Phasen des aktiven Sprechens zu unterscheiden.
  • Die Audiosignale AS_1 und AS_2 können zeitlich verzögert (wiedergegeben) werden. Das bedeutet, dass sie nicht direkt an die Lautsprecher 5_1 und 5_2 bzw. die Audiosignalmischeinrichtung 4 weiter geleitet werden, sondern für einen beliebigen Zeitraum zwischengespeichert werden können, um später an die Audiosignalmischeinrichtung 4 weitergeleitet zu werden.
  • Die Zwischenspeicher 2_1 und 2_2 können als FIFO-Speicher implementiert sein. Aus algorithmischen Effizienzgründen kann es sinnvoll sein, in den Zwischenspeichern 2_1 und 2_2 nicht nur die Audiosignale AS_1 und AS_2 zu speichern, sondern auch die zugehörigen sprachlichen Aktivitätsinformationen.
  • Die Steuereinrichtung 6a und 6b überwacht, ob die Sprachaktivitätserkennungseinrichtung 3 aktive bzw. relevante Signale erkennt und ob in den Zwischenspeichern 2_1 und 2_2 akustische Signale gespeichert sind.
  • Wenn kein aktives bzw. relevantes Audiosignal AS_1 und AS_2 vorliegt und in den Zwischenspeichern 2_1 und 2_2 keine Audiosignale gespeichert sind, können alle Audiosignale AS_1 und AS_2 in der Audiosignalmischeinrichtung 4 gemischt werden. Dies ist beispielsweise der Fall, wenn alle Konferenz- oder Gesprächsteilnehmer schweigen.
  • Wenn nur ein relevantes Audiosignal AS_1 bzw. AS_2 vorliegt, wird es an die Audiosignalmischeinrichtung 4 weitergeleitet. Dies ist beispielsweise der Fall, sobald ein Gesprächsteilnehmer zu reden beginnt.
  • Wenn nun weitere Audiosignale relevant bzw. aktiv werden, werden diese nicht unverzögert an die Audiosignalmischeinrichtung 4 weitergeleitet, sondern in den Zwischenspeichern 2_1 und 2_2 gespeichert. Man vermeidet somit, dass ein zweiter Gesprächsteilnehmer dem ersten Gesprächsteilnehmer ins Wort fällt.
  • Sobald das bislang wiedergegebene Audiosignal keine relevanten Informationen mehr enthält, d.h. sprachlich nicht mehr aktiv ist, wird eines der gespeicherten Audiosignale aus dem zugehörigen Zwischenspeicher 2_1 bzw. 2_2 abgerufen und zur Audiosignalmischeinrichtung 4 und somit zu den Lautsprechern 5_1 und 5_2 geleitet. Der zweite Gesprächsteilnehmer wird nun verzögert ausgespielt, nachdem der erste verstummt ist.
  • Dieser Prozess wird so lange fortgesetzt, bis kein Zwischenspeicher 2_1 und 2_2 mehr Audiosignale gespeichert hat.
  • Es versteht sich, dass die beiden Audiosignalquellen 1_1 und 1_2, die beiden Zwischenspeicher 2_1 und 2_2 und die beiden Lautsprecher 5_1 und 5_2 lediglich eine exemplarische Anzahl darstellen. Selbstverständlich können beliebig viele dieser Komponenten verwendet werden.

Claims (7)

  1. Verfahren zum Betreiben eines Telefonkonferenzsystems für mindestens zwei Gesprächsteilnehmer, mit den Schritten: – Ermitteln einer sprachlichen Aktivität eines jeweiligen Gesprächsteilnehmers und – für den Fall, dass bei mehr als einem Gesprächsteilnehmer eine sprachliche Aktivität ermittelt wird, Wiedergeben nur einer einzelnen sprachlichen Aktivität und zeitverzögertes Wiedergeben der verbleibenden sprachlichen Aktivitäten.
  2. Telefonkonferenzsystem für mindestens zwei Gesprächsteilnehmer, insbesondere zur Durchführung des Verfahrens nach Anspruch 1, aufweisend: – mindestens zwei Audiosignalquellen (1_1, 1_2), wobei eine jeweilige Audiosignalquelle einem Gesprächsteilnehmer zugeordnet und dazu ausgebildet ist, in Abhängigkeit von einer sprachlichen Aktivität des Gesprächsteilnehmers ein Audiosignal (AS_1, AS_2) zu erzeugen, – mindestens einen Zwischenspeicher (2_1, 2_2), wobei der Zwischenspeicher dazu ausgebildet ist, zumindest einen Teil eines jeweiligen Audiosignals zwischenzuspeichern, – mindestens eine Sprachaktivitätserkennungseinrichtung (3), die dazu ausgebildet ist, eine sprachliche Aktivität in einem jeweiligen Audiosignal zu ermitteln, – eine Audiosignalmischeinrichtung (4), die dazu ausgebildet ist, Eingangsaudiosignale miteinander zu mischen und die gemischten Eingangsaudiosignale als Ausgangsaudiosignal (OS) auszugeben, – mindestens zwei Lautsprecher (5_1, 5_2), wobei ein Lautsprecher einem Gesprächsteilnehmer zugeordnet ist, das Ausgangsaudiosignal der Audiosignalmischeinrichtung empfängt und als korrespondierendes Schallsignal ausgibt, und – eine Steuereinrichtung (6a, 6b), die dazu ausgebildet ist – für den Fall, dass in mehr als einem einzelnen der Audiosignale eine sprachliche Aktivität erkannt wird, nur ein einzelnes derjenigen Audiosignale, in denen eine sprachliche Aktivität erkannt wird, an die Audiosignalmischeinrichtung als Audioeingangssignal auszugeben und die nicht an die Audiosignalmischeinrichtung als Audioeingangssignal ausgegebenen Audiosignale, in denen eine sprachliche Aktivität erkannt wird, in dem Zwischenspeicher zwischenzuspeichern und zeitverzögert als Audioeingangssignal an den Audiosignalmischeinrichtung auszugeben.
  3. Telefonkonferenzsystem nach Anspruch 2, dadurch gekennzeichnet, dass die Steuereinrichtung dazu ausgebildet ist – für den Fall, dass in keinem der Audiosignale eine sprachliche Aktivität erkannt wird, zu überprüfen, ob zwischengespeicherte Audiosignale vorhanden sind, und – falls zwischengespeicherte Audiosignale vorhanden sind, die zwischengespeicherten Audiosignale einzeln nacheinander so lange an den Audiosignalmischeinrichtung als Audioeingangssignale auszugeben, bis keine zwischengespeicherten Audiosignale mehr vorhanden sind.
  4. Telefonkonferenzsystem nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass die Steuereinrichtung dazu ausgebildet ist – für den Fall, dass in keinem der Audiosignale eine sprachliche Aktivität erkannt wird und keine zwischengespeicherten Audiosignale vorhanden sind, sämtliche Audiosignale als Audioeingangssignale an die Audiosignalmischeinrichtung auszugeben.
  5. Telefonkonferenzsystem nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass die Steuereinrichtung dazu ausgebildet ist – für den Fall, dass nur in einem einzelnen der Audiosignale eine sprachliche Aktivität erkannt wird und keine zwischengespeicherten Audiosignale vorhanden sind, nur das Audiosignal, in dem eine sprachliche Aktivität erkannt wird, als Audioeingangssignal an die Audiosignalmischeinrichtung auszugeben.
  6. Telefonkonferenzsystem nach einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass die Audiosignale Mono-Audiosignale sind.
  7. Telefonkonferenzsystem nach einem der Ansprüche 2 bis 6, dadurch gekennzeichnet, dass die Audiosignalquellen Mikrofone von Headsets und/oder Telefonhörern sind und die Lautsprecher in die Headsets und/oder die Telefonhörer integriert sind.
DE201210220688 2012-11-13 2012-11-13 Verfahren zum Betreiben eines Telefonkonferenzsystems und Telefonkonferenzsystem Withdrawn DE102012220688A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE201210220688 DE102012220688A1 (de) 2012-11-13 2012-11-13 Verfahren zum Betreiben eines Telefonkonferenzsystems und Telefonkonferenzsystem
PCT/EP2013/073720 WO2014076129A1 (de) 2012-11-13 2013-11-13 Verfahren zum betreiben eines telefonkonferenzsystems und telefonkonferenzsystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE201210220688 DE102012220688A1 (de) 2012-11-13 2012-11-13 Verfahren zum Betreiben eines Telefonkonferenzsystems und Telefonkonferenzsystem

Publications (1)

Publication Number Publication Date
DE102012220688A1 true DE102012220688A1 (de) 2014-05-15

Family

ID=49578306

Family Applications (1)

Application Number Title Priority Date Filing Date
DE201210220688 Withdrawn DE102012220688A1 (de) 2012-11-13 2012-11-13 Verfahren zum Betreiben eines Telefonkonferenzsystems und Telefonkonferenzsystem

Country Status (2)

Country Link
DE (1) DE102012220688A1 (de)
WO (1) WO2014076129A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3448006B1 (de) 2013-07-02 2023-03-15 Family Systems, Limited System zur verbesserung von audiokonferenzdiensten
US11017790B2 (en) 2018-11-30 2021-05-25 International Business Machines Corporation Avoiding speech collisions among participants during teleconferences

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4420212A1 (de) * 1994-06-04 1995-12-07 Deutsche Bundespost Telekom Übertragungssystem für gleichzeitige Mehrfachübertragung von mehreren Bild- und Tonsignalen
US20050210394A1 (en) * 2004-03-16 2005-09-22 Crandall Evan S Method for providing concurrent audio-video and audio instant messaging sessions

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0712099D0 (en) * 2007-06-22 2007-08-01 Wivenhoe Technology Ltd Transmission Of Audio Information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4420212A1 (de) * 1994-06-04 1995-12-07 Deutsche Bundespost Telekom Übertragungssystem für gleichzeitige Mehrfachübertragung von mehreren Bild- und Tonsignalen
US20050210394A1 (en) * 2004-03-16 2005-09-22 Crandall Evan S Method for providing concurrent audio-video and audio instant messaging sessions

Also Published As

Publication number Publication date
WO2014076129A8 (de) 2014-07-31
WO2014076129A1 (de) 2014-05-22

Similar Documents

Publication Publication Date Title
US10574828B2 (en) Method for carrying out an audio conference, audio conference device, and method for switching between encoders
JP4255461B2 (ja) 電話会議用のステレオ・マイクロフォン処理
US11710488B2 (en) Transcription of communications using multiple speech recognition systems
US8358599B2 (en) System for providing audio highlighting of conference participant playout
US10009475B2 (en) Perceptually continuous mixing in a teleconference
US9628630B2 (en) Method for improving perceptual continuity in a spatial teleconferencing system
EP3111627B1 (de) Wahrnehmungskontinuität anhand von veränderungsblindheit bei konferenzen
JP2000270304A (ja) 多地点テレビ会議システム
Carlile ACTIVE LISTENING: SPEECH INTELLIGIBILITY IN NOISY ENVIRONMENTS.
EP2077059B1 (de) Verfahren zum betreiben einer hörhilfe, sowie hörhilfe
DE102009035796B4 (de) Benachrichtigung über Audio-Ausfall bei einer Telekonferenzverbindung
CN109327633B (zh) 混音方法、装置、设备及存储介质
DE102012220688A1 (de) Verfahren zum Betreiben eines Telefonkonferenzsystems und Telefonkonferenzsystem
EP1126687A2 (de) Verfahren zur koordinierten Echo-und/oder Geräuschabsenkung
US10237413B2 (en) Methods for the encoding of participants in a conference
DE102014210760B4 (de) Betrieb einer Kommunikationsanlage
Schoenmaker et al. Better-ear rating based on glimpsing
US11321047B2 (en) Volume adjustments
JP2007096555A (ja) 音声会議システム、端末装置及びそれに用いる話者優先レベル制御方法並びにそのプログラム
DE19650410C1 (de) Verfahren und Vorrichtung zur Stör- und Echounterdrückung
EP1519628A2 (de) Verfahren und Vorrichtung zur Wiedergabe eines aus einem monauralen Eingangssignal erzeugten binauralen Ausgangssignals
Liang et al. Cat-astrophic effects of sudden interruptions on spatial auditory attention
JPS60132451A (ja) 会議電話方式
NZ715916B2 (en) Encoding of participants in a conference setting

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R002 Refusal decision in examination/registration proceedings
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee