DE10052992C2

DE10052992C2 - Verfahren für die raumgerechte Wiedergabe von Toninformationen bei Videokonferenzen

Info

Publication number: DE10052992C2
Application number: DE2000152992
Authority: DE
Inventors: Peter Fels
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 2000-10-19
Filing date: 2000-10-19
Publication date: 2002-11-07
Anticipated expiration: 2020-10-20
Also published as: DE10052992A1

Description

Die Erfindung bezieht sich auf das Gebiet der Wiedergabe von Toninformationen im Rahmen von Videokonferenzsystemen, die insbesondere auf eine größere Anzahl von Konferenzteilnehmern ausgerichtet sind.

Bei der Wiedergabe von Toninformationen im Rahmen der bekannten Videokonferenz einrichtungen ist zumeist festzustellen, dass die Tonqualität auf der jeweiligen Emp fangsseite mangelhaft bzw. instabil ist. Vor allem sind die optischen und die akusti schen Eindrücke in keiner Weise aufeinander abgestimmt, so dass eine Dissonanz zwi schen dem visuellen Eindruck und den Toninformationen festzustellen ist. Siehe bei spielsweise Arbeitskreis der bayrischen Rechenzentrumsleiter BRZL "Gruppenkonfe renz im virtuellen Raum" unter http://www.rrze.uni-erlangen.

Die bekannten Verfahren und Anordnungen für Videokonferenzen arbeiten überwie gend in einem für die Sprachübermittlung eingeschränkten Frequenzbereich, da die Sprache Priorität hat. Zur Anwendung kommen fast immer Konferenzsysteme, die auf eine einkanalige Tonübertragung beschränkt sind. Die gegenseitige Bildinformation erfolgt über spezielle Kameras und Monitore. Siehe Produktbeschreibung VCON Raumsysteme Media Connect 6000/8000 Serie VTEL TC 1000/XX Galaxy Modell 775 unter http://www.bachert.de

Für die Verbesserung der Tonqualität bei Konferenzsystemen sind eine Vielzahl von Lösungen bekannt.

Beispielsweise wird mittels Methoden der Echokompensation versucht, den störenden Einfluss des Echo-Signals zu verringern. Das vom fernen Teilnehmer eintreffende Emp fangssignal, das zumeist ein Sprachsignal ist, durchläuft den Echopfad (Lautsprecher- Raum-Mikrofon-System) und gelangt als unerwünschtes Echo in den Sendekanal zu rück. Um das Auftreten des unerwünschten Echos zu minimieren bzw. zu verhindern, wird beispielsweise ein adaptives Transversalfilter zur Echokompensation eingesetzt. Das adaptive Transversalfilter bildet den Echopfad nach und liefert an seinem Ausgang eine Echosignalnachbildung. Die Echosignalnachbildung wird im Sendesignalpfad vom wahren Echosignal subtrahiert. Bei einer guten Nachbildung verschwindet dadurch das Echo aus dem Sendepfad. Der Einfluss des Echopfades ist damit kompensiert. Siehe Heitkämper, Peter; Dissertation TH Darmstadt 1995 "Freisprechen mit Verstärkungs steuerung und Echokompensation".

Eine weitere Lösung für die Verbesserung bei der Wiedergabe von Toninformationen im Rahmen von Videokonferenzeinrichtungen beruht auf der getrennten Aufschaltung der jeweiligen signalgebenden Stelle (sprechende Stelle.) Diese Lösung wird durch eine Pegelwaage realisiert, deren Regelvorgänge sich nach der Auswertung der erzeugten Signale richten. Die Regelvorgänge mittels Pegelwaage sind äußerst diffizil und führen in vielen Fällen dazu, dass Signalteile bei nicht diszipliniertem Sprechen (gleichzeitiges Sprechen der Teilnehmer beider Gegenstellen) verloren gehen. Weiterhin können diese Regelvorgänge auch durch unbewusste Schallerzeugungsvorgänge provoziert werden, welche die Stabilität des gesamten Systems gefährden. Siehe Segschneider, Stephan: Diplomarbeit Fachhochschule Wiesbaden 1996 "Konzeption der Audiokomponenten zur Ausstattung eines Multiservice-Videokonferenzstudios unter den Möglichkeiten zweikanaliger Tonkommunikation mit Freisprech-Einrichtung".

Dynamikprozessoren, adaptive Filter, etc. werden ebenfalls für die Verbesserung der Tonqualität bei Videokonferenzsystemen eingesetzt. Derartige Lösungen führen jedoch auch nicht zu einem ausreichend befriedigendem Ergebnis. Wenn überhaupt, wird ein befriedigendes Ergebnis nur bei einzelnen Gegenstellen des Systems erreicht. Für das Gesamtsystem bleibt die Tonqualität nach wie vor unbefriedigend.

Bei einer anderen bekannten Lösung wird mit Hilfe spezieller Mikrofon- und Lautspre cherlösungen und anderer aufeinander abgestimmter Aufnahme- und Wiedergabeein richtungen versucht, unliebsame Raumsignalanteile durch die Möglichkeit der unmittel baren Sprachaufnahme und der unmittelbaren Wiedergabe an die entsprechenden menschlichen Sinnesorgane zu vermeiden (z. B. Headset-Technologie). Siehe Bera tungszentrum für Videokonferenzsysteme 1. Workshop des BZVD; Videoübertragung im Multiservice-ATM-Netz der Charite Berlin (Dr. j. Stock, Bernd Haage - DeTeCon GmbH); Die Videokonferenzsysteme COVIS und OCTOPUS (Prof. Dr. H. König, M. Zühlke - BTU Cottbus, Lehrstuhl Rechnernetze und Kommunikati onssysteme; http:/ /bzvd.urz.tu-dresden.de

Aus DE 34 13 181 ist ein Großraumbeschallungssystem für die Beschallung beliebig großer Räume bekannt, bei dem die prinzipielle Funktion auf einer näherungsweisen Zeit- und soweit erforderlich Lautstärke getreuen Unterstützung bzw. Simulation der sich von der Quelle über den Aktionsbereich bis in den Rezeptionsbereich hinein aus breitenden Schallfelder mit einer zeitlichen Quellenpriorität erfolgt. Das bedeutet, dass die Schallstrahler jeweils erst nach dem Vorbeiziehen der Wellenfronten der Original schallquelle bzw. des diese simulierenden Schallstrahlers und der quellennäheren Schallstrahler abstrahlen, und dass die Zeitabstände bzw. Verstärkungen nach Leistung und Art der Quellen differenziert sind. Mittels dieser Lösung werden die Widersprüche zwischen der Laufzeit- und der Amplitudenlokalisation, auch in Übergangsgebieten, wo beim Vergleich meistens der zuerst hörbare Schallstrahler statt der Originalschallquelle geortet wurde, gelöst. Diese mit Deltastereophonie bezeichnete Lösung bezieht sich auf die Schallquelle, den Aktionsbereich und die Schallstrahlerorte und berücksichtigt die Schallquellenleistung.

Weiterhin ist in http/[email protected] von France Telecom Branche Developpment Leclere 1999 in La communication de ce document est soumise a l' au torisation du CNET unter " La visioconference VARESE"; eine Lösung beschrieben, die auf einer Dreiteilung der Signalzuordnung beruht. Dabei erfolgt jedoch eine strikte Zuordnung des linken, des mittleren und des rechten Kanals. Bei dieser Lösung muss das System sehr genau eingemessen werden. Da außerdem auch die Lautstärke begrenzt ist, ist diese Lösung für die Versorgung und Einbeziehung eines größeren Personenkrei ses unzureichend umsetzbar.

Zusammenfassend ist festzustellen, dass für Videokonferenzen, bei denen die Gegen stellen aus größeren Räumen bestehen, überwiegend herkömmliche Videokonferenz systeme eingesetzt werden. Diese Videokonferenzsysteme werden dabei in bereits in diesen Räumen bestehende Schallversorgungsanlagen mit unterschiedlicher Qualität integriert.

Die technische Aufgabe ist auf ein Verfahren für die raumgerechte Wiedergabe von Toninformationen bei Videokonferenzen ausgerichtet, bei dem sowohl auf der/den Auf nahmeseite/n als auch auf der/den Wiedergabeseiten eine größtmögliche räumliche Übereinstimmung zwischen Bildinformationen, Sprachinformationen und Raumgeräu schen erreicht werden soll. Das Verfahren soll sich insbesondere für Videokonferenzen eignen, bei denen die Gegenstellen örtlich verteilt angeordnet sind, und bei denen min destens eine Gegenstelle ein größerer Raum ist, in dem sich räumlich verteilt ein größe rer, überwiegend aktiv an der Konferenz beteiligter Teilnehmerkreis befindet.

Ausgangspunkt ist ein Videokonferenzsystem mit mindestens zwei miteinander kom munizierenden Gegenstellen, wobei jeder Gegenstelle ein Aufnahmesystem und ein Wiedergabesystem zugeordnet ist. Die Informationsübertragung zwischen den Gegen stellen erfolgt mittels geeigneter Übertragungsverfahren, beispielsweise über Kabel, Satellit, via ISDN, ATM, XDSL o. a.

Erfindungsgemäß wird in jeder an der Videokonferenz beteiligten Gegenstelle vorzugs weise jedem Teilnehmerplatz mindestens ein Mikrofon mit Richtcharakteristik SM1- SMn zugeordnet. Diese Anordnung beinhaltet jedoch auch, dass beispielsweise ein Mik rofon mehr als einem Teilnehmer zugeordnet sein kann, und dass es auch Mikrofon standorte im Raum der betreffenden Gegenstelle gibt, die für wechselnde Diskussions redner vorgesehen sind.

Jedes Mikrofon mit Richtcharakteristik zur Aufnahme der Sprachsignale SM1-SMn wird dabei in Bezug auf den konkreten Standort bzw. Teilnehmerplatz so angeordnet, dass es nur die Nutzsignale des/der betreffenden Teilnehmers, jedoch keine Raumsig nale und Nutzsignale anderer Teilnehmer aufnimmt. Durch die Anwendung von Mikro fonen mit Richtcharakteristik, wie beispielsweise Nahbesprechungsmikrofonen, welche jeweils an den für die Signalaufnahme günstigsten Plätzen im Raum angeordnet sind, wird damit bei der Aufnahme von Sprachsignalen eine quasi Ausschaltung des Raumes und damit der Raumgeräusche erreicht.

Die aufgenommenen Nutzsignale/Sprachsignale werden über mindestens zwei Übertra gungskanäle PK1-PKn zu allen an der Videokonferenz beteiligten Gegenstellen über tragen und dort über die Lautsprecher für die Wiedergabe der Sprachsignale LSP1- LSPn wieder ausgegeben.

Gleichzeitig zu den Sprachsignalen werden durch die in den einzelnen Gegenstellen getrennt angeordneten Mikrofone zur Aufnahme der Raumsignale RM1-RMn die Raumsignale der jeweiligen Gegenstelle aufgenommen. Die Raumsignale werden mit tels Signalsplitting getrennt von den Sprachsignalen über mindestens 2 Signalkanäle SK1-SKn übertragen. In den Gegenstellen werden die Raumsignale ebenfalls getrennt von den Nutzsignalen/Sprachsignalen über die Lautsprecher für die Wiedergabe von Raumsignalen LSr1-LSrn wieder ausgegeben.

Die getrennte Aufnahme und Wiedergabe von Sprachsignalen und Raumsignalen er folgt dabei in jeder Gegenstelle separat. Das heißt, dass in jeder Gegenstelle die aktuel len Sprachsignale und die aktuellen Raumsignale aller anderen Gegenstellen synchron wieder ausgegeben werden können.

Damit ist es möglich, eine Optimierung und Anpassung aller Gegenstellen in Bezug auf Bildinformationen, Sprachinformationen und Raumsignalen im Rahmen eines gemein samen virtuellen Raumes vorzunehmen. Damit entspricht die akustische Raumsituation weitestgehend der optischen Raumsituation des gemeinsamen virtuellen Raumes. Die erfindungsgemäße Lösung beinhaltet jedoch auch die Möglichkeit, für jede Gegenstelle eine individuelle Optimierung und Anpassung der raumakustischen Situation an die visuelle Raumsituation vorzunehmen. Ziel ist dabei immer die bestmögliche Überein stimmung zwischen visuellem und akustischem Eindruck des Sprechenden in Bezug auf den konkreten Raum zu erreichen.

Wenn die Gegenstelle ein größerer Raum ist, ist es außerdem möglich, durch die direkte Signalaufnahme und -zuordnung auch im größeren Raum mit der verteilten Wiedergabe des eigenen Nutzsignals/Sprachsignals über die eigenen Lautsprecher für die Wiederga be der Sprachsignale LSp1-LSpn eine ausreichende Sprachverständlichkeit zu errei chen.

Das erfindungsgemäße Verfahren wird anhand eines Ausführungsbeispiels näher erläu tert.

Fig. 1 zeigt das Wirkprinzip der Lösung anhand von zwei an der Konferenz beteiligten Gegenstellen.

Fig. 2 zeigt anhand der prinzipiellen Darstellung der elektroakustisch eingespielten Sig nale die Insertmöglichkeit für die Echokompensation.

Fig. 3 zeigt die prinzipielle Darstellung der Signalfolge für einen Hörerplatz mit der Signalfolge der Gegenseite mit Raumsignalen.

In Fig. 1 ist das Wirkprinzip des Verfahrens abgebildet. Dabei ist von der sendenden Stelle sowohl das Aufnahmesystem als auch das Wiedergabesystem abgebildet. In der Praxis verfügt jedoch jede Gegenstelle bzw. jeder Raum einer Gegenstelle sowohl über ein Aufnahmesystem als auch über ein Wiedergabesystem. Der Informationsaustausch zwischen den einzelnen, an der Konferenz beteiligten Gegenstellen, erfolgt dabei ent weder über das konventionelle Telekommunikationsnetz oder via Satellit. Sowohl im Aufnahmesystem als auch im Wiedergabesystem erfolgt eine strikte Trennung bei der Aufnahme und bei der Wiedergabe von Sprachsignalen und von Raumsignalen. Jede Gegenstelle verfügt

a) über ein Aufnahmesystem mit einer separaten Anordnung von Mikrofonen mit Richt charakteristik für die Aufnahme der Sprachsignale SM1-SMn und eine separate An ordnung von Mikrofonen zur Aufnahme der Raumsignale RM1-RMn und
b) über ein Wiedergabesystem mit einer separaten Anordnung von Lautsprechern für die Ausgabe von Sprachsignalen LSp1-LSpn und einer separaten Anordnung von Lautsprechern für die Ausgabe von Raumsignalen LSr1-LSrn.

Die Mikrofonanordnung zur Aufnahme von Sprachsignalen SM1-SMn ist dabei im Idealfall so ausgebildet, dass jedem Teilnehmerplatz mindestens ein Mikrofon mit Richtcharakteristik SM1-SMn (nachfolgend nur mit Mikrofon bezeichnet) zugeordnet wird. Jedes Mikrofon zur Aufnahme der Sprachsignale SM1-SMn ist dabei in Bezug auf den konkreten Teilnehmerplatz so angeordnet, dass es nur die Nutzsignale/Sprach signale des betreffenden Teilnehmers aufnehmen kann. Durch die platzverteilte Auf nahme der Nutzsignale/Sprachsignale ist gewährleistet, dass auf der Wiedergabeseite die Möglichkeit der raumgerechten Wiedergabe der Nutzsignale/Sprachsignale gegeben ist.

Über die Mikrofone zur Aufnahme der Sprachsignale SM1-SMn werden die Nutzsig nale/Sprachsignale jedes einzelnen Teilnehmers getrennt aufgenommen und mindestens 2 Übertragungskanälen PK1-PKn zugeordnet. Die Pegelanpassung erfolgt über eine an sich bekannte Aufnahmestufe 1. Die Zuordnung zu den Übertragungskanälen erfolgt da bei nach den örtlichen Gegebenheiten jeder einzelnen Gegenstelle immer aus der Sicht der Kamera.

Im Gegensatz dazu ist die Zuordnung der Nutzsignale zu den Wiedergabekanälen im eigenen Raum aus der Sicht der aktiven Teilnehmer in diesem Raum vorzunehmen.

Gleichzeitig zu den Nutzsignalen/Sprachsignalen werden die Raumsignale durch ge trennt zu den Mikrofonen zur Aufnahme der Sprachsignale SM1-SMn angeordnete Mikrofone zur Aufnahme der Raumsignale RM1-RMn aufgenommen und getrennt von den Nutzsignalen/Sprachsignalen über mindestens zwei Signalkanäle SK1-SKn an die betreffende Gegenstelle bzw. die betreffenden Gegenstellen gesendet. Die getrennte Bearbeitung von Nutzsignalen/Sprachsignalen und Raumsignalen wird durch Signal splitting in der Aufnahmestufe 1 erreicht.

Nach der Übertragung über Kabel oder Satellit werden die gemeinsam übertragenen Signale durch Signalsplitting wieder in Nutzsignale/Sprachsignale und Raumsignale ge trennt. Die Nutzsignale/Sprachsignale werden über die Empfangsstufe für Sprachsignale 2, die Summierstufe 4 und die Matrix 5 zur Wiedergabestufe 6 übertragen. Die Raum signale werden von der Empfangsstufe für Raumsignale 3 über die Matrix 5 ebenfalls zur Wiedergabestufe 6 übertragen. Dabei werden die Raumsignale in der Matrix 5 einer Signalbearbeitung unterzogen, die entsprechend der Wiedergabeanordnung mit den an geschlossenen Lautsprechern für die Wiedergabe der Raumsignale LSr1-LSrn die Raumsignale im Pegel variiert und verzögert. Von der Wiedergabestufe 6 werden die Sprachsignale über die Lautsprecher für die Wiedergabe der Sprachsignale LSp1-LSpn und die Raumsignale über die Lautsprecher für die Wiedergabe der Raumsignale LSr1- LSrn ausgegeben.

In der Summierstufe für Signalinsert 4 werden die empfangenen Nutzsignale/Sprach signale zusätzlich mit den eigenen aufgenommenen Signalen (abgehende Signale zur Gegenstelle), die ebenfalls im Pegel und in der Laufzeit bearbeitet sind, summiert. Die se Signalbearbeitung ist einerseits von der mit dem ankommenden Nutzsignal auftre tenden Echostörung durch das Einspiel auf der Gegenseite und andererseits von der Notwendigkeit, das eigene Nutzsignal/Sprachsignal, insbesondere bei großen Räumen, wieder zu verstärken und im eigenen Raum zur Verständigung der Mithörenden und beteiligten Personen über die Lautsprecher raumgerecht zu verteilen, abhängig.

In Fig. 2 ist durch eine prinzipielle Darstellung der elektroakustisch eingespielten Sig nale die Insertmöglichkeit in Form eines Diagramms abgebildet.

Das Einspielen des eigenen Nutzsignals/Sprachsignals in den eigenen Raum ermöglicht eine ausreichende Versorgung aller Beteiligten, die sich nicht in unmittelbarer Nähe des Sprechenden befinden.

Des Weiteren kann durch die Aufnahme des auf der Gegenstelle eingespielten eigenen Nutzsignals/Sprachsignals über die Mikrofone zur Aufnahme der Sprachsignale SM1- SMn der Gegenstelle dieses auf der eigenen Wiedergabeseite als störendes Echosignal auftreten. Dieses Signal ist aber immer mit einem Zeitversatz, geringem aber störendem Pegel und Klangfarbenänderungen verbunden. Um diese zeitliche Lücke zwischen dem eigenen Original Nutzsignal/Sprachsignal und dem störenden Echosignal zu verringern, wird das eigene Original Nutzsignal/Sprachsignal mit einem Zeitversatz und einer Pe geländerung noch einmal über die Lautsprecher LSp1-LSpn im eigenen Raum einge spielt.

Eine zweckmäßige Ausgestaltung beruht darauf, die Funktion des Signalinsert alternativ in die Matrix 5 zu integrieren.

In Fig. 3 sind anhand eines Diagrammes Reflexionsfolgen dargestellt, die an den ein zelnen Plätzen der aktiven Teilnehmer der Videokonferenz als auch der weiteren Zuhö rer in dem jeweiligen Raum wahrgenommen werden und die sich zusammensetzen aus dem eigenen Originalsignal (gepunktete Linie), externen Signalen der Gegenstelle (durchgezogene dünne Linien), dem störenden Echosignal (gestrichelte Linie) als Rück antwort aus der Gegenstelle und in die zeitlichen Lücken eingefügten eigenen Nutzsig nalen (dicke Linien), die einmal zur Verringerung der Lücken zwischen dem eigenen Nutzsignal/Sprachsignal und Echosignal zeitlich dazwischen eingefügt werden, und die zum anderen als Nutzsignal/Sprachsignal zur Versorgung eigener Hörzonen dienen sollen, sowie den Raumsignalen, die gesondert in das Reflektogramm eingepasst wer den.

In der Wiedergabestufe 6 erfolgt entsprechend der konkreten Anordnung der Lautspre cher für die Wiedergabe der Sprachsignale LSp1-LSpn bzw. der Lautsprecher für die Wiedergabe der Raumgeräusche LSr1-LSrn unter Berücksichtigung der räumlichen Ge gebenheiten der betreffenden Gegenstelle eine Anpassung der auszugebenden Sprachsignale und Raumsignale an die jeweilige Situation. Dabei wird die Mehrkanalität der Übertragung für die raumgerechte Wiedergabe ausgenutzt, so dass das Klangbild auf der Wiedergabeseite mit dem Klangbild auf der Aufnahmeseite übereinstimmt.

Eine zweckmäßige Ausgestaltung besteht darin, die voneinander getrennten Sprachsig nale und die Raumsignale nach den bereits bekannten Prinzipien der Deltastereophonie über die Lautsprecher auszugeben. Dadurch wird gewährleistet, dass eine weitestgehen de Übereinstimmung in Bezug auf die Signalzuordnung der Wiedergabekanäle zu den Aufnahmekanälen erfolgt und gleichzeitig die Signale mehrfach, jedoch mit unter schiedlichem Pegel und Laufzeit, den Wiedergabekanälen, entsprechend der Wiederga beanordnung, zugeordnet werden. Die Signalverteilung und Signalbearbeitung erfolgt dabei so, dass eine Rückkopplungssicherheit erreicht wird, ohne dass die einzelnen Mikrofonwege auf- und zugeregelt werden müssen.

Die über die Empfangsstufe für Raumsignale 3 empfangenen Raumsignale werden in der Wiedergabestufe 6 mittels Deltastereophonie ebenfalls so angepasst und modifiziert, dass in Bezug auf die Raumsituation ebenfalls eine Übereinstimmung mit der räumli chen Situation auf der Aufnahmeseite erreicht wird.

Zusätzliche externe Toninformationen können gezielt über eine der Matrix 5 vorgeord nete Summier- und Verteilstufe 7 eingespielt werden. Die Verteilung der zusätzlichen Toninformationen und die Zuordnung zu den einzelnen Lautsprechern erfolgt ebenfalls über die Wiedergabestufe 6.

Die erfindungsgemäße Lösung ist vorzugsweise für Videokonferenzeinrichtungen vor gesehen, die vorteilhaft über eine größere Übertragungsbandbreite verfügen, die für einen mittleren bis größeren Personenkreis ausgelegt und mit einer großflächigen Bild wiedergabe gekoppelt sind. Die Videokonferenzeinrichtungen können dabei auch über mehrere, an verschiedenen Orten stationierte Gegenstellen verfügen. Einzelne Gegen stellen können dabei als große Räume für einen dementsprechend größeren Teilnehmer kreis konzipiert sein.

Bezugszeichenaufstellung

SM1-SMn Mirofone/Mikrofonanordnung zur Aufnahme der Sprach- Signale (Mikrofone mit Richtcharakteristik)
RM1-RMn Mikrofone/Mikrofonanordnung zur Aufnahme der Raum signale
PK1-PKn Übertragungskanäle
SK1-SKn Signalkanäle
LSp1-LSpn Lautsprecher für die Wiedergabe der Sprachsignale
LSr1-LSrn Lautsprecher für die Wiedergabe der Raumsignale

1

Aufnahmestufe

2

Empfangsstufe für Sprachsignale

3

Empfangsstufe für Raumsignale

4

Summierstufe für Signalinsert

5

Matrix

6

Wiedergabestufe

7

Summier- und Verteilstufe für externe Signale

Claims

1. Verfahren für die raumgerechte Wiedergabe von Toninformationen bei Videokon ferenzen mit mindestens zwei Gegenstellen, wobei jeder Gegenstelle ein Aufnah mesystem und ein Wiedergabesystem zugeordnet ist, dadurch gekennzeichnet,
dass in jeder Gegenstelle die Nutzsignale/Sprachsignale der Konferenzteilnehmer getrennt von den Raumgeräuschen aufgenommen werden, wobei die Nutzsigna le/Sprachsignale über Mikrofone mit Richtcharakteristik zur Aufnahme der Sprach signale (SM1-SMn) und die Raumsignale über in der Gegenstelle angeordnete Mikrofone zur Aufnahme der Raumsignale (RM1-RMn) aufgenommen werden,
dass die von einer Gegenstelle aufgenommenen Nutzsignale/Sprachsignale jeweils über mindestens zwei Übertragungskanäle (PK1-n) und die aufgenommenen Raumsignale über jeweils mindestens 2 Signalkanäle (SK1-n) zu den anderen an der Videokonferenz beteiligten Gegenstellen übertragen werden,
dass die Nutzsignale/Sprachsignale und die Raumsignale in jeder Gegenstelle an die in der Gegenstelle ausgegebene optische Bildinformation angepasst und eben falls getrennt ausgegeben werden, wobei die empfangenen Nutzsignale/Sprach signale über die Lautsprecher für die Wiedergabe der Sprachsignale (LSp1-LSpn) und die empfangenen Raumsignale über die Lautsprecher für die Wiedergabe der Raumsignale (LSr1-LSrn) ausgegeben werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die in den Gegenstellen getrennt empfangenen Nutzsignale/Sprachsignale und Raumsignale nach den Prin zipien der Deltasterophonie an den bildlich in der jeweiligen Gegenstelle erzeugten virtuellen Konferenzraum angepasst werden, und dass die Nutzsignale/Sprachsig nale und die Raumsignale voneinander getrennt über die nach den Prinzipien der Deltastereophonie angeordneten Lautsprecher für die Wiedergabe von Sprachsig nalen (LSp1-LSpn) bzw. über die Lautsprecher für die Wiedergabe von Raumsig nalen (LSr1-LSrn) ausgegeben werden.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die in der Summierstufe für Signalinsert (4) von den Gegenstellen empfangenen Nutzsignale/Sprachsignale mit den eigenen originalen Nutzsignalen/Sprachsignalen summiert werden und durch eine Pegelreduzierung und Laufzeitkorrektur so in das Summensignal inte griert werden, dass eine Lücke geschlossen wird, die durch ein beim Empfang und der Wiedergabe des Nuzsignals/Sprachsignals der Gegenseite auftretendes Echo bedingt ist.

4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass in der Summierstufe für Signalinsert (4) das eigene Nutzsignal/Sprachsignal mit dem Nutzsinal/Sprachsig nal der Gegenstelle summiert und im eigenen Raum über die Lautsprecher für die Wiedergabe der Sprachsignale (LSp1-n) wieder ausgegeben wird, wobei im eige nen Raum eine Sprachverstärkung und raumbezogene Signalverteilung auch des eigenen erzeugten Signals erfolgt, so dass für alle im eigenen Raum anwesenden Teilnehmer eine gute Sprachverständlichkeit gewährleistet ist.