ES2354141T3 - Sistema de teleconferencia. - Google Patents

Sistema de teleconferencia. Download PDF

Info

Publication number
ES2354141T3
ES2354141T3 ES99915873T ES99915873T ES2354141T3 ES 2354141 T3 ES2354141 T3 ES 2354141T3 ES 99915873 T ES99915873 T ES 99915873T ES 99915873 T ES99915873 T ES 99915873T ES 2354141 T3 ES2354141 T3 ES 2354141T3
Authority
ES
Spain
Prior art keywords
channels
audio
terminal equipment
terminal
multichannel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES99915873T
Other languages
English (en)
Inventor
Peter James Hughes
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Priority claimed from EP99915873A external-priority patent/EP1070416B1/en
Application granted granted Critical
Publication of ES2354141T3 publication Critical patent/ES2354141T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)
  • Stereophonic System (AREA)

Abstract

Sistema de teleconferencia que comprende un puente de conferencia (100) que presenta una conexión de audio multicanal (5) hacia cada uno de una pluralidad de equipos terminales (10), comprendiendo cada conexión de audio multicanal una pluralidad de canales de audio individuales, en el que el puente de conferencia (100) comprende un concentrador (230), que comprende unos medios para identificar los canales de entrada actualmente activos (3, 21, 31) y para transmitir únicamente esos canales activos a través de las conexiones de audio multicanal (5) como pluralidad de canales de audio individuales, junto con información de control (4) que identifica los canales transmitidos, y cada uno de los equipos terminales recibe los canales de audio individuales a través de una respectiva de las conexiones de audio multicanal, presentando cada uno de los equipos terminales unos medios (15) para procesar por separado cada canal de audio recibido con el fin de proporcionar una pluralidad de salidas, representando cada salida uno de los otros equipos terminales, y estando provisto de medios de selección de canales, dispuestos de tal manera que el usuario del terminal puede seleccionar uno o varios de la pluralidad de canales de audio recibidos para darles salida en el terminal.

Description

La presente invención se refiere a sistemas de teleconferencia de audio. Estos son sistemas en los que tres o más participantes, que tienen cada uno de ellos una conexión telefónica, pueden participar en una conversación multidireccional. A la parte esencial de un sistema de teleconferencia se le denomina “puente” 5 de conferencia, y es donde se combinan las señales de audio de todos los participantes. Los puentes de conferencia funcionan en la actualidad recibiendo audio de cada uno de los participantes, mezclando apropiadamente las señales de audio, y a continuación distribuyendo la señal mezclada a cada uno de los participantes. Todo el procesado de las señales se concentra en el puente, y el resultado es monoaural (es decir, hay un único canal de sonido). Esta disposición se muestra en la figura 1, que se describirá de forma 10 detallada posteriormente. El inconveniente principal de estos sistemas es que la calidad de audio es monofónica, en general deficiente, y resulta muy difícil determinar qué participantes están hablando en un momento cualquiera, especialmente cuando el número de participantes es elevado.
En la memoria descriptiva de la patente europea 0291470 se proporciona un ejemplo. Dicha memoria da a conocer una disposición en la que la fase de algunos de los símbolos de entradas se invierte antes de 15 combinarlos en el canal de retorno, posibilitando, de este modo, la cancelación, para cada usuario, de su propia voz. La solicitud de patente japonesa JP05-316239 da a conocer un sistema de reuniones en el que se distribuyen señales de audio en un extremo receptor de acuerdo con señales de datos posicionales transmitidas con las señales de audio.
Según la invención, se proporciona un sistema de teleconferencia que comprende un puente de 20 conferencia que tiene una conexión de audio multicanal con cada uno de una pluralidad de equipos terminales, comprendiendo cada conexión de audio multicanal una pluralidad de canales de audio individuales, en donde el puente de conferencia comprende un concentrador, que comprende unos medios para identificar los canales de entrada actualmente activos, y para transmitir solamente esos canales activos a través de las conexiones de audio multicanal como pluralidad de canales de audio individuales, junto con 25 información de control que identifica los canales transmitidos, y cada uno de los equipos terminales recibe los canales de audio individuales a través de una respectiva de las conexiones de audio multicanal, presentando cada uno de los equipos terminales unos medios para procesar por separado cada canal de audio recibido con el fin de proporcionar una pluralidad de salidas, representando cada salida uno de los otros equipos terminales, y estando provisto de medios de selección de canales, dispuestos de tal manera que el usuario del 30 terminal puede seleccionar uno o varios de la pluralidad de canales de audio recibidos para darles salida en el terminal.
Adoptando este planteamiento multicanal, el entorno de la conferencia puede ser personalizado para las necesidades de funcionamiento y las circunstancias de cada individuo por los propios participantes. El concentrador reduce la capacidad requerida por la conexión multicanal. La información de control que 35 identifica los canales activos se puede transportar en un canal de control independiente, o como una tara sobre el subconjunto activo de canales. En una disposición preferida, el canal que representa un terminal determinado se excluye de la salida proporcionada a ese terminal. Esto se puede lograr excluyendo ese canal del procesado en el equipo terminal, aunque preferentemente se logra excluyéndolo de la transmisión multicanal desde el puente a ese participante, reduciéndose adicionalmente, de este modo, la capacidad 40 requerida por la conexión multicanal.
A continuación se describirán, a título de ejemplo, unas formas de realización ejemplificativas de la invención, haciendo referencia a los dibujos, en los que:
la figura 1 ilustra un sistema de teleconferencia convencional; 45
la figura 2 ilustra un sistema de teleconferencia de audio espacial según una forma de realización de la invención;
la figura 3 ilustra un decodificador de voz de N canales usado en la forma de realización de la figura 2;
la figura 4 ilustra un espacializador de audio de N canales usado en la forma de realización de la 50 figura 2;
la figura 5 ilustra una segunda forma de realización de la invención;
la figura 6 ilustra cómo se puede usar la invención con canales PSTN convencionales;
la figura 7 ilustra una variante de la invención para su uso con un sistema de videoconferencia;
la figura 8 ilustra un concentrador conmutado por voz que se puede usar en las formas de realización de la invención;
las figuras 9, 10, y 11 ilustran varias técnicas de cancelación de eco. 5
En el sistema convencional ilustrado en la figura 1, el puente de conferencia ubicado en el equipo de central 100 recibe señales de los equipos terminales 10 (20, 30 no mostrados) de diversos clientes en respuesta a sonidos detectados por micrófonos respectivos 11, 21, 31, etc. Estas señales se transmiten a través de la red telefónica (1), hacia la central 100 en la que se establece el puente. En general, las señales 10 viajarán pasando por una central local (no mostrada) en la que las señales analógicas se convierten a formato digital, habitualmente utilizando una compresión-expansión lineal tal como la “ley A” (según se usa, por ejemplo, en Europa) o la “Ley mu” (según se usa, por ejemplo, en los Estados Unidos de América) para su transmisión hacia delante en dirección a la central de puente 100. A su llegada a la central de puente 100, el puente hace pasar cada señal entrante 11, 21, 31 a través de un conversor digital respectivo 111, 112, 113 15 para convertirlas de señales de Ley A a señales digitales lineales, y a continuación hace pasar las señales lineales a un combinador digital 120 para generar una señal combinada. Esta señal combinada se vuelve a convertir a la ley A en otro conversor digital 110, y la señal resultante se transmite a través de la red telefónica (2) hacia cada equipo terminal 10, (20, 30) para su conversión en sonido en altavoces respectivos 12, 22, 32, etcétera. De esta manera, el equipo de central 100 actúa como un “puente” para permitir que uno o varios 20 equipos terminales 30 se conecten en una conexión bidireccional simple entre equipos terminales 10, 20.
Los sistemas ilustrados en las figuras 2 a 8 sustituyen el sistema de puente de conferencia convencional de la figura 1 por un sistema de multidifusión en el que se pueden transmitir varios canales hacia cada participante, usando un enlace multicanal que comprende un enlace ascendente 3, y también un enlace descendente que comprende un canal de control 4 y un enlace descendente de audio digital 5. El enlace 25 descendente de audio comprende varios canales 51, 52. A continuación, unos participantes con equipos terminales adecuados pueden procesar estos canales 51, 52 de diversas maneras, tal como se describirá.
El medio de transmisión usado para el enlace descendente 3 y el enlace descendente 4, 5 puede ser cualquier medio adecuado. La tecnología ISDN (Red de Datos de Servicios Integrados) o la LAN (Red de Área Local) - respectivamente, redes de datos públicas y privadas - son las opciones de transmisión favoritas ya 30 que proporcionan una velocidad de datos adecuada y una baja latencia - retardos debidos a la codificación y al almacenamiento intermedio de transmisión. No obstante, las mismas son costosas y, hasta la fecha, presentan una baja penetración en el mercado. Las técnicas del Protocolo de Internet (IP) están llegando a usarse de forma amplia, pero en la actualidad adolecen de una latencia deficiente y velocidades de datos poco fiables. No obstante, durante los próximos años se prevén mejoras rápidas en esta tecnología, y es 35 probable que se convierta en el procedimiento de telecomunicación preferido. Dichos sistemas resultarían adecuados idealmente para implementar la presente invención. Los últimos módems de tipo internet proporcionan un flujo continuo de sentido descendente de 56 kbit/s (enlaces 4, 5:), y un flujo continuo de sentido ascendente de hasta 28,8 kbit/s (enlace 3). Los mismos son de bajo coste y comúnmente están incluidos en unidades de venta al por menor de ordenadores personales. Idealmente, un sistema debería 40 poder funcionar con todos los anteriores, y también con la PSTN analógica normalizada para su uso como opción auxiliar.
La mezcla de las señales puede tener lugar o bien en el equipo terminal del usuario, o bien en una plataforma de procesado centralizada tal como se muestra en la figura 2. En la figura 2, el equipo terminal 10 contiene un micrófono 11 y un sistema de altavoces 12 tal como anteriormente. No obstante, el sistema de 45 altavoces 12 es un sistema espacializado - es decir, tiene dos o más canales para permitir que parezca que los sonidos provienen de direcciones diferentes. El mismo puede adoptar la forma de auriculares estereofónicos, o un sistema más complejo tal como se da a conocer en las patentes US nº 5.533.129 (Gefvert), nº 5.307.415 (Fosgate), el artículo “Spatial Sound for Telepresence” de M. Hollier, D. Burraston, y A. Rimell en el British Telecom Technology Journal, octubre de 1997, o la propia solicitud de patente 50 internacional del presente solicitante WO98/58523, publicada el 23 de diciembre de 1998.
La salida del micrófono 11 es codificada por un codificador 13 que forma parte del equipo terminal 10, y se transmite a través del enlace ascendente 3 hacia el equipo de terminal 100. Aquí, se combina con los otros canales de entrada 21, 31 de los terminales de los otros participantes en un concentrador 230 que combina las diversas entradas en una señal de audio que tiene un número menor de canales 51, 52, etcétera. Estos canales se transmiten a través de enlaces de audio digitales de múltiples canales 5 hacia los equipos de cliente 10, (20, 30) en los que en primer lugar son decodificados por unos decodificadores respectivos 14, 24, 34 (figura 3) y suministrados a un espacializador 15 (figura 4) para controlar la mezcla de los canales con el fin de generar una señal espacializada en el equipo de altavoces 12. 5
El concentrador 230 selecciona de entre los canales de entrada 11, 21, 31 los que transportan información útil - típicamente los que transportan voz - y hace pasar únicamente estos canales a través del enlace de retorno 5. Esto reduce la cantidad de información a transportar. Un canal de control 4 transporta datos que identifican qué canales se seleccionaron. En el equipo terminal, el espacializador 15 usa datos del canal de control para identificar cuál de los canales de sonido originales 11, 21, 31 está recibiendo, y sobre 10 cuál de los “N” canales 51, 52 en el enlace de audio está presente cada canal original, y construye una señal espacializada usando esa información. La señal espacializada se puede personalizar para el cliente individual, por ejemplo, el número de hablantes en el sistema espacializado, las preferencias del cliente en relación con dónde va a parecer estar ubicado cada participante en el sistema espacializado, y qué canales incluir.
En particular, el usuario puede excluir el canal que representa su propia entrada 11, o puede 15 seleccionar una traducción simultánea en lugar del hablante original.
La eficacia de la transmisión se logra gracias a que, en un momento cualquiera, se transmite solamente el subconjunto activo N del número total de canales M. El subconjunto se selecciona usando un algoritmo de asignación dinámica de canales, controlado por voz, en el concentrador de N:M 230. En la figura 8 se muestra una implementación posible de esto. Cada canal de entrada 11, 21, 31 es monitorizado por un 20 analizador respectivo 231, 232, 233. Tal como se muestra para el analizador 231, la señal se somete a un proceso de detección y análisis de voz 231b. Este detecta si hay presente voz en la entrada respectiva 11, y proporciona un valor de confianza, indicativo del nivel de probabilidad de que la señal contenga voz. Esto garantiza que a la voz de fondo de nivel bajo se le asigne una ponderación más baja que a la voz dirigida claramente a los micrófonos 11, 21, 31, etcétera. Se asigna también un valor para el nivel, con el fin de 25 garantizar que la voz dirigida al micrófono tenga preferencia sobre el ruido de fondo, y la información de nivel se puede trasladar al sistema de espacialización para seleccionar un algoritmo de codificación apropiado a la información en la voz. Para detectar y procesar la voz en las señales, las mismas en primer lugar necesitan ser decodificadas en un decodificador 231a (se puede prescindir del mismo si el sistema de detección de voz 231b puede funcionar con señales codificadas digitalmente). 30
A continuación, un algoritmo de votación 234 selecciona cuál de las entradas 11, 21, 31 tiene las señales de voz más claras y controla un conmutador para dirigir cada uno de los canales de entrada 11, 21, 31 que han sido seleccionados hacia uno respectivo de los canales de salida 51, 52. En los sistemas de Equipos de Multiplicación Digital de Circuitos (DCME) en circuitos de telefonía internacionales se usan algoritmos similares. A través del canal de control 4 se transmiten datos referentes al contenido de los canales 35 de audio para los participantes en la conferencia, y, por lo tanto, la correspondencia entre los canales de entrada 11, 21, 31 y los canales de salida 51, 52. Alternativamente, estos datos se pueden integrar en los datos de audio codificados.
Cuando hay menos hablantes identificados que canales de salida 51, 52 disponibles, la calidad de la señal se puede mejorar usando un esquema de digitalización menos comprimido para esos canales de 40 entrada seleccionados, usando de este modo más de un canal de salida 51, 52 para cada canal de entrada seleccionado. Se puede lograr una voz de calidad telefónica a 8 kbit/s, permitiendo una inclusión de 8 hablantes si el sistema tiene una capacidad de 64 kbit/segundo. En caso de que se detectasen menos hablantes, la capacidad de 64 kbit/s se puede usar en cambio para proporcionar cuatro canales de audio de 16 kbit/s, capaces de transportar voz de “buena” calidad, o una mezcla de canales a velocidades binarias 45 diferentes, con el fin de permitir que las velocidades de codificación sean seleccionadas de acuerdo con la calidad inicial de la señal, o de manera que el hablante principal se puede hacer pasar a una calidad mayor que los otros hablantes. Se pueden usar esquemas de codificación por capas para permitir una conmutación elegante entre velocidades de datos.
En la figura 3 se muestra el demultiplexor de N canales y decodificador de voz 14 usado en el equipo 50 terminal 10. Éste recibe los canales 51, 52, 53, etcétera, transportados en el enlace descendente de audio 5 y los separa en un demultiplexor 140. A continuación, cada canal 51, 52, etcétera, es decodificado por separado en un decodificador respectivo 141, 142, 143, etcétera, para su procesado por el espacializador 15. Los decodificadores 141, 142, etcétera, pueden funcionar de acuerdo con diferentes procesos según los algoritmos de codificación individuales usados, bajo el control de las señales de control transportadas en el 55 canal de control 4.
También se podría transmitir una señal compuesta que conste de la suma de todas las señales de entrada. Dicha señal podría ser usada por usuarios que tengan equipos de recepción monoaural, y también puede ser usada por el espacializador para generar una señal de fondo ambiente. Alternativamente, el espacializador 15 puede sustituir cualquiera de los canales 11, 21, 31 no seleccionados por el concentrador 230, y, por lo tanto, no representados en el enlace de N canales 5, por “ruido de confort”; es decir, ruido 5 blanco de bajo nivel, para evitar la impresión auditiva de un vacío que sería provocada por una ausencia completa de señal.
El equipo de cliente 10 se puede implementar usando un PC de sobremesa. La tecnología fácilmente disponible de tarjetas de sonido para PC puede proporcionar la interfaz de audio y el procesado necesarios para los esquemas de espacialización más sencillos. Para esquemas más avanzados se podrían usar las 10 tarjetas de sonido más avanzadas con tecnología DSP incorporada. El espacializador 15 puede usar cualquiera de una serie de técnicas establecidas para crear un entorno de audio artificial tal como se detalla en el artículo de Hollier et al, al que ya se ha hecho referencia.
Las técnicas de espacialización se pueden resumir de la manera siguiente. Con la presente invención se puede usar cualquiera de estas técnicas de espacialización. 15
La técnica más sencilla es la “panoramización”, en la que cada señal se reproduce con una ponderación apropiada a través de dos o más altavoces de tal manera que se perciba como proveniente de la dirección requerida. Esto resulta sencillo de implementar, es robusto y también se puede usar con auriculares.
Los sistemas “ambisónicos” son más complicados y utilizan una técnica conocida como reconstrucción de frente de ondas para proporcionar una percepción realista del audio espacial. Los mismos 20 pueden crear un sonido espacial muy bueno, pero solamente para un área de escucha muy pequeña y, por lo tanto, son únicamente apropiados para oyentes individuales.
Para la escucha con auriculares, se pueden usar técnicas “binaurales” para proporcionar una espacialización muy buena. Las mismas usan pares de filtros de función de transferencia con relación a la cabeza (HRTF) para recrear el campo sonoro que habría estado presente en la entrada al canal auditivo para 25 un sonido proveniente de cualquier posición en un espacio 3D. Esto puede proporcionar una espacialización muy buena y se puede ampliar para ser usado con altavoces, caso que se conoce como “transaural”. Tal como con los sistemas ambisónicos, la región de escucha correcta es muy pequeña.
La salida de varios espacializadores se puede combinar tal como se muestra en la figura 4, que muestra un grupo de espacializadores para una salida estereofónica que comprende unos canales izquierdo y 30 derecho 12L, 12R. Cada canal 51, 52, 53 se alimenta a un espacializador respectivo 151, 152, 153 que, bajo el control de un selector de coeficientes 150 controlado por las señales en el canal de control 4, transmite una salida 151L, 151R, etcétera, a cada uno de una serie de combinadores 15L, 15R. El procesado usado para crear las salidas 151L, 151R, etcétera, se hace funcionar bajo el control de la señal de control 4 de tal manera que cada canal aparece como una fuente de sonido virtual, que tiene su propia posición en el espacio entorno 35 al oyente.
Las posiciones de fuentes virtuales en un espacio tridimensional se podrían determinar automáticamente, o mediante control manual, seleccionando el usuario el posicionamiento preferido para cada fuente de sonido virtual. Para una videoconferencia, el posicionamiento se puede fijar de manera que se corresponda con la ventana de la imagen de vídeo apropiada. Las imágenes de vídeo se pueden enviar por 40 otros medios, o pueden ser imágenes fijas recuperadas de medios de almacenamiento locales por el usuario individual.
Si el sonido espacializado se retransmite a través de altavoces 12, en lugar de auriculares, será necesario evitar que las señales de los altavoces 12 sean captadas por el micrófono 11, y que vuelvan a ser transmitidas y se escuchen como un eco en los sitios alejados 20, 30, etcétera. Posteriormente, en referencia 45 a la figura 11, se describirá una técnica para lograr esta opción.
La figura 5 muestra una disposición alternativa a la de la figura 4, en la que se calcula la espacialización en el “puente” de conferencia. Cada participante de la conferencia recibe las mismas señales espacializadas, simplificándose de este modo el equipo de cliente. La figura 5 es similar, en cuanto a la disposición general, a la figura 2, excepto que el decodificador 14 y el espacializador 15 forman parte del 50 equipo de central 200. La salida del espacializador 15 se traslada a un codificador 18 que transmite el número requerido de canales de audio (por ejemplo, dos para un sistema estereofónico) a cada cliente 10, 20, 30. Esto requiere que el número de canales en el enlace descendente 5 sea igual al número de canales de audio en las salidas de los sistemas de espacialización, en lugar del número seleccionado por el concentrador (más el canal de control 4) tal como en la forma de realización de la figura 2. Esto simplifica además el equipo de cliente 10. No obstante, esta disposición requiere que todas las instalaciones de cliente 10, 20, 30 tengan sistemas de espacialización similares, y, en particular, el mismo número de canales de audio. También resultaría más difícil eliminar la voz propia de un hablante de la señal que él recibe. También resultaría más complicado el control del eco, y la codificación de los canales puede deteriorar la espacialización. 5
En la conferencia se podrían incluir conexiones analógicas convencionales proporcionando un codificador 42 a cada conexión analógica 43, 45 hacia el “puente” 200, tal como se muestra en la figura 6, para proporcionar una entrada 41 al concentrador. La salida 5 del concentrador 230 también se decodifica y combina en una unidad 44 para proporcionar una señal de conferencia monoaural 45 hacia el usuario analógico 40. 10
La invención se podría aplicar a una situación de conferencia en la que haya varios participantes en cada ubicación, tal como la conferencia de vídeo mostrada en la figura 7. Se usan micrófonos de proximidad 11a, 11b, 11c, por ejemplo del tipo “de corbata”, para captar el sonido de cada hablante individual, y se usa un sistema de localización de hablantes 60 para realizar un seguimiento de su posición espacial. El sistema de localización de hablantes 60 puede comprender un sistema de micrófonos que puede identificar las posiciones 15 de fuentes de sonido. Al relacionar la posición de una fuente de sonido con la del micrófono de corbata 11 que está en uso en ese momento se posibilita el conocimiento de la posición de cada hablante solamente por medios de audio. Alternativamente, el sistema puede detectar la posición de cada usuario por unos medios tales como un reconocimiento óptico de una tarjeta identificativa llevada por cada usuario. En cualquier caso, los datos de posición detectados por el sistema de localización de hablantes 60 se trasladan al extremo 20 alejado (Sala B), en el que se reconstruye la espacialización correcta, para darle salida por medio de los altavoces 12L, 12M, 12R, etcétera. Esto lograría una conferencia espacial verdadera y superaría los problemas asociados de control de eco, ya que los micrófonos “de corbata” 31a, 31b, 31c tienen un alcance limitado y no detectarán las salidas de los altavoces en la misma sala.
Si en las formas de realización de las figuras 2 a 4 o la figura 5 se usan altavoces, se produce una 25 necesidad de controlar la realimentación acústica (“eco”) entre el altavoz 12 y el micrófono 11. Dicha realimentación provoca que las señales se vuelvan a transmitir de nuevo hacia el sistema, de manera que cada usuario oye una o más versiones retardadas de cada señal (incluyendo sus propias transmisiones) que llega de los otros usuarios. Para un sistema monofónico, el control del eco se puede realizar usando un cancelador de eco según se muestra en la figura 9. La señal de eco, representada con D, es provocada por el 30 trayecto acústico J entre el altavoz 12 y el micrófono 11 del equipo 10 en la sala B. La cancelación se logra en una unidad de control de eco 16 usando un filtro adaptativo para crear un modelo sintético del trayecto de señal J de tal manera que el eco D se puede eliminar mediante la resta de una señal de cancelación D’. La señal devuelta al equipo 20 en la sala A queda entonces libre de ecos, conteniendo únicamente sonidos que se originaron en la Sala B. El modelado óptimo del trayecto acústico J se logra habitualmente mediante el filtro 35 adaptativo de tal manera que cierta función apropiada de la señal E se lleva hacia cero. El control del eco usando filtros adaptativos de esta manera es bien conocido.
La cancelación de eco multicanal, tal como se muestra en la figura 10 para dos canales, es más compleja ya que existen dos canales de entrada 51, 52 y, por lo tanto, dos altavoces 12L, 12R. Por ello es necesario modelar dos trayectos de eco K y L para cada uno de los dos canales de retorno 3L, 3R. (El 40 proceso se muestra únicamente para el canal de retorno 3L, usando el micrófono 11L). La cancelación correcta del eco se logra únicamente si unos filtros adaptativos 161L, 162L modelan respectivamente los trayectos de la señal K y L. (Se requieren otros dos filtros 161R, 162R para el otro canal de retorno 3R). No obstante, no es posible hallar un modelo correcto para cada trayecto K, L de forma independiente sin algún procesado complicado y costoso de la señal tal como se describe en “A better understanding and an improved 45 solution to the specific problems of stereophonic echo cancellation” (IEEE Transactions on speech and Audio processing, Vol. 6, nº 2 marzo de 1998. Autores: J Benesty, D R Morgan y M M Sondhi).
El sistema descrito anteriormente haciendo referencia a la figura 4 utiliza unas técnicas lineales de espacialización artificial. La figura 11 muestra cómo esto, y el hecho de que el eco de cada altavoz 12L, 12R se combina linealmente en cada micrófono 11L, (11R, no mostrado), permite proporcionar una cancelación de 50 eco para cada canal de salida 3L, (3R) disponiendo un filtro adaptativo independiente 161L, 162L, 163L, (161R, 162R, 163R) en cada canal de entrada 51, 52, 53. De este modo, el filtro adaptativo 161L modelará la combinación del espacializador 151 para el canal 51, y el trayecto de eco entre los altavoces 12L y 12R y el micrófono 11L. Esta disposición se describe de forma detallada en la solicitud en trámite del solicitante que reivindica la misma prioridad que el caso presente. 55

Claims (8)

  1. REIVINDICACIONES
    1. Sistema de teleconferencia que comprende un puente de conferencia (100) que presenta una conexión de audio multicanal (5) hacia cada uno de una pluralidad de equipos terminales (10), comprendiendo cada conexión de audio multicanal una pluralidad de canales de audio individuales, en el que el puente de 5 conferencia (100) comprende un concentrador (230), que comprende unos medios para identificar los canales de entrada actualmente activos (3, 21, 31) y para transmitir únicamente esos canales activos a través de las conexiones de audio multicanal (5) como pluralidad de canales de audio individuales, junto con información de control (4) que identifica los canales transmitidos, y cada uno de los equipos terminales recibe los canales de audio individuales a través de una respectiva de las conexiones de audio multicanal, presentando cada uno de 10 los equipos terminales unos medios (15) para procesar por separado cada canal de audio recibido con el fin de proporcionar una pluralidad de salidas, representando cada salida uno de los otros equipos terminales, y estando provisto de medios de selección de canales, dispuestos de tal manera que el usuario del terminal puede seleccionar uno o varios de la pluralidad de canales de audio recibidos para darles salida en el terminal. 15
  2. 2. Sistema según la reivindicación 1, en el que los canales de audio de entrada actualmente activos forman un subconjunto de canales de audio de entrada del puente de conferencia.
  3. 3. Sistema según la reivindicación 1 ó 2, en el que por lo menos uno de los equipos terminales (10) comprende unos medios de espacialización (15) para combinar las salidas que representan cada equipo terminal con el fin de proporcionar un audio espacializado en el que cada equipo terminal está representado 20 por una fuente de sonido virtual.
  4. 4. Sistema según la reivindicación 1, 2 ó 3, en el que cada uno de los equipos terminales (10) comprende un demultiplexor para separar los canales de audio individuales recibidos a través de una respectiva de las conexiones de audio multicanal.
  5. 5. Procedimiento para proporcionar servicios de teleconferencia a una pluralidad de equipos 25 terminales, en el que se proporciona una conexión de audio multicanal desde un puente de conferencia (100) hacia cada uno de la pluralidad de equipos terminales (10), comprendiendo cada conexión de audio multicanal una pluralidad de canales de audio individuales, en el que el puente de conferencia (100) identifica los canales de entrada activos actualmente y transmite únicamente esos canales activos a través de la conexión de audio multicanal hacia cada terminal como pluralidad de canales de audio individuales, junto con información de 30 control que identifica los canales transmitidos, y en el que cada uno de la pluralidad de equipos terminales procesa por separado cada canal de audio individual recibido para proporcionar una pluralidad de salidas, representando cada una de dichas salidas uno respectivo de los otros equipos terminales, y dispuesto de tal manera que el usuario del terminal puede seleccionar uno o varios de la pluralidad de canales de audio recibidos para darles salida en el terminal. 35
  6. 6. Procedimiento según la reivindicación 5, en el que los canales de audio de entrada actualmente activos forman un subconjunto de canales de audio de entrada del puente de conferencia.
  7. 7. Procedimiento según la reivindicación 5 ó 6, en el que las salidas se procesan para generar una salida de audio espacializada en la que por lo menos uno de los equipos terminales se representa mediante una fuente de sonido virtual. 40
  8. 8. Procedimiento según la reivindicación 5, 6 ó 7, en el que cada uno de los equipos terminales comprende un demultiplexor que separa los canales de audio individuales recibidos a través de una respectiva de las conexiones de audio multicanal.
    - - - 45
ES99915873T 1998-04-08 1999-04-07 Sistema de teleconferencia. Expired - Lifetime ES2354141T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP98302763 1998-04-08
GB9807745 1998-04-08
EP99915873A EP1070416B1 (en) 1998-04-08 1999-04-07 Teleconferencing system

Publications (1)

Publication Number Publication Date
ES2354141T3 true ES2354141T3 (es) 2011-03-10

Family

ID=43617144

Family Applications (1)

Application Number Title Priority Date Filing Date
ES99915873T Expired - Lifetime ES2354141T3 (es) 1998-04-08 1999-04-07 Sistema de teleconferencia.

Country Status (1)

Country Link
ES (1) ES2354141T3 (es)

Similar Documents

Publication Publication Date Title
EP1070416B1 (en) Teleconferencing system
US8170193B2 (en) Spatial sound conference system and method
US5020098A (en) Telephone conferencing arrangement
US5991385A (en) Enhanced audio teleconferencing with sound field effect
EP1298904A2 (en) Method for background noise reduction and performance improvement in voice conferencing over packetized networks
ES2430250T3 (es) Procedimiento y dispositivo para la grabación, transmisión y reproducción de eventos de sonido para aplicaciones de comunicación
ES2436284T3 (es) Procedimiento de transferencia de un flujo de audio entre varios terminales
JPH0974446A (ja) 音声通信制御装置
JP2006279492A (ja) 電話会議システム
US6522633B1 (en) Conferencing arrangement for use with wireless terminals
ES2354141T3 (es) Sistema de teleconferencia.
JP2588793B2 (ja) 会議通話装置
Yensen et al. Synthetic stereo acoustic echo cancellation structure for multiple participant VoIP conferences
JP2768055B2 (ja) 会議電話サービスの通話方式
JP2001036881A (ja) 音声伝送システム及び音声再生装置
US20070067158A1 (en) Distributed telephone conference with speech coders
JP2662825B2 (ja) 会議通話端末装置
US20100272249A1 (en) Spatial Presentation of Audio at a Telecommunications Terminal
JP2019066601A (ja) 音響処理装置、プログラム及び方法
Chen et al. Enhancing stereophonic teleconferencing with microphone arrays through sound field warping
JPH02145097A (ja) 分散多地点通信会議装置
JP2662824B2 (ja) 会議通話端末装置
JPH06268722A (ja) ステレオ電話装置
JPH11215240A (ja) 電話会議装置
JPS62245851A (ja) 会議通話装置