ES2314691T3

ES2314691T3 - Terminal de conferencia con reduccion del eco para un sistema de conferencia de voz.

Info

Publication number: ES2314691T3
Application number: ES05774310T
Authority: ES
Inventors: Martin Tittel; Manfred Lutzky; Jurgen Hupp
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2004-07-13
Filing date: 2005-07-11
Publication date: 2009-03-16
Anticipated expiration: 2025-07-11
Also published as: EP1745637A1; ATE408960T1; WO2006005566A1; CA2572890C; DK1745637T3; DE102004033866A1; US7853007B2; DE502005005405D1; DE102004033866B4; PT1745637E; CA2572890A1; PL1745637T3; EP1745637B1; US20070189507A1

Abstract

Terminal (50) de conferencia para un sistema de conferencia de voz digital con las características siguientes: un primer dispositivo (56) transductor acústico que está configurado para generar una señal (54) de micrófono a partir de una señal acústica; un segundo dispositivo (60) transductor acústico que está configurado para generar una señal acústica a partir de una señal (58) de altavoz; un dispositivo (64) de conexión que está configurado para posibilitar una conexión entre el terminal (50) de conferencia y una unidad central de conferencia, para recibir una señal (62) de conferencia de suma desde la unidad central de conferencia; y un dispositivo (52) para suprimir el eco que está configurado para en un servicio de escucha del terminal de conferencia combinar la señal (54) de micrófono o una señal derivada de la misma con la señal (62) de conferencia de suma de tal modo que se produzca una señal (58) de altavoz en la que está reducida la señal acústica en la que se basa la señal (54) de micrófono, o para en un servicio de habla en el que la señal (54) de micrófono se transmite a la unidad central de conferencia combinar la señal (54) de micrófono o una señal derivada de la misma con la señal de conferencia de suma de tal modo que se produzca una señal (58) de altavoz en la que está reducida la señal acústica en la que se basa la señal (54) de micrófono; y un dispositivo de valor umbral que está configurado para desactivar el dispositivo (52) para suprimir el eco cuando la señal de micrófono es menor que un valor umbral predeterminado.

Description

Terminal de conferencia con reducción del eco para un sistema de conferencia de voz.

La presente invención se refiere en general a un terminal de conferencia para un sistema de conferencia de voz, especialmente a un terminal de conferencia con reducción del eco para un sistema de conferencia de voz digital.

Los sistemas de conferencia de voz se utilizan en aquellos lugares en los que no es posible una comunicación dentro de un grupo de personas de manera directa debido a una distancia demasiado grande, un nivel de ruido demasiado elevado u otros motivos. A este respecto ha de distinguirse entre los sistemas en los que las personas que se comunican entre sí están espacialmente muy distanciadas, de modo que no se da un acoplamiento acústico directo entre las personas y éstas sólo pueden escuchar a los demás participantes de la conferencia en cada caso a través del sistema de conferencia de voz, y tales configuraciones, en las que las personas que participan en la conferencia debido a una gran proximidad espacial pueden percibir a otras personas tanto de manera acústica directa como a través del sistema de conferencia de voz.

El primer tipo de sistemas de conferencia de voz corresponde a una conferencia telefónica según el estado de la técnica. Es cierto que en el caso de una conferencia telefónica se producen en el tramo de transmisión tiempos de retardo que pueden provocar ecos molestos. Sin embargo en estos sistemas no existe ninguna señal de conferencia uniforme, sino que cada participante obtiene una señal de conferencia especial, en la que no está presente su propia señal. Además no existe un acoplamiento acústico directo de dos participantes ya que éstos se encuentran en lugares completamente diferentes.

El segundo tipo de sistemas de conferencia de voz en los que las personas pueden percibir a otros participantes de la conferencia tanto de manera acústica directa como a través del sistema de conferencia de voz se utilizan por ejemplo en salas de conferencia, auditorios, salas de congresos o similares. Una pluralidad de participantes ha de tener a este respecto la posibilidad de proporcionar una aportación de habla y todos los participantes han de poder escuchar las aportaciones de habla de los demás participantes. A este respecto la aportación a la discusión de un participante individual de manera acústica directa no puede entenderse en toda la sala, aunque puede percibirse por personas en la proximidad del hablante perfectamente de manera directa.

Además ha de distinguirse entre sistemas de conferencia de voz en los que se produce una transmisión por cable y aquéllos en los que la transmisión de las señales de voz se produce de manera inalámbrica. Los sistemas por cable según el estado de la técnica tienen la ventaja de que la capacidad de transmisión de un tramo de transmisión por cable es muy elevada. En tales sistemas al utilizar cables de alta calidad las señales de audio pueden transmitirse de manera analógica. Sin embargo es mejor utilizar una transmisión de señales de audio digital no comprimida. Los tiempos de propagación de las señales de audio sobre un cable de este tipo en el caso de una conferencia espacialmente limitada son tan cortos que no se producen ecos distanciados audibles. Sólo se compensa un eco local para evitar ruidos de retroacoplamiento en un terminal.

Sin embargo actualmente existe la tendencia de realizar sistemas de conferencia de voz para salas de conferencia, auditorios, salas de congresos o similares de manera inalámbrica. Esto aumenta la flexibilidad en la configuración de un sistema y reduce claramente los costes de instalación, ya que además de un suministro eléctrico no se requiere un cableado adicional. Por lo demás una realización inalámbrica de un sistema de conferencia de voz permite llevar a cabo una conferencia de voz incluso cuando las personas participantes no están sujetas a un lugar fijo y por ejemplo se mueven en una sala.

Sin embargo, debe indicarse que los retos técnicos en el caso de un sistema de conferencia de voz basado en radiocomunicación son considerablemente mayores que en el caso de uno por cable.

Según el estado de la técnica, la mayor parte de las veces se utilizan sistemas analógicos o sistemas digitales sin compresión. El tiempo de propagación de la señal en la transmisión de una señal acústica a través de un sistema de este tipo es normalmente reducido. En especial sólo existe un retardo reducido entre la señal de voz de un participante que habla y la señal de conferencia de suma proporcionada por el sistema de conferencia de voz a través de un canal de retorno uniforme, que contiene la aportación de voz del participante que habla y se emite por el altavoz del participante que habla. Por el retardo reducido la propia señal de voz transmitida de vuelta al hablante no se considera como eco molesto.

Los recursos de radio disponibles para un sistema de conferencia de voz basado en radiocomunicación son sin embargo muy limitados. Esto hace necesario en muchos casos transmitir las señales de voz digitalmente y antes de la transmisión codificarlas para reducir la cantidad de datos y para protegerlas frente a errores de transmisión. En caso de que el sistema de conferencia de voz utilice transmisión por radio digital y codificación de audio digital, entonces se produce sin embargo sobre los trayectos de transmisión un retardo de la señal en el intervalo de milisegundos de dos dígitos. Esto además, a diferencia de los sistemas de conferencia telefónica habituales, no es posible en el caso de los sistemas de conferencia de voz inalámbricos debido a los recursos de radio limitados, que cada participante reciba a través de un canal de retorno exclusivo una señal de conferencia especial desde la unidad central, en la que no está presente su propia señal. Más bien en muchos casos se pone a disposición de todos los participantes una señal de conferencia uniforme que de manera comparable con una señal de radio se emite a todos. Así, la señal de conferencia uniforme presenta un retardo en el tiempo claro en el intervalo de milisegundos de dos dígitos respecto a la señal de voz de un hablante. La consecuencia de este retardo es que un hablante percibe un eco claramente molesto de su propia manifestación de voz. Esto limita considerablemente en la actualidad la posibilidad de utilizar una transmisión digital de señales en relación con una codificación que tiene un retardo para sistemas de conferencia de voz.

Aún así existe actualmente la tendencia de realizar los sistemas de conferencia de voz con transmisión inalámbrica digital.

Para poder entender aún mejor los problemas producidos por ello, en este caso se hace referencia con más detalle al modo de funcionamiento de un sistema de conferencia de voz. Todas las personas deben poder participar a través de terminales conectados de manera inalámbrica en una conferencia. A este respecto todos los participantes pueden escuchar en todo momento la señal de suma de todos los demás participantes que hablan a través de un altavoz incorporado en su terminal. La señal de suma se forma en una unidad central y continuamente se transmite a todos los terminales. Al accionar un botón de habla la señal de voz del micrófono de un participante se transmite desde un terminal a la unidad central y allí se alimenta a la señal de suma.

En un sistema de este tipo se producen diferentes tipos de ecos. Un eco local (retroacoplamiento) se produce por el acoplamiento acústico y/o electromagnético del altavoz con el micrófono de un terminal. Un eco de este tipo puede reducirse con métodos conocidos para compensar el eco.

Problemas especiales aparecen cuando el tiempo de propagación de una señal de voz transmitida desde un terminal hasta otro es superior a aproximadamente 20 milisegundos. Este es el caso especialmente en los sistemas de conferencia de voz digitales en los que una señal de voz se transmite codificada a través de un canal de transmisión. En la codificación se producen grandes retardos en el intervalo de milisegundos de dos dígitos. Esto lleva a ecos considerables.

La aparición de ecos se describirá con más detalle a continuación mediante la figura 4 y la figura 5. La figura 4 muestra un fragmento de un diagrama de bloques de un sistema de conferencia de voz habitual. En este caso se muestran un primer participante 10 de conferencia, un segundo participante 12 de conferencia así como dos terminales 14 ó 16 de conferencia correspondientes. El sistema de conferencia de voz comprende además una unidad 18 central de conferencia. Los dos terminales 14 ó 16 de conferencia comprenden en cada caso un micrófono 20, 22 así como en cada caso un altavoz 24, 26. El primer terminal 14 de conferencia del primer participante 10 de conferencia y el segundo terminal 16 de conferencia del segundo participante 12 están conectados con la unidad 18 central de conferencia a través de una conexión 28 ó 30 bidireccional.

Partiendo de la estructura de un sistema de conferencia de voz a continuación se explicará con más detalle la generación de ecos. En este caso no se describirán con mayor detalle los ecos locales, es decir el retroacoplamiento de un altavoz 24, 26 a un micrófono 20, 22 del mismo terminal, ya que pueden reducirse o suprimirse sin problemas con medidas técnicas conocidas. En primer lugar se considera el eco que percibe un primer participante 10 de conferencia, que habla propiamente. A este respecto ha de tenerse en cuenta, que el primer participante 10 de conferencia percibe la señal de voz acústica generada por él mismo directamente con sus oídos. Además la señal acústica generada por el hablante sigue un trayecto de señal, que está designado con 36. La señal de voz del primer participante de conferencia se capta a través del micrófono 20 del primer terminal 14 de conferencia. El primer terminal 14 de conferencia la retransmite entonces a la unidad 18 central de conferencia. Allí se incluye en la señal de suma de conferencia. Mediante una transmisión por radio digital y especialmente el procesamiento de señales digital y la codificación y descodificación de las señales de voz transmitidas digitalmente se produce en los trayectos de transmisión un retardo notable de la señal en el intervalo de milisegundos de dos dígitos. La señal de voz del primer participante de conferencia se transmite a continuación de nuevo desde la unidad 18 central de conferencia al primer terminal 14 de conferencia. En éste se emite por el altavoz 24 y la percibe el primer participante 10 de conferencia. De este modo el primer participante 10 de conferencia no sólo percibe su propia señal de voz acústica sino también una señal de eco muy retardada en el tiempo transmitida a través de la conferencia de voz. Por tanto, si tras la formación de la conferencia una señal se envía de vuelta como componente de la señal de conferencia a su fuente, entonces se produce un eco audible, percibido como molesto que se denomina eco propio lejano.

Además es posible que el terminal 16 de conferencia de un segundo participante 12 de conferencia se encuentre en servicio de habla, mientras que un primer participante 10 de conferencia esté hablando. En este caso existe otro trayecto 38 de señal, que lleva a un eco. La señal de voz del primer participante 10 de conferencia se capta a través del micrófono 22 en el segundo terminal 16 de conferencia de un segundo participante 12 de conferencia y se retransmite con retardo en el tiempo a una unidad 18 central de conferencia. Allí se proporciona a su vez a una señal de suma de conferencia. Como componente de la señal de suma de conferencia se proporciona entonces al primer terminal 14 de conferencia del primer participante 10 de conferencia y allí se emite por un altavoz 24. De este modo el primer participante 10 de conferencia percibe un eco retardado de su propia señal de voz. Este efecto también se denomina eco propio lejano.

Otro eco propio lejano por el servicio de habla simultáneo de otro terminal se evita por la reducción local del eco en el otro terminal.

\newpage

La figura 5 muestra otro fragmento de un diagrama de bloques de un sistema de conferencia de voz habitual. La construcción del sistema de conferencia de voz es idéntica con la descrita mediante la figura 4 y por tanto en este caso ya no se describe por separado. En especial los mismos números de referencia indican los mismos dispositivos. El interés está en investigar trayectos de señal desde un primer participante 10, que en este caso aparece como hablante, hasta un segundo participante 12 de conferencia, que en este caso aparece como oyente. En caso de que el primer participante 10 de conferencia y el segundo participante 12 de conferencia estén espacialmente lo suficientemente cerca entre sí, entonces el segundo participante 12 de conferencia puede recibir la aportación de voz del primer participante 10 de conferencia sobre el trayecto 46 acústico directo. Además existe un segundo trayecto de señal para la señal de voz del primer participante 10 de conferencia hacia el segundo participante 12 de conferencia, que en este caso se designa con 48. La señal de voz del primer participante de conferencia se transmite a este respecto a través del terminal 14 de conferencia del primer participante de conferencia a la unidad 18 central de conferencia y desde allí se retransmite al segundo terminal 16 de conferencia del segundo participante 12 de conferencia. A este respecto en caso de una transmisión de señal de audio codificada digital se produce un retardo considerable en el intervalo de milisegundos de dos dígitos. La señal de voz recibida por el segundo participante de conferencia por el trayecto 48 de señal a través del sistema de conferencia de voz presenta de manera correspondiente un retardo notable respecto a la señal de voz captada sobre el trayecto 46 acústico directo. En caso de que el segundo participante de conferencia escuche la aportación de voz de otro participante tanto sobre un trayecto acústico directo como con retardo en el tiempo a través del sistema de conferencia de voz, entonces esto también se percibe como eco molesto. Esto se denomina eco extraño lejano.

Además ha de indicarse que diferentes tipos de ecos pueden solucionarse con diferente dificultad. Tal como ya se mencionó brevemente, es posible sin grandes dificultades reducir un eco local.

Un eco propio lejano que se produce porque el propio terminal de conferencia capta la propia señal de voz, la retransmite a la unidad central y desde allí la recibe a su vez, no puede suprimirse de manera sencilla. En los sistemas habituales no es problema sólo porque éstos utilizan una transmisión digital analógica o no codificada, no produciéndose prácticamente retardos de señal notables. Una transmisión de señal de voz codificada digital, en la que obligatoriamente se producen retardos, se dificulta sin embargo por el eco o incluso se hace imposible. Un eco de este tipo se produce por lo demás sobre el trayecto 36 de señal mostrado en la figura 4. El tiempo de propagación sobre este trayecto 36 de señal se conoce con suficiente precisión, puesto que a este respecto influyen esencialmente los tiempos de retardo conocidos de los dispositivos de codificación y descodificación. Aún más problemática es la supresión de un eco cuando se desconoce el tiempo de propagación de la señal o la diferencia de los tiempos de propagación sobre dos trayectos de transmisión diferentes. Esto se produce por ejemplo en la supresión de un eco extraño lejano. El tiempo de retardo sobre el trayecto 46 acústico directo no se conoce, mientras que el retardo sobre un trayecto 48 de señal puede estimarse bien mediante el sistema de conferencia de voz. Así, no se conoce la diferencia de tiempo de propagación entre el trayecto 46 acústico directo y el trayecto 48 de señal por el sistema de conferencia de voz. Precisamente, en un caso de este tipo una supresión del eco sólo es posible con mucha dificultad y no tiene lugar en sistemas de conferencia de voz según el estado de la técnica. Lo mismo es válido para un eco propio lejano que se produce porque se capta la propia señal de voz mediante el micrófono del terminal de conferencia que se encuentra en servicio de habla de un participante de conferencia contiguo y se distribuye en el sistema de conferencia
de voz.

Más bien en los sistemas de conferencia de voz según el estado de la técnica se pide a los participantes de conferencia que hablen bajo para reducir un eco extraño lejano. Por tanto, a este respecto, cada participante de conferencia debe hablar tan bajo que un participante contiguo sólo pueda percibirle ligeramente de manera acústica directa y la comunicación también se produzca entre participantes contiguos fundamentalmente a través del sistema de conferencia de voz. Una medida de este tipo es evidentemente poco satisfactoria, ya que no corresponde a la forma de expresión natural de los hablantes. Por tanto para el hablante resulta muy molesto utilizar un sistema de conferencia de voz habitual, especialmente cuando los participantes de conferencia contiguos están muy cerca entre sí.

El documento US 6.408.327 B1 describe un procedimiento y un sistema para realizar una audioconferencia estéreo sintética de una pluralidad de usuarios a través de una red local (LAN) o una red de área amplia (WAN). La arquitectura del sistema utilizando una LAN/WAN hace posible una audioconferencia sintética y permite un emplazamiento virtual espacialmente diferente de otras partes, que participan en una llamada de conferencia, en el lugar de un usuario receptor. Esto permite a un usuario distinguir entre diferentes otras partes y reconocer cuál de las diferentes otras partes habla en un momento determinado. Tanto la síntesis estéreo como la puesta a disposición de la conferencia son funciones que se basan en el cliente. En un segundo ejemplo de realización, tanto la síntesis estéreo como la puesta a disposición de la conferencia son funciones basadas en el servidor. En una tercera forma de realización, la síntesis estéreo es una función basada en el servidor y la puesta a disposición de una conferencia es una función cliente/servidor híbrida. Uno de los clientes que participa en una llamada de conferencia envía por ejemplo su señal individual al servidor. El servidor combina entonces las señales y envía una señal específica del cliente a uno o varios de los clientes. De este modo resulta que N señales independientes se reciban por el servidor y que hasta N señales independientes se envían desde el servidor hasta los clientes. N representa un número total de clientes que participan en la conferencia. La señal combinada que se envía a un cliente determinado comprende las señales combinadas y sintetizadas de los demás clientes aunque no contiene la propia señal del cliente.

En el caso del sistema cliente/servidor híbrido un determinado cliente, que recibe desde el servidor una señal de multidifusión, elimina su propia componente enviada de la señal y emite la señal restante compuesta, que comprende las señales de conferencia de los demás usuarios en la llamada de conferencia, aunque fundamentalmente ningún eco del cliente en cuestión.

El documento WO 96/04744 describe un sistema y un procedimiento para realizar una llamada de conferencia en un sistema de comunicación utilizando una compresión de voz. El documento mencionado describe por tanto un sistema de comunicación y un procedimiento para realizar de manera económica una llamada de conferencia entre varios teléfonos inalámbricos o por cable. Cada una de las señales comprimidas entrantes de los microteléfonos se descomprime y se atenúa antes de que se sumen entre sí las señales comprimidas entrantes. Las señales sumadas se conducen entonces por un conversor digital-analógico y se envían a un participante de conferencia lejano en la línea telefónica. Las señales sumadas se suman también para obtener una señal de partida. La señal sumada total se comprime y se envía a cada usuario de los microteléfonos.

El objetivo de la presente invención es crear un terminal de conferencia con una reducción del eco mejorada.

Este objetivo se soluciona mediante un terminal de conferencia según la reivindicación 1.

La presente invención crea un terminal de conferencia para un sistema de conferencia de voz digital con un primer dispositivo transductor acústico que está configurado para a partir de una señal acústica generar una señal de micrófono, un segundo dispositivo transductor acústico que está configurado para a partir de una señal de altavoz generar una señal acústica, un dispositivo de conexión que está configurado para posibilitar una conexión entre el terminal de conferencia y una unidad central de conferencia, para recibir desde la unidad central de conferencia una señal de conferencia de suma, y un dispositivo para suprimir el eco que está configurado para en un servicio de escucha del terminal de conferencia combinar la señal de micrófono o una señal derivada de la misma con la señal de conferencia de suma de tal modo que se produzca una señal de altavoz, en la que está reducida la señal acústica en la que se basa la señal de micrófono o para en un servicio de habla en el que la señal de micrófono se transmite a la unidad central de conferencia combinar la señal de micrófono o una señal derivada de la misma con la señal de conferencia de suma de tal modo que se produzca una señal de altavoz en la que está reducida la señal acústica en la que se basa la señal de micrófono.

La idea básica de la presente invención es que es ventajoso que en un terminal de conferencia de un sistema de conferencia digital de voz esté activo un dispositivo para suprimir el eco, cuando el terminal de conferencia se encuentra en un servicio de escucha o un servicio de habla. Puede reducirse un eco extraño lejano, que molestaría al participante de conferencia que escucha en el servicio de escucha de un terminal de conferencia, mediante un dispositivo para suprimir el eco, cuando aquellas partes de la señal que ya pueden percibirse en el lugar del participante de conferencia que escucha a través del tramo de transmisión acústico libre, se eliminan de la señal de conferencia de suma y no se reproducen por el altavoz del terminal de conferencia. De forma similar también puede suprimirse un eco lejano propio que se produce porque la señal de voz propia se capta por el terminal de conferencia de un participante de conferencia contiguo y se alimenta al sistema de conferencia de voz.

En un servicio de habla, en el caso de un sistema de conferencia de voz digital debido a los tiempos de propagación considerables en el intervalo de milisegundos de dos dígitos y debido al uso de un canal de retorno uniforme, a través del que vuelve a proporcionarse al terminal de un participante que habla la señal de voz propia con retardo en el tiempo, debe realizarse también una supresión del eco.

Para este fin según el estado de la técnica no se conoce ningún dispositivo adecuado. Así, según el estado de la técnica no es posible o sólo con grandes limitaciones hacer funcionar sistemas de conferencia de voz digitales de forma eficiente respecto a los recursos. Una ventaja fundamental de un terminal de conferencia según la invención es que mediante la introducción de una supresión del eco pueden reducirse sustancialmente los requisitos respecto a los tiempos de retardo en un sistema de conferencia de voz. Sólo esto permite el uso de codificación de audio y una transmisión de radio digital o lo simplifica.

El oyente humano percibe un eco considerado como molesto cuando el oído humano capta una señal de audio desplazada en el tiempo por duplicado. Precisamente en el caso de sistemas de conferencia de voz digitales, los tiempos de propagación son tan grandes que un usuario percibe los ecos como claramente molestos. El tiempo de retardo es a este respecto igual al tiempo de propagación que requiere una señal de audio para transmitirse desde un terminal de conferencia a la unidad central de conferencia y de nuevo al terminal de conferencia, incluyendo posibles retardos por codificación y descodificación.

Durante el servicio de escucha, un dispositivo habitual para suprimir el eco está inactivo ya que en este caso no existe el eco predecible de manera precisa y lejano propio muy intenso respecto al nivel. Así un terminal de conferencia según la invención permite a diferencia de los terminales de conferencia habituales una supresión del eco extraño lejano dado el caso existente.

En un terminal de conferencia según la invención un dispositivo para suprimir el ruido también está activo durante un servicio de escucha. En este caso se utiliza la señal de micrófono para suprimir el eco. La señal de micrófono describe a este respecto muy bien la señal de audio, que percibe un oyente humano. Un dispositivo de procesamiento de señales elimina ahora todas las partes de la señal de suma de conferencia, que están presentes en la señal de micrófono, y que de este modo percibe también un oyente humano. De este modo se garantiza que el oyente de cada señal de audio sólo oiga exactamente una vez, es decir o bien a través de la ruta aérea libre o bien a través del sistema de conferencia de voz.

Un terminal de conferencia según la invención ofrece la ventaja de que se suprimen los ecos extraños lejanos de manera eficaz, que especialmente en el caso de sistemas de conferencia de voz inalámbricos digitales que tienen un retardo con transmisión codificada llevan a perjuicios considerables. La misma ventaja se obtiene para un eco propio lejano. Por tanto es posible utilizar tales sistemas de conferencia de voz digitales sin tener que pedir a los participantes de conferencia que hablen lo más bajo posible para mantener reducidos los ecos. Esto aumenta drásticamente la comodidad al utilizar un sistema de conferencia de voz. Además, al utilizar un terminal de conferencia según la invención se prescinde de la necesidad de mantener una distancia mínima entre hablantes contiguos. Así pueden realizarse sistemas de conferencia de voz inalámbricos digitales según la invención que garantizan una alta calidad de voz y una seguridad frente a interferencias con un despliegue de cableado mínimo y una baja necesidad de recursos de radio.

En un ejemplo de realización preferido, el terminal de conferencia contiene un dispositivo de codificación que está configurado para codificar la señal de micrófono. Esto tiene la ventaja de que se produce una reducción de la cantidad de datos que ha de transmitirse digitalmente. Además, mediante una codificación puede disminuirse la tendencia a interferencias sobre el canal de transmisión. Esto es especialmente ventajoso cuando existe una conexión inalámbrica digital entre el terminal de conferencia y la unidad central de conferencia. De manera similar el terminal de conferencia contiene preferiblemente un dispositivo de descodificación que está configurado para descodificar una señal de suma de conferencia digital transmitida de manera inalámbrica. Esta característica es a su vez útil en combinación con una transmisión digital inalámbrica, ya que los recursos de frecuencia necesarios pueden reducirse mediante la codificación y mejorarse la tendencia a interferencias. Una codificación puede comprender a este respecto tanto una codificación de fuente como una codificación de canal. Una codificación de fuente es conveniente para reducir la tasa de transmisión de datos necesaria para la transmisión de una señal de voz. Una codificación de fuente parte de una señal de voz, que está presente en forma de un flujo de datos de valores de muestreo discretos en el tiempo y de valor discreto (Pulse Code Modulation, PCM, modulación por ancho de pulsos). A partir de ahí se genera con ayuda de un dispositivo de codificación un flujo de bits con una tasa de transmisión de datos menor, que puede transmitirse con una menor necesidad de recursos sobre un canal de radio inalámbrico y almacenarse en un terminal. Ejemplos de un dispositivo de codificación son un codificador según la norma MP3 así como los codificadores conocidos por las normas de radiotelefonía móvil (por ejemplo el códec RPE-LPE). Sin embargo puede utilizarse muy en general cualquier codificador adecuado para transmisión de voz. En el lado de recepción ha de utilizarse en cualquier caso un descodificador correspondiente. Además de la codificación de fuente es de gran importancia precisamente en el caso de una transmisión inalámbrica una codificación de canal adecuada. Las señales con codificación de fuente, debido a la baja redundancia contenida en las mismas, son especialmente susceptibles frente a errores de bits que pueden producirse en la transmisión. Por tanto es conveniente utilizar una corrección de errores sin canal de retorno. Si bien una de este tipo aumenta la tasa de transmisión de datos, sin embargo mejora simultáneamente la calidad de las señales de voz transmitidas.

En otro ejemplo de realización preferido el dispositivo para suprimir el eco contiene un dispositivo de retardo que está configurado para retardar la señal de micrófono o una señal derivada de la señal de micrófono por un tiempo de retardo. Es especialmente ventajoso que el dispositivo de retardo esté configurado de tal modo que el tiempo de retardo puede ajustarse. Una forma de realización de este tipo posibilita una compensación de una diferencia de tiempo de propagación desconocida entre las señales acústicas sobre el trayecto acústico libre y a través del sistema de conferencia de voz. Si bien el tiempo de propagación a través del sistema de conferencia de voz es fundamentalmente constante, el tiempo de propagación sobre el trayecto acústico libre depende sin embargo considerablemente de la distancia espacial entre los participantes de conferencia que escuchan y los que hablan.

El ajuste del tiempo de retardo se produce preferiblemente en función de la señal de micrófono y la señal de suma de conferencia. Mediante un dispositivo adecuado puede determinarse la diferencia de tiempo de propagación entre las señales que se recibieron a través de la señal de suma de conferencia y a través del trayecto acústico libre. Una disposición de este tipo ofrece la gran ventaja de que no es necesario un ajuste manual del tiempo de retardo. Además es posible utilizar también la supresión del eco cuando cambia la distancia de los participantes de conferencia con el tiempo, por ejemplo porque éstos se muevan en el espacio.

Durante el servicio de habla es posible por lo demás un ajuste fijo del tiempo de retardo. Éste se calcula a partir del tiempo de propagación de la señal, es decir a partir de la suma del tiempo que se requiere para codificar la señal de voz, transmitirla desde el terminal de conferencia hasta la unidad central de conferencia, descodificarla en la misma, añadirla a la señal de suma de conferencia y a su vez codificar, transmitir y descodificar la señal de suma de conferencia. Tiempos de retardo adicionales se generan en la supresión del eco local del terminal de conferencia así como en otros componentes que se encuentran en el trayecto de señal.

El dispositivo para suprimir el ruido puede estar configurado de muchas maneras. A este respecto se prefieren formas de realización sencillas, tales como por ejemplo una disposición para formar la diferencia entre la señal de micrófono retardada y la señal de suma de conferencia. Esto puede producirse tanto en el dominio de tiempo como en el dominio espectral. También un filtro de Wiener, que regularmente se adapta a la señal de eco que ha de suprimirse, puede provocar una supresión del eco.

Además es ventajoso que un dispositivo para suprimir el eco comprenda un dispositivo para el ajuste a escala. Uno de este tipo está configurado para ajustar a escala la señal de micrófono, la señal de suma de conferencia o la señal de altavoz. De este modo podrían compensarse variaciones del volumen de sonido en la señal de eco. De este modo la supresión del eco es independiente del volumen de sonido de las ondas acústicas que llegan al terminal de conferencia. Una supresión del eco funciona en una forma de realización tal tanto para señales acústicas altas como bajas que llegan sobre el trayecto acústico directo.

En otro ejemplo de realización preferido el terminal de conferencia contiene un dispositivo de conmutación que está configurado para posibilitar una conmutación entre un servicio de escucha y un servicio de habla, transmitiéndose la señal de micrófono a la unidad central. Es ventajoso que un dispositivo para suprimir el eco en el servicio de escucha pueda ajustarse de modo que se suprima de manera óptima un eco extraño lejano y pueda ajustarse en el servicio de habla de tal modo que se suprima de manera óptima un eco lejano propio. De este modo, para cualquier caso de servicio puede conseguirse la mejor calidad de voz posible sin que se aumente considerablemente el despliegue para el dispositivo para suprimir el ruido. Para la supresión de un eco lejano propio sólo tienen que ajustarse otros parámetros, sin embargo la estructura del dispositivo para suprimir el eco puede permanecer igual.

En otro ejemplo de realización el terminal de conferencia puede comprender un dispositivo de valor umbral que está configurado para desactivar el dispositivo para suprimir el ruido cuando la señal de micrófono es menor que un valor umbral predeterminado. Un dispositivo de este tipo conlleva la ventaja de que no tiene lugar ninguna supresión del ruido cuando la señal de micrófono es muy débil. De este modo los hablantes, que en el lugar del oyente sólo pueden percibirse muy débilmente de manera acústica, pueden reproducirse a través del sistema de conferencia de voz. En caso de que la señal acústica recibida de manera acústica directo sólo sea débil, entonces esto no se percibe como molesto por parte de un oyente. En un caso tal es suficiente la reproducción a través del sistema de conferencia de voz.

Ejemplos de realización preferidos de la presente invención se explican a continuación con más detalle haciendo referencia a los dibujos adjuntos. Muestran:

la figura 1 un diagrama de bloques de un terminal de conferencia según la invención según un ejemplo de realización de la presente invención;

la figura 2 un fragmento de un diagrama de bloques de un sistema de conferencia de voz con un terminal de conferencia según la invención con señales de audio dibujadas;

la figura 3 un diagrama de bloques de un terminal de conferencia según la invención según un ejemplo de realización de la presente invención;

la figura 4 un fragmento de un diagrama de bloques de un sistema de conferencia de voz según el estado de la técnica con señales de audio dibujadas que llevan a un eco propio;

la figura 5 un fragmento de un diagrama de bloques de un sistema de conferencia de voz según el estado de la técnica con señales de audio dibujadas que llevan a un eco extraño.

La figura 1 muestra un diagrama de bloques de un terminal de conferencia según la invención según un ejemplo de realización de la presente invención. El terminal de conferencia está designado en su totalidad con 50. El núcleo del terminal 50 de conferencia es un dispositivo 52 para suprimir el eco que comprende un dispositivo 53 para suprimir el ruido. El dispositivo 52 para suprimir el eco recibe una señal 54 de micrófono desde un primer dispositivo 56 transductor acústico y proporciona una señal 58 de altavoz a un segundo dispositivo 60 transductor acústico. Además se proporciona al dispositivo 52 para suprimir el eco una señal 62 de conferencia de suma, que recibe un dispositivo 64 de conexión de una unidad central. El tramo de transmisión entre la unidad central y el dispositivo 64 de conexión se indica en este caso con 66.

El primer dispositivo 56 transductor acústico, que preferiblemente está configurado como micrófono, genera una señal 54 de micrófono a partir de una señal acústica que llega. El segundo dispositivo 60 transductor acústico, que preferiblemente está configurado como altavoz, genera una señal acústica a partir de una señal 58 de altavoz. El dispositivo 52 para suprimir el eco tiene la función de combinar la señal 54 de micrófono con la señal 62 de suma de conferencia de tal modo que en la señal 58 de altavoz esté reducida una señal acústica, en la que se basa la señal de micrófono. A este respecto se utiliza un dispositivo 53 para suprimir el ruido contenido en el dispositivo 52 para suprimir el eco.

La figura 2 muestra un fragmento de un diagrama de bloques de un sistema de conferencia de voz que presenta un terminal de conferencia según la invención. Además están dibujadas las señales acústicas relevantes en el diagrama de bloques. El sistema de conferencia de voz se utiliza por dos participantes 70, 72 de conferencia, asumiendo el primer participante 70 de conferencia la función de un hablante y el segundo participante 72 de conferencia, la función de un oyente. El sistema de conferencia de voz comprende un primer terminal 74 de conferencia y un segundo terminal 76 de conferencia. Al sistema de conferencia de voz pertenece además una unidad 78 central de conferencia. Cada terminal 74, 76 de conferencia comprende en cada caso un micrófono 80, 82 así como en cada caso un altavoz 84, 86. El primer terminal 74 de conferencia está conectado con la unidad 78 central de conferencia mediante una primera conexión 88, el segundo terminal 76 de conferencia está conectado con la unidad 78 central de conferencia mediante una segunda conexión 90. El segundo terminal de conferencia comprende además un dispositivo 100 para suprimir el eco.

Mediante la estructura del sistema de conferencia de voz se describe a continuación el modo de funcionamiento. A este respecto se indica especialmente cómo se suprime un eco extraño lejano. Para la descripción de la función se supone a continuación que el primer terminal 74 de conferencia se encuentra en un servicio de habla y el segundo terminal 76 de conferencia se encuentra en un servicio de escucha. Además se parte de que los dos participantes 70, 72 de conferencia están espacialmente tan próximos entre sí que existe una conexión 110 acústica directa entre ambos. Es decir, por ejemplo, el segundo participante 72 de conferencia puede oír al primer participante 70 de conferencia también sin el uso de un sistema de conferencia de voz.

Cuando habla el primer participante 70 de conferencia, entonces se transmite la información acústica al segundo participante 72 de conferencia a través del trayecto 110 acústico directo. Además, la información de voz desde el primer participante 70 de conferencia hasta el terminal de conferencia del segundo participante 72 de conferencia también se transmite sobre un trayecto 114 de señal a través del sistema de conferencia de voz. A este respecto, la señal de voz acústica del primer participante 70 de conferencia se capta por el micrófono 80 del primer terminal 74 de conferencia. Además, la señal de voz del primer participante 70 de conferencia se retransmite a través de la primera conexión 88 a la unidad 78 central de conferencia. Allí se incluye en la señal de suma de conferencia. Como parte de la señal de suma de conferencia, la señal de voz del primer participante 70 de conferencia se retransmite entonces desde la unidad 78 central de conferencia al segundo terminal 76 de conferencia y en éste se proporciona a un dispositivo 100 para suprimir el eco. Al dispositivo 100 para suprimir el eco se proporciona además una señal de micrófono, que se basa en la señal acústica captada por el micrófono 82 del segundo terminal 76 de conferencia. La señal de micrófono comprende de este modo la señal de audio que recibe el segundo participante 72 de conferencia sobre el trayecto 110 acústico directo desde el primer participante 70 de conferencia. Ésta, a excepción de posibles distorsiones y un retardo es igual a la parte de la señal de suma de conferencia originada por el primer participante 70 de conferencia. El dispositivo 100 para suprimir el eco está configurado ahora de modo que suprime la parte de la señal de suma de conferencia que es igual que la señal de micrófono o corresponde a la señal de micrófono. De este modo en el caso dado en la salida 120 del dispositivo 100 para suprimir el eco no existe ninguna señal. Por consiguiente no se emite ninguna señal por el altavoz 86 del segundo terminal 76 de conferencia. Por tanto se suprime un eco extraño lejano que percibiría el segundo participante 72 de conferencia, si no existiera el dispositivo 100 para suprimir el eco. El segundo participante 72 de conferencia percibe por tanto exclusivamente la señal de voz del primer participante 70 de conferencia transmitida a través del trayecto 110 acústico directo.

En este caso se indica expresamente que en el caso de la disposición descrita se trata de un fragmento de un sistema de conferencia de voz. Un sistema de conferencia de voz real comprende normalmente claramente más participantes. Sin embargo en este caso no se muestran para permitir una descripción más clara de la supresión del eco.

El tipo de conexión entre un terminal 74, 76 de conferencia y la unidad 78 central de conferencia puede seleccionarse en un marco amplio. A este respecto se prefiere una conexión inalámbrica, ya que ésta posibilita el establecimiento de un sistema de conferencia con un despliegue de instalación muy reducido. Además en el caso de una solución basada en radiocomunicación es posible que los participantes de la conferencia se muevan libremente en el espacio. Sin embargo igualmente es concebible elegir una transmisión por cable. A este respecto puede elegirse una conexión punto a punto entre el terminal de conferencia y la unidad central de conferencia así como una conexión de bus.

Por ejemplo es posible el uso de una red de Ethernet ya existente.

Además es posible que o bien estén acoplados todos los terminales de conferencia directamente a la unidad central, o bien existan varias unidades centrales que a su vez estén acopladas a través de una conexión. Una estructura descentralizada de este tipo conlleva la ventaja de que pueden conectarse conferencias en espacios grandes. Especialmente en caso de usar una transmisión inalámbrica entre terminal de conferencia y unidad central de conferencia puede ser deseable utilizar varias unidades centrales para reducir la separación máxima entre el terminal de conferencia y una unidad central de conferencia, lo que permite el uso de una potencia de emisión menor. De este modo se utiliza de una manera más efectiva el recurso de radio disponible.

También puede modificarse la distancia espacial entre un primer participante de conferencia y un segundo participante de conferencia. En especial es posible que no exista un trayecto de señal acústico directo entre los dos participantes de conferencia. En un caso tal el dispositivo 110 para suprimir el eco no se activa, y el segundo participante 72 de conferencia oye en lugar de la señal de voz del primer participante de conferencia transmitida de manera acústica directa una señal de voz transmitida a través del sistema de conferencia de voz. A este respecto se produce un retardo de señal en el intervalo de algunos 10 milisegundos, que sin embargo no tiene un efecto adicional molesto.

La figura 3 muestra un diagrama de bloques de un terminal de conferencia según la invención según un ejemplo de realización de la presente invención, que en su totalidad se designa con 210. Este comprende un micrófono 220 que proporciona una señal de entrada para una rama 222 de habla. El terminal 210 de conferencia comprende además una rama 224 de escucha que proporciona una señal de salida para un altavoz 226. Tanto la rama 222 de habla como la rama 224 de escucha están conectadas con un emisor-receptor 228 inalámbrico. Éste está configurado para establecer una conexión 230 inalámbrica con una unidad central de conferencia. La rama 222 de habla comprende un dispositivo 240 para la supresión local del eco. Éste recibe una señal del micrófono 220 así como la señal 242 de altavoz. Al dispositivo 240 para la supresión local del eco le sigue en la rama 222 de habla un codificador 244 de audio. La señal de salida del codificador 244 de audio está disponible de manera activada por un botón 246 para hablar en la salida de la rama 222 de habla y se proporciona al emisor-receptor 228 inalámbrico. La señal de salida del codificador 244 de audio se proporciona además al dispositivo 248 para suprimir el eco de la rama 224 de escucha. La rama 244 de escucha recibe además una señal 250 de suma de conferencia codificada del emisor-receptor 228 inalámbrico. La señal 250 de suma de conferencia codificada se proporciona en la rama 224 de escucha a un descodificador 252 de audio. Éste genera a partir de ahí una señal 254 de suma de conferencia descodificada. La señal 254 de suma de conferencia descodificada así como la señal de salida del codificador 244 de audio de la rama 222 de habla se proporcionan al dispositivo 248 para suprimir el eco. Éste obtiene aún una señal 256 de conmutación, que depende del estado del botón 246 para hablar e indica una conmutación entre un servicio de escucha y un servicio de habla. La señal de salida del dispositivo 248 para suprimir el eco es la señal 242 de altavoz que se proporciona al dispositivo 240 para la supresión local del eco de la rama 222 de habla así como al altavoz 226. El dispositivo 248 para suprimir el eco comprende un dispositivo 260 para suprimir el ruido así como un dispositivo 262 de procesamiento previo. El dispositivo 262 de procesamiento previo comprende un descodificador 264 de audio así como una línea de retardo de longitud 266 variable. El dispositivo 248 para suprimir el eco comprende además un dispositivo 268 para ajustar un tiempo de retardo.

En el servicio de habla del terminal 210 de conferencia (botón 246 para hablar apretado), una señal de audio proporcionada por el micrófono 220 se somete en primer lugar a una supresión local del eco en un dispositivo 240 para la supresión local del eco. A continuación se codifica por un codificador 244 de audio y finalmente se transmite a través del emisor-receptor 228 inalámbrico a una unidad central de conferencia. La unidad central proporciona una señal de suma de conferencia que está disponible en la salida del emisor-receptor 228 inalámbrico como señal 250 de suma de conferencia codificada. Se descodifica en un descodificador 252 de audio.

Finalmente se elimina o reduce un eco propio lejano mediante un dispositivo 248 para suprimir el eco. A este respecto actúan también un dispositivo 262 de procesamiento previo así como un dispositivo 260 para suprimir el ruido. La señal de audio codificada original, que se proporciona por el micrófono 220 del terminal 210 de conferencia, se descodifica primero en el codificador 264 de audio del dispositivo 262 de procesamiento previo y a continuación se retarda en una línea 266 de retardo, que también está contenida en el dispositivo 262 de procesamiento previo, por un periodo de retardo predefinido. El periodo de retardo se fija a este respecto por un dispositivo 268 para ajustar un tiempo de retardo. Está predeterminado en un servicio de habla y se determina a partir del retardo de todo el sistema. Éste es por ejemplo la suma del retardo del supresor local del eco, del codificador de audio, del tramo de transmisión inalámbrico, de la formación de la suma de todas las señales de los puestos desde los que se habla en la unidad central de conferencia así como del descodificador de audio. Este periodo de retardo se conoce normalmente con exactitud. La verdadera supresión del eco se produce eliminando la parte del eco de la señal 254 de suma de conferencia. Esta función se cumple mediante un dispositivo 260 para suprimir el ruido. En el caso más sencillo este dispositivo puede utilizar una formación temporal de la diferencia. La señal de salida del dispositivo 260 para suprimir el ruido se emite entonces por el altavoz 226 del terminal 210 de conferencia.

En el servicio de escucha del terminal 210 de conferencia (botón 246 para hablar sin apretar) la señal de audio captada por el micrófono 220 se somete además a una supresión local del eco y a una codificación de audio, aunque no se retransmite al emisor-receptor 228 inalámbrico. Sin embargo la señal de micrófono codificada sigue a disposición en el dispositivo 248 para suprimir el eco y especialmente en el dispositivo 260 para suprimir el ruido y se utiliza para suprimir un eco extraño lejano. Existe uno de este tipo cuando se percibe una señal de audio de otro participante de conferencia en el lugar del terminal 210 de conferencia sobre el trayecto acústico directo y también existe en la señal 254 de suma de conferencia descodificada. Debido al tiempo de retardo del sistema de conferencia de voz la señal de otro participante de conferencia presenta en la señal 254 de suma de conferencia descodificada un retardo respecto a la señal de audio perceptible de manera acústica directa. Sin embargo este retardo no se conoce exactamente. Si bien puede calcularse con exactitud el tiempo de propagación de la señal a través del sistema de conferencia de voz, tal como se describió anteriormente, sin embargo se desconoce el tiempo de propagación de la señal de audio sobre la ruta aérea desde un hablante lejano hasta el micrófono local, ya que depende de la distancia entre dos participantes de conferencia. A su vez se utiliza el dispositivo 260 para suprimir el ruido para eliminar la señal de audio existente en el micrófono 220 local de la señal 254 de suma de conferencia descodificada. Para poder conseguirlo la señal de audio captada en el micrófono 220 debe retardarse en una línea 266 de retardo. El tiempo de retardo de la línea 266 de retardo ajustable, contenida en el dispositivo 262 de procesamiento previo, debe determinarse a este respecto. Esto puede producirse mediante una comparación adecuada de la señal de micrófono con la señal 254 de suma de conferencia descodificada en un dispositivo 268 para determinar un tiempo de retardo (tiempo de retardo adaptativo). Por otro lado es posible calcular el tiempo de retardo cuando se conozca la distancia entre los dos participantes de conferencia implicados, por lo que el dispositivo 268 para determinar un tiempo de retardo puede configurarse de manera más sencilla y no tiene que utilizar las señales de audio. La eliminación de la señal de eco puede producirse por ejemplo sustrayendo la señal de micrófono retardada de la señal 254 de suma de conferencia procedente de la unidad central de conferencia.

Al observar el modo de funcionamiento del dispositivo 248 para suprimir el eco puede distinguirse por tanto dos estados de servicio. En el servicio de habla la señal de voz propia se transmite a la unidad central de conferencia. Un eco alejado propio se compensa mediante el dispositivo 248 para suprimir el eco y especialmente mediante el dispositivo 260 para suprimir el ruido. Las constantes de tiempo de la línea 266 de retardo ajustable son fijas.

En un servicio de escucha la señal de micrófono del terminal de conferencia no se transmite a la unidad central de conferencia. Sin embargo se sigue utilizando para la compensación de un eco extraño lejano mediante el dispositivo 248 para suprimir el eco y especialmente mediante el dispositivo 260 para suprimir el ruido. Las constantes de tiempo de la línea 266 de retardo ajustables son adaptativas, es decir se adaptan a la señal 254 de suma de conferencia o la señal de micrófono de tal modo, que es posible una supresión óptima de un eco. La distinción entre servicio de escucha y servicio de habla se produce en este ejemplo de realización mediante la utilización del usuario. El usuario acciona un botón 246 para hablar para activar el servicio de habla.

El terminal 210 de conferencia puede modificarse en un marco amplio sin desviarse de la idea principal de la invención. En especial es posible realizar una conmutación escucha-habla automática. Para ello puede utilizarse por ejemplo una detección voz/pausa (VAD, Voice Activity Detection, detección de la actividad de voz). Esto tiene la ventaja de que ya no es necesaria una conmutación manual de un servicio de habla a un servicio de escucha. Esto aumenta la comodidad para el usuario del sistema de conferencia de voz.

Además son posibles numerosas variaciones en la determinación de las variaciones en la determinación del tiempo de retardo de la línea de retardo ajustable. En especial es posible dotar el terminal de conferencia de un dispositivo para ajustar manualmente un retardo. Un retardo de este tipo puede determinarse a partir de la separación de participantes de conferencia contiguos. Esto es útil especialmente cuando sólo pocos participantes de conferencia contiguos ejercen una influencia molesta sobre un participante dado. La ventaja de una solución tal es que se reduce considerablemente el despliegue de realización. En especial se suprime la necesidad de extraer el tiempo de retardo de los desarrollos de señal, lo que va unido a un elevado despliegue de cálculo.

Por otro lado es posible determinar un tiempo de retardo tal mediante la formación de una función de correlación cruzada entre la señal de micrófono y la señal de suma de conferencia descodificada. En caso de que la señal de audio captada por el micrófono esté contenida en la señal de suma de conferencia descodificada de manera retardada, entonces esto se manifiesta en un máximo en la función de correlación cruzada correspondiente. La ventaja en un modo de proceder de este tipo se encuentra en que no se requiere un conocimiento a priori del tiempo de retardo. Así, el sistema de conferencia de voz puede aplicarse universalmente y respecto al tiempo de retardo no requiere una configuración previa. También es irrelevante si se modifica la separación de varios participantes de conferencia, por ejemplo porque éstos se muevan en el espacio. El dispositivo 260 para suprimir el ruido puede estar configurado de manera muy diferente. La función de este dispositivo es muy en general eliminar una parte dada de señal de la señal de conferencia de suma. En especial debe eliminarse la señal proporcionada por el dispositivo de retardo de la señal de conferencia de suma, ya que ésta representa el eco que ha de suprimirse. En un caso sencillo el dispositivo para suprimir el ruido forma en el dominio de tiempo la diferencia entre la señal de suma de conferencia descodificada y la señal de micrófono retardada. Una disposición tal puede realizarse de una manera muy sencilla. Además es posible eliminar la señal de micrófono mediante una formación espectral de la diferencia de la señal de suma de conferencia descodificada. Para ello la señal de micrófono retardada y la señal de suma de conferencia se someten a una transformación de Fourier (discreta). Por ejemplo se forma el espectro de densidad de potencia (discreto). A continuación se resta el espectro de densidad de potencia de la señal de micrófono retardada del espectro de densidad de potencia de la señal de suma de conferencia. Esto se produce para varios valores de frecuencia discretos o para varias bandas de frecuencia. El resultado de la resta es un espectro de densidad de potencia nuevo. Éste se convierte finalmente de nuevo en una señal de altavoz. La ventaja de un modo de proceder tal se basa en que al contrario que en una resta directa de las señales en el dominio de tiempo, en la formación de la diferencia en el intervalo de frecuencia utilizando un espectro de densidad de potencia las relaciones de fase no tienen ninguna importancia. Concretamente, por la utilización de codificadores de audio y descodificadores de audio en el sistema de conferencia de voz no puede garantizarse que en la transmisión de la señal de audio no se produzcan desplazamientos de fase. En este sentido es adecuada una formación de la diferencia espectral, restar una señal sin introducir efectos de interferencia de otra señal o eliminarla de otra señal. La supresión de la influencia de relaciones de fase mediante una formación de la diferencia espectral se adapta por tanto muy bien a las propiedades de un sistema de transmisión digital que comprende codificadores de señal y descodificadores de señal.

De manera similar puede utilizarse un filtro de Wiener para eliminar una señal de interferencia o una señal de eco de una señal de suma de conferencia. La característica de transmisión del filtro de Wiener puede adaptarse a este respecto para un segmento corto de una señal, considerándola estacionaria una vez que se conozcan el espectro de densidad de potencia de la señal de interferencia (señal de micrófono retardada) y la señal útil con interferencia (señal de conferencia de suma). La aplicación de un filtro de Wiener es a este respecto en general muy similar a una formación de la diferencia espectral. Sin embargo la aplicación de un filtro de Wiener requiere dividir la señal de audio en intervalos cortos en los que ésta es fundamentalmente estacionaria. Para un segmento tal se calcula la función de transmisión del filtro de Wiener y a continuación se aplica el filtro de Wiener a la señal.

Además es posible desplazar los dispositivos para codificar y descodificar las señales de audio en la cadena de procesamiento de señales. En especial no es necesario codificar primero la señal de micrófono y a continuación volver a descodificarla en el dispositivo para suprimir el eco. Más bien al dispositivo para suprimir el eco puede proporcionarse directamente la señal de micrófono no codificada.

Además el dispositivo de conexión puede estar configurado de tal modo que obtenga un flujo de bits y represente bits de este flujo de bits mediante una función de mapeo sobre un soporte. La función de mapeo describe a este respecto un procedimiento de modulación digital conocido a partir de las telecomunicaciones. Por ejemplo puede utilizarse una modulación de amplitud en cuadratura (QAM) o una modulación QPSK. Sin embargo también puede utilizarse cualquier otro procedimiento de modulación digital.

Además puede mejorarse el dispositivo para suprimir el eco introduciendo amplificaciones adaptables en el supresor de ruidos. Una medida de este tipo permite suprimir una señal de eco independientemente de su nivel. En especial ha de esperarse que una señal de otro participante de conferencia llegue al micrófono del terminal de conferencia con otro nivel que con el que está contenida en la señal de suma de conferencia. Por tanto para suprimir la señal de eco en la señal de suma de conferencia es necesario un ajuste a escala de la señal de micrófono retardada que ha de eliminarse de la misma. El ajuste a escala puede producirse o bien utilizando un factor de ajuste a escala predeterminado de manera fija o bien de una manera adaptativa, adaptada a las señales. La última forma de proceder conlleva la ventaja de que también pueden suprimirse de manera eficaz ecos débiles. Una forma de proceder tal es especialmente importante cuando se recibe una señal extraña tanto directamente como por radioenlace con aproximadamente la misma intensidad.

Además es posible introducir en el dispositivo para suprimir el eco valores umbral adaptables que determinen a partir de qué nivel de la señal de micrófono tiene lugar una supresión del eco. No es deseable, en caso de existir una señal de micrófono muy débil, eliminar la parte de señal correspondiente de la señal de suma de conferencia. Más bien se parte de que debe recibirse una señal de voz lejana, directamente audible con sólo un nivel reducido en el lugar del terminal de conferencia de otro participante de conferencia a través del sistema de conferencia. En este caso precisamente no se desea una supresión del eco.

El sistema de conferencia de voz puede adaptarse por tanto introduciendo valores umbral adaptables y amplificaciones en el supresor de ruidos a los límites, en los que se recibe una señal extraña tanto directamente como por el radioenlace con aproximadamente la misma intensidad.

Además es posible transmitir otras señales de control a través de la interfaz inalámbrica desde un terminal de conferencia a la unidad central de conferencia, que indican una información acerca de la posición y configuración del terminal de conferencia. De este modo también es posible influir desde la unidad central en la configuración del terminal de conferencia. Esto puede ser útil dado el caso para facilitar una adaptación de los parámetros correspondientes de un terminal de conferencia.

La presente invención permite por tanto realizar sistemas de conferencia de voz inalámbricos digitales que garantizan una elevada calidad de voz y seguridad frente a interferencias con un despliegue de cableado mínimo.

Claims

1. Terminal (50) de conferencia para un sistema de conferencia de voz digital con las características siguientes:

un primer dispositivo (56) transductor acústico que está configurado para generar una señal (54) de micrófono a partir de una señal acústica;

un segundo dispositivo (60) transductor acústico que está configurado para generar una señal acústica a partir de una señal (58) de altavoz;

un dispositivo (64) de conexión que está configurado para posibilitar una conexión entre el terminal (50) de conferencia y una unidad central de conferencia, para recibir una señal (62) de conferencia de suma desde la unidad central de conferencia; y

un dispositivo (52) para suprimir el eco que está configurado para en un servicio de escucha del terminal de conferencia combinar la señal (54) de micrófono o una señal derivada de la misma con la señal (62) de conferencia de suma de tal modo que se produzca una señal (58) de altavoz en la que está reducida la señal acústica en la que se basa la señal (54) de micrófono, o para en un servicio de habla en el que la señal (54) de micrófono se transmite a la unidad central de conferencia combinar la señal (54) de micrófono o una señal derivada de la misma con la señal de conferencia de suma de tal modo que se produzca una señal (58) de altavoz en la que está reducida la señal acústica en la que se basa la señal (54) de micrófono; y

un dispositivo de valor umbral que está configurado para desactivar el dispositivo (52) para suprimir el eco cuando la señal de micrófono es menor que un valor umbral predeterminado.

2. Terminal (50) de conferencia según la reivindicación 1, en el que el dispositivo (64) de conexión está configurado de tal modo que posibilita una conexión inalámbrica entre el terminal (50) de conferencia y la unidad central de conferencia.

3. Terminal (50) de conferencia según la reivindicación 1 ó 2, en el que el dispositivo (64) de conexión está configurado de tal modo que obtiene un flujo de bits y reproduce bits de este flujo de bits mediante una función de mapeo sobre un soporte.

4. Terminal (50) de conferencia según una de las reivindicaciones 1 a 3, que comprende además un dispositivo (244) de codificación que está configurado para codificar la señal de micrófono convirtiéndola a partir de una secuencia de valores de muestreo temporales en una secuencia de bits.

5. Terminal (50) de conferencia según la reivindicación 3 ó 4, que comprende además un dispositivo (252) de descodificación que está configurado para descodificar o generar una señal (250) de suma de conferencia digital transmitida de forma inalámbrica.

6. Terminal (50) de conferencia según una de las reivindicaciones 1 a 5, en el que el dispositivo (52) para suprimir el eco comprende un dispositivo (262) de retardo que está configurado para retardar la señal de micrófono o una señal derivada de la misma por un tiempo de retardo.

7. Terminal (50) de conferencia según la reivindicación 6, en el que el dispositivo (262) de retardo está configurado de tal modo que puede ajustarse el tiempo de retardo.

8. Terminal (50) de conferencia según la reivindicación 7, en el que el dispositivo (52) para suprimir el eco comprende un dispositivo (268) para ajustar el tiempo de retardo en función de la señal de micrófono y la señal (254) de suma de conferencia.

9. Terminal (50) de conferencia según la reivindicación 8, en el que el dispositivo (268) para ajustar el tiempo de retardo comprende un dispositivo de correlación que está configurado para formar una función de correlación cruzada entre la señal de micrófono y la señal (254) de suma de conferencia.

10. Terminal (50) de conferencia según la reivindicación 7, en el que el dispositivo (52) para suprimir el eco comprende un dispositivo para ajustar manualmente el tiempo de retardo.

11. Terminal (50) de conferencia según una de las reivindicaciones 6 a 10, en el que el dispositivo de retardo está configurado de tal modo que el tiempo de retardo en un servicio de habla está ajustado a un valor fijo y en un servicio de escucha se ajusta de manera adaptativa en función de un desplazamiento en el tiempo entre la señal de micrófono y una parte contenida en la señal de suma de conferencia, que fundamentalmente es igual a la señal de micrófono.

12. Terminal (50) de conferencia según una de las reivindicaciones 6 a 11, en el que el dispositivo (52) para suprimir el eco comprende un dispositivo (260) para suprimir el ruido que está configurado para reducir una parte de señal, que fundamentalmente es igual a la señal de micrófono retardada, en la señal de conferencia de suma.

13. Terminal (50) de conferencia según la reivindicación 12, en el que el dispositivo (260) para suprimir el ruido comprende un dispositivo para formar la diferencia entre la señal de micrófono o una señal, que se ha derivado de la señal de micrófono, y la señal (254) de suma de conferencia en el dominio de tiempo.

14. Terminal (50) de conferencia según la reivindicación 12 ó 13, en el que el dispositivo (260) para suprimir el ruido comprende un dispositivo para formar la diferencia entre la señal de micrófono o una señal, que se ha derivado de la señal de micrófono, y la señal (254) de suma de conferencia en el dominio espectral.

15. Terminal (50) de conferencia según una de las reivindicaciones 12 a 14, en el que el dispositivo (260) para suprimir el ruido comprende un filtro de Wiener.

16. Terminal (50) de conferencia según una de las reivindicaciones 1 a 15, en el que el dispositivo (52) para suprimir el eco comprende un dispositivo para el ajuste a escala que está configurado para ajustar a escala la señal de micrófono, una señal que se ha derivado de la señal de micrófono, la señal (254) de suma de conferencia o la señal (242) de altavoz.

17. Terminal (50) de conferencia según una de las reivindicaciones 1 a 16, que comprende además un dispositivo (246) de conmutación que está configurado para en función de una señal de control de escucha/habla posibilitar una conmutación entre el servicio de escucha y el servicio de habla.

18. Terminal de conferencia según la reivindicación 6 y 17, en el que el dispositivo para suprimir el eco está configurado para, controlado por la señal de control de escucha/habla en el servicio de escucha, ajustar un retardo en el tiempo adaptativo en función de un desplazamiento en el tiempo entre la señal de micrófono y una parte contenida en la señal de suma de conferencia, que fundamentalmente es igual que la señal de micrófono, y en un servicio de habla ajustar un tiempo de retardo fijo.