PT2154885E

PT2154885E - Um método de apresentação da legenda e um aparelho e sistema de comunicação de vídeo

Info

Publication number: PT2154885E
Application number: PT08706572T
Authority: PT
Inventors: Zhihui Liu; Zhonghui Yue
Original assignee: Huawei Tech Co Ltd
Priority date: 2007-05-17
Filing date: 2008-01-28
Publication date: 2012-01-19
Also published as: EP2154885A1; EP2154885A4; CN101309390B; WO2008141539A1; CN101309390A; ES2375537T3; US20100039498A1; EP2154885B1; ATE536031T1

Description

1

DESCRIÇÃO "ΌΜ MÉTODO DE APRESENTAÇÃO DA LEGENDA E UM APARELHO E SISTEMA DE COMUNICAÇÃO DE VÍDEO" ANTECEDENTES DA INVENÇÃO Campo da Tecnologia A presente invenção refere-se a um campo da comunicação e, mais particularmente, a um método de apresentação da legenda e um dispositivo e sistema de comunicação de video.

Antecedentes da Invenção

Com o desenvolvimento das tecnologias, tais como VoIP (Voice over IP (Internet Protocol) - Voz sobre IP (Protocolo de Internet)), Processamento Digital de Sinais (PDS) e largura de banda da rede, as pessoas podem agora efetuar comodamente chamadas de longa distância através de um sistema de videoconferência, e ver as expressões e ações do outro interveniente através de imagens. Um sistema de videoconferência convencional inclui normalmente terminais de video, uma rede de transmissão e uma unidade de controlo multiponto (MCU). 0 terminal de video é adaptado para incluir uma entrada de video e áudio local, codificar uma sequência de códigos de video e áudio, e enviar a sequência de códigos de video e áudio codificada para uma extremidade remota através da rede de transmissão. 0 terminal de video é igualmente adaptado para receber e descodificar a sequência de códigos de video e áudio da extremidade remota, e recuperar o som e as imagens da extremidade remota através de ecrãs e altifalantes locais. A MCU é adaptada essencialmente para efetuar um controlo da conferência e uma troca de suportes de dados, por exemplo, podem ser mantidas uma ou mais conferências multiponto 2 através da MCU. A MCU recebe ainda as sequências de códigos de vídeo e áudio dos terminais, efetua uma mistura de áudio, combina vários fotogramas, e envia as sequências de códigos de vídeo e áudio processadas para os terminais correspondentes. Contudo, na sua maior parte, o sistema de comunicação de vídeo convencional não suporta uma função de apresentação da legenda em tempo real. Se a legenda for apresentada em tempo real durante a conferência, o som de um orador é convertido em carateres, e os carateres são apresentados de forma síncrona num ecrã, a experiência visual dos utilizadores é melhorada, e as pessoas com uma dificuldade auditiva ou barreira de língua podem efetuar a comunicação utilizando o sistema de vídeo, de modo a superar a dificuldade de comunicação.

Numa solução existente da videoconferência com a apresentação da legenda, durante uma conferência, a legenda que necessita de ser enviada é introduzida pelo terminal através de uma interface, o texto de entrada é sobreposto na imagem, e a imagem é codificada e é enviada para uma extremidade de receção. Depois de receber a imagem, a extremidade de receção descodifica e apresenta a imagem. Contudo, o defeito do estado da técnica é o facto de ser necessária demasiada introdução manual, pelo que o conteúdo da legenda a apresentar tem de ser editado antecipadamente, e o conteúdo da legenda não pode ser transmitido em tempo real, pelo que o método de apresentação da legenda é normalmente apenas aplicável à notificação de informações da conferência. A Patente US 5,774,857 divulga um dispositivo de comunicação com apresentação da legenda. Um telefone e algumas interfaces de utilizador como, por exemplo, um 3 teclado são ligados de forma externa a uma extremidade de receção, e está incluído um módulo de reconhecimento de voz. Quando um utilizador efetua uma chamada através do telefone, o dispositivo recebe sinais de voz de uma extremidade remota e, em seguida, um módulo de reconhecimento de voz converte os sinais de voz recebidos em sinais de texto, um modulador de radiofrequência (RF) modula os sinais de texto em sinais de banda de base de vídeo, e envia os sinais para um televisor para apresentação. 0 pedido de patente US 7,039,675 BI refere-se a reconhecimento de voz simples numa videoconferência. Divulga um método e um aparelho para um terminal universal que liga a um sistema de videoconferência multiponto através da Internet para participar na videoconferência. Concentra-se no reconhecimento e na conversão dos sinais de áudio misturado em sinais de texto e no envio dos sinais de texto para o terminal universal. 0 pedido de patente US 2004/119814 AI divulga um terminal de videoconferência remoto para participar numa conferência através de ligações de comunicação sem fios. Além disso, divulga que o dispositivo cliente pode receber texto que acompanha o vídeo e comunica em multiplex o texto com vídeo para fornecer um sinal de vídeo com legenda oculta. O pedido de patente CN 1 283 931 A divulga um método de sobreposição da legenda.

Willebeek-Lemair Μ H et al: "On multipoint Control Units for videoconferencing" (Acerca das Unidades de Controlo multiponto para videoconferência) , o Processamento da 4

Conferência em Redes de Computadores Locais, 2 de outubro de 1994, páginas 356 a 364, divulga uma infraestrutura de unidade de controlo multiponto para videoconferência.

Clark W J: "Multipoint Multimedia Conferencing" (Conferência de Multimédia Multiponto) , Publicação de Comunicações IEEE, Centro de Serviços IEEE, Piscataway, US, vol. 30, n.° 5, 1 de maio de 1992, páginas 44 a 50, divulga um método para conferência de multimédia multiponto, e a função de mistura de áudio pode ser implementada na MCU.

Contudo, durante a implementação da presente invenção, os inventores encontraram, pelo menos, os problemas técnicos apresentados em seguida.

No dispositivo existente, o modulador RF modula os sinais de texto em sinais RF, e modula os sinais RF nos sinais de banda de base de vídeo para apresentação, pelo que a complexidade técnica da apresentação da legenda aumenta grandemente, e um desempenho em tempo real é desfavorável. Em seguida, o módulo de reconhecimento de voz do dispositivo é colocado na extremidade de receção, o que é desvantajoso para a formação em reconhecimento de voz dos utilizadores. Além disso, na conferência multiponto, se os sinais de voz recebidos pelo dispositivo existente forem sinais de vozes sintetizadas de diversas pessoas, o módulo de reconhecimento de uma única voz não consegue reconhecer os sinais de vozes diferentes ao mesmo tempo e, como tal, os sinais de reconhecimento são desordenados e não é possível apresentar a legenda corretamente.

RESUMO DA INVENÇÃO 5

Para resolver os problemas de um sistema de comunicação de vídeo existente em que uma tecnologia de apresentação da legenda é complicada e um desempenho em tempo real é desfavorável, a presente invenção fornece um método de apresentação da legenda, e um dispositivo de controlo de comunicação de vídeo de acordo com as reivindicações independentes 1 e 2, respetivamente. 0 método de apresentação da legenda é simples e o desempenho em tempo real é elevado.

Em comparação com o estado da técnica, as soluções técnicas nas formas de realização da presente invenção têm, pelo menos, as seguintes vantagens. Nas formas de realização da presente invenção, os sinais de voz são reconhecidos como sinais de texto, e os sinais de texto são sobrepostos diretamente nos sinais de vídeo para serem codificados e transmitidos, de modo a que os utilizadores possam descodificar diretamente e apresentar imagens e informações de carateres correspondentes a uma voz, e o método é simples e o desempenho em tempo real é elevado.

DESCRIÇÃO BREVE DAS FIGURAS

Para ilustrar as soluções técnicas de acordo com as formas de realização da presente invenção ou no estado da técnica de forma mais clara, as figuras em anexo para descrever as formas de realização ou o estado da técnica são apresentadas resumidamente em seguida. A FIG. 1 é uma vista esquemática simples dos princípios de uma comunicação ponto a ponto de um dispositivo e sistema de comunicação de vídeo de acordo com uma primeira forma de realização da presente invenção; 6 A FIG. 2 é uma vista esquemática simples dos princípios de uma comunicação ponto a ponto de um dispositivo e sistema de comunicação de video de acordo com uma segunda forma de realização da presente invenção; A FIG. 3 é uma vista esquemática simples dos princípios de uma comunicação multiponto de um dispositivo e sistema de comunicação de vídeo de acordo com uma forma de realização da presente invenção; e A FIG. 4 é um fluxograma esquemático simples de um método de apresentação da legenda numa comunicação de vídeo de acordo com uma forma de realização da presente invenção.

DESCRIÇÃO DETALHADA DAS FORMAS DE REALIZAÇÃO

As soluções técnicas de acordo com as formas de realização da presente invenção são descritas de forma clara e completa relativamente às figuras em anexo das formas de realização. Aparentemente, as formas de realização aqui apresentadas são apenas uma parte e não todas as formas de realização da presente invenção.

Na presente invenção, um sistema de comunicação de vídeo inclui terminais de vídeo, módulos de reconhecimento de voz, módulos de codificação de vídeo, uma MCU, e uma rede de transmissão, na qual os utilizadores introduzem sinais de voz e sinais de vídeo através dos terminais de vídeo, os módulos de reconhecimento de voz convertem os sinais de voz introduzidos em sinais de texto, os módulos de codificação de vídeo efetuam uma sobreposição da legenda nos sinais de texto e nos sinais de vídeo e codificam os sinais de texto e os sinais de video, e enviam os sinais de texto e os 7 sinais de video para uma extremidade remota através da rede de transmissão.

Relativamente à FIG. 1, um módulo de reconhecimento de voz 10 e um módulo de codificação de video 20, de acordo com uma primeira forma de realização da presente invenção, estão incluídos num terminal de video. O módulo de reconhecimento de voz 10 é ligado a um módulo de captura de voz (microfone), e é adaptado para reconhecer sinais de voz reunidos pelo microfone como sinais de texto, e transmitir os sinais de texto ao módulo de codificação de vídeo 20. O módulo de codificação de vídeo 20 é ligado a uma câmara de vídeo, e é adaptado para sobrepor os sinais de texto nos sinais de video de imagem reunidos por um módulo de captura de imagem (câmara de vídeo), codificar os sinais de texto e os sinais de vídeo de imagem, e enviar os sinais de texto e os sinais de vídeo de imagem para uma extremidade remota, de modo a que os utilizadores remotos possam ver as informações de legendas reconhecidas apresentadas de forma síncrona com os sinais de voz em tempo real, para que a experiência de sessão dos utilizadores seja melhorada e, em particular, algumas pessoas com dificuldade auditiva possam comunicar normalmente.

Convém referir que o módulo de reconhecimento de voz 10 desta forma de realização está integrado no terminal de vídeo, de modo a ser cómodo para o utilizador realizar uma formação de reconhecimento de voz para melhorar uma taxa de reconhecimento. Em seguida, o módulo de reconhecimento de voz 10 pode ser definido para ser ativado de acordo com as exigências do utilizador. Quando várias pessoas participam numa conferência multiponto, é suportada uma função de distribuição multiponto. Além disso, um módulo de vozes sintetizadas pode ainda ser incluído no terminal de vídeo desta forma de realização. Depois de o utilizador introduzir as informações de carateres através de um módulo de introdução de carateres (um teclado ou outras formas), o módulo de vozes sintetizadas converte as informações de carateres em sinais de voz, e envia as informações de carateres para o módulo de codificação de video 20. O módulo de codificação de vídeo 20 sobrepõe as informações introduzidas pelo utilizador nos sinais de vídeo de imagem, codifica as informações e os sinais de vídeo de imagem, e envia as informações e os sinais de vídeo de imagem para a extremidade remota. Ao mesmo tempo, os sinais de voz convertida são enviados para um módulo de codificação de voz para serem codificados, e são enviados para a extremidade remota. Desta forma, uma pessoa muda ou uma pessoa com uma barreira de língua pode comunicar com outro interveniente através do dispositivo de comunicação de vídeo da presente invenção.

Relativamente à FIG. 2, os módulos de reconhecimento de voz e os módulos de codificação de vídeo de uma segunda forma de realização da presente invenção estão incluídos numa MCU. Diversos módulos de reconhecimento de voz e módulos de codificação de vídeo estão integrados na MCU. Aqui, os terminais de comunicação implementam o controlo da conferência e a troca de suportes de dados através da MCU. A MCU inicia e configura de forma correspondente os diversos módulos de reconhecimento de voz e os módulos de codificação de vídeo de acordo com o número de utilizadores que participam na comunicação de vídeo. Por exemplo, numa conferência ponto a ponto, ao receber vozes de um terminal 1 e de um terminal 2, a MCU efetua um processo de descodificação e, em seguida, envia um sinal de voz 9 descodificada do terminal 1 para um primeiro módulo de reconhecimento de voz 11. 0 primeiro módulo de reconhecimento de voz 11 reconhece e converte um som do terminal 1 num sinal de texto e transmite o sinal de texto a um primeiro módulo de codificação de video 21 correspondente ao terminal 2. 0 primeiro módulo de codificação de video 21 sobrepõe o sinal de texto do terminal 1 numa imagem de video, codifica o sinal de texto e a imagem de video, e envia o sinal de texto e a imagem de video para o terminal 2. Um sinal de voz descodificada do terminal 2 é enviado para um segundo módulo de reconhecimento de voz 12. 0 segundo módulo de reconhecimento de voz 12 reconhece e converte um som do terminal 2 num sinal texto, e transmite o sinal de texto a um segundo módulo de codificação de video 22 correspondente ao terminal 1. 0 segundo módulo de codificação de video 22 sobrepõe o sinal de texto do terminal 2 numa imagem de video, codifica o sinal de texto e a imagem de vídeo, e envia o sinal de texto e a imagem de vídeo para o terminal 1. Desta forma, depois de descodificar respetivamente as sequências de códigos de video recebidas, o terminal 1 e o terminal 2 podem ver a legenda correspondente.

Relativamente à FIG. 3, quando uma conferência multiponto é mantida através da segunda forma de realização da presente invenção, a MCU inicia e configura de forma correspondente os diversos módulos de reconhecimento de voz e os módulos de codificação de vídeo de acordo com o número dos utilizadores que participam na comunicação de vídeo, ou o número dos módulos de reconhecimento de voz a serem iniciados é definido no sistema. Por exemplo, são iniciados três módulos de reconhecimento de voz. Em primeiro lugar, a MCU recebe os dados de vídeo e áudio de cada terminal e 10 descodifica os dados de áudio. Em seguida, um módulo de mistura de áudio efetua a mistura de áudio e, durante o processo de mistura de áudio, são obtidos três locais com o volume máximo, por exemplo, os locais 1, 2 e 3. Os dados de voz dos três locais com o volume máximo são enviados respetivamente para três módulos de reconhecimento de voz. Os módulos de reconhecimento de voz reconhecem as vozes dos três locais com o volume máximo, de modo a obter sinais de texto ΤΙ, T2 e T3 correspondentes às vozes e, em seguida, enviam os sinais de texto para os módulos de codificação de video correspondentes aos locais. Os módulos de codificação de video sobrepõem os sinais de texto e os sinais de video e, em seguida, enviam os sinais de texto e os sinais de video para os terminais. Por exemplo, a legenda enviada para o local 1 corresponde aos sinais de texto/voz depois de as vozes do local 2 e do local 3 serem reconhecidas, a legenda enviada para o local 2 corresponde aos sinais de texto depois de as vozes do local 1 e do local 3 serem reconhecidas, e a legenda enviada para o local 3 corresponde aos sinais de texto depois de as vozes do local 1 e do local 2 serem reconhecidas. As legendas enviadas para outros locais correspondem aos sinais de texto depois de as vozes do local 1, do local 2 e do local 3 serem reconhecidas.

Convém perceber que, durante o processo de mistura de áudio, a MCU obtém primeiro os três locais 1, 2 e 3 com o som máximo e, em seguida, sobrepõe e codifica os sons do local 2 e do local 3, e envia os sons para o local 1. Assim, as pessoas no local 1 ouvem os sons do local 2 e do local 3. Os sons do local 1 e do local 3 são sobrepostos e codificados, e são enviados para o local 2. Por conseguinte, as pessoas no local 2 ouvem os sons do local 1 11 e do local 3. Consequentemente, as pessoas no local 3 ouvem os sons do local 1 e do local 2. Como tal, a legenda apresentada em cada local é correspondente ao som ouvido pelas pessoas no local. Depois de receber as sequências de códigos de video e áudio, os terminais de cada local descodificam as sequências de códigos de video e áudio, o som pode ser recuperado e a legenda correspondente ao som pode ser vista através de altifalantes e ecrãs. Além disso, a apresentação da legenda da mistura de áudio de três intervenientes é efetuada, por exemplo, na descrição acima; contudo, o dispositivo de comunicação de video da presente invenção pode ser configurado para apresentar apenas a legenda de um interveniente com o volume máximo ou as legendas de dois intervenientes com o volume máximo, ou pode ser configurado para efetuar a apresentação da legenda noutros modos de mistura de áudio de vários intervenientes de acordo com as exigências dos utilizadores.

Relativamente à FIG. 4, conforme descrito acima, um método de apresentação da legenda numa comunicação de video de acordo com a presente invenção inclui os passos apresentados em seguida.

No Passo 1, é estabelecida uma comunicação de video.

No Passo 2, é determinada e definida uma quantidade de sinais de voz reconhecida.

No Passo 3, é determinado um volume de cada local, e são selecionados os sinais de voz dos oradores com o volume máximo de um número correspondente à quantidade. 12

No Passo 4, os sinais de voz do orador são reconhecidos e convertidos em sinais de texto.

No Passo 5, os sinais de texto e os sinais de video de imagem que necessitam de ser recebidos por, e apresentados a, outros participantes na conferência (sinais de video de imagem de locais dos oradores correspondentes aos sinais de voz nesta forma de realização) são sobrepostos e codificados em tempo real, e são enviados respetivamente para outros participantes na conferência.

No Passo 6, outros participantes na conferência recebem e descodificam os sinais de video com os sinais de texto sobrepostos, e veem imagens e legendas.

Convém perceber que, no método, a quantidade de sinais de voz reconhecida pode ser determinada e selecionada de acordo com um valor definido pelo sistema ou manualmente, ou a quantidade dos sinais de voz reconhecida pode não ser definida e a voz do local de cada participante é reconhecida. Em seguida, outros participantes na conferência podem controlar e selecionar respetivamente as imagens do local necessárias para serem recebidas e apresentadas, os participantes podem optar por apresentar a imagem do local do orador, ou as imagens do local de outros não oradores. Independentemente do local selecionado, apenas é necessário sobrepor e codificar o sinal de texto do orador e o sinal de video de imagem do local a ser apresentado selecionado por cada participante na conferência.

Convém perceber que os módulos de reconhecimento de voz e os módulos de codificação de video do sistema de 13 comunicação de vídeo da presente invenção podem ser igualmente colocados noutros dispositivos ou dispositivos dedicados no sistema e na rede de transmissão, ou podem ser colocados em separado em dispositivos diferentes no sistema e na rede de transmissão. Os módulos de reconhecimento de voz e os módulos de codificação de vídeo cooperam para reconhecer os sinais de voz como sinais de texto, e sobrepõem diretamente os sinais de texto nos sinais de vídeo para serem codificados e transmitidos . 0 utilizador pode descodificar diretamente as imagens de apresentação e as informações de carateres correspondentes à voz. Por conseguinte, o método é simples e o desempenho em tempo real é elevado.

Lisboa, 11 de Janeiro de 2012

Claims

1 REIVINDICAÇÕES 1. Um método de apresentação da legenda processado por uma Unidade de Controlo Multiponto (MCU) , numa conferência multiponto, a MCU compreende diversos módulos de reconhecimento de voz e diversos módulos de codificação de vídeo, a MCU configura e inicia os diversos módulos de reconhecimento de voz e módulos de codificação de vídeo, em que o número de módulos de reconhecimento de voz a serem iniciados é definido no sistema, e o método é caracterizado por compreender: o estabelecimento de uma comunicação de vídeo entre locais; a receção, por intermédio da MCU, de sinais de voz e sinais de vídeo de cada local, e a descodificação de sinais de voz ; a realização, por intermédio da MCU, da mistura de áudio, e a obtenção de um número dos locais com o volume máximo durante o processo de mistura de áudio; em que o número dos locais com o volume máximo corresponde ao número dos módulos de reconhecimento de voz iniciados pela MCU; o reconhecimento e a conversão, respetivamente, através do número de módulos de reconhecimento de voz, dos sinais de voz dos locais com o volume máximo em sinais de texto correspondentes; e o envio dos sinais de texto para os módulos de codificação de vídeo correspondentes aos locais; a sobreposição e codificação, por intermédio dos módulos de codificação de vídeo, dos sinais de texto e sinais de vídeo correspondentes que necessitam de ser recebidos por, e 2 apresentados a, outros locais de conferência, e o envio dos sinais de vídeo e sinais de texto codificados e sobrepostos para os locais através da comunicação de vídeo.

2. Um dispositivo de controlo de comunicação de vídeo compreendendo uma unidade de controlo multiponto (MCU), e diversos dispositivos de terminal de vídeo, os diversos dispositivos de terminal de vídeo ligam à MCU, cada um dos dispositivos de terminal de vídeo compreende um módulo de captura de voz e um módulo de captura de imagem, a MCU inclui diversos módulos de reconhecimento de voz e diversos módulos de codificação de vídeo, caracterizado por: a MCU ser adaptada para efetuar o método de apresentação da legenda de acordo com a reivindicação 1. Lisboa, 11 de Janeiro de 2012