PT2154885E - Um método de apresentação da legenda e um aparelho e sistema de comunicação de vídeo - Google Patents

Um método de apresentação da legenda e um aparelho e sistema de comunicação de vídeo Download PDF

Info

Publication number
PT2154885E
PT2154885E PT08706572T PT08706572T PT2154885E PT 2154885 E PT2154885 E PT 2154885E PT 08706572 T PT08706572 T PT 08706572T PT 08706572 T PT08706572 T PT 08706572T PT 2154885 E PT2154885 E PT 2154885E
Authority
PT
Portugal
Prior art keywords
video
signals
mcu
modules
text
Prior art date
Application number
PT08706572T
Other languages
English (en)
Inventor
Zhihui Liu
Zhonghui Yue
Original Assignee
Huawei Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Tech Co Ltd filed Critical Huawei Tech Co Ltd
Publication of PT2154885E publication Critical patent/PT2154885E/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42391Systems providing special services or facilities to subscribers where the subscribers are hearing-impaired persons, e.g. telephone devices for the deaf
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Television Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

1
DESCRIÇÃO "ΌΜ MÉTODO DE APRESENTAÇÃO DA LEGENDA E UM APARELHO E SISTEMA DE COMUNICAÇÃO DE VÍDEO" ANTECEDENTES DA INVENÇÃO Campo da Tecnologia A presente invenção refere-se a um campo da comunicação e, mais particularmente, a um método de apresentação da legenda e um dispositivo e sistema de comunicação de video.
Antecedentes da Invenção
Com o desenvolvimento das tecnologias, tais como VoIP (Voice over IP (Internet Protocol) - Voz sobre IP (Protocolo de Internet)), Processamento Digital de Sinais (PDS) e largura de banda da rede, as pessoas podem agora efetuar comodamente chamadas de longa distância através de um sistema de videoconferência, e ver as expressões e ações do outro interveniente através de imagens. Um sistema de videoconferência convencional inclui normalmente terminais de video, uma rede de transmissão e uma unidade de controlo multiponto (MCU). 0 terminal de video é adaptado para incluir uma entrada de video e áudio local, codificar uma sequência de códigos de video e áudio, e enviar a sequência de códigos de video e áudio codificada para uma extremidade remota através da rede de transmissão. 0 terminal de video é igualmente adaptado para receber e descodificar a sequência de códigos de video e áudio da extremidade remota, e recuperar o som e as imagens da extremidade remota através de ecrãs e altifalantes locais. A MCU é adaptada essencialmente para efetuar um controlo da conferência e uma troca de suportes de dados, por exemplo, podem ser mantidas uma ou mais conferências multiponto 2 através da MCU. A MCU recebe ainda as sequências de códigos de vídeo e áudio dos terminais, efetua uma mistura de áudio, combina vários fotogramas, e envia as sequências de códigos de vídeo e áudio processadas para os terminais correspondentes. Contudo, na sua maior parte, o sistema de comunicação de vídeo convencional não suporta uma função de apresentação da legenda em tempo real. Se a legenda for apresentada em tempo real durante a conferência, o som de um orador é convertido em carateres, e os carateres são apresentados de forma síncrona num ecrã, a experiência visual dos utilizadores é melhorada, e as pessoas com uma dificuldade auditiva ou barreira de língua podem efetuar a comunicação utilizando o sistema de vídeo, de modo a superar a dificuldade de comunicação.
Numa solução existente da videoconferência com a apresentação da legenda, durante uma conferência, a legenda que necessita de ser enviada é introduzida pelo terminal através de uma interface, o texto de entrada é sobreposto na imagem, e a imagem é codificada e é enviada para uma extremidade de receção. Depois de receber a imagem, a extremidade de receção descodifica e apresenta a imagem. Contudo, o defeito do estado da técnica é o facto de ser necessária demasiada introdução manual, pelo que o conteúdo da legenda a apresentar tem de ser editado antecipadamente, e o conteúdo da legenda não pode ser transmitido em tempo real, pelo que o método de apresentação da legenda é normalmente apenas aplicável à notificação de informações da conferência. A Patente US 5,774,857 divulga um dispositivo de comunicação com apresentação da legenda. Um telefone e algumas interfaces de utilizador como, por exemplo, um 3 teclado são ligados de forma externa a uma extremidade de receção, e está incluído um módulo de reconhecimento de voz. Quando um utilizador efetua uma chamada através do telefone, o dispositivo recebe sinais de voz de uma extremidade remota e, em seguida, um módulo de reconhecimento de voz converte os sinais de voz recebidos em sinais de texto, um modulador de radiofrequência (RF) modula os sinais de texto em sinais de banda de base de vídeo, e envia os sinais para um televisor para apresentação. 0 pedido de patente US 7,039,675 BI refere-se a reconhecimento de voz simples numa videoconferência. Divulga um método e um aparelho para um terminal universal que liga a um sistema de videoconferência multiponto através da Internet para participar na videoconferência. Concentra-se no reconhecimento e na conversão dos sinais de áudio misturado em sinais de texto e no envio dos sinais de texto para o terminal universal. 0 pedido de patente US 2004/119814 AI divulga um terminal de videoconferência remoto para participar numa conferência através de ligações de comunicação sem fios. Além disso, divulga que o dispositivo cliente pode receber texto que acompanha o vídeo e comunica em multiplex o texto com vídeo para fornecer um sinal de vídeo com legenda oculta. O pedido de patente CN 1 283 931 A divulga um método de sobreposição da legenda.
Willebeek-Lemair Μ H et al: "On multipoint Control Units for videoconferencing" (Acerca das Unidades de Controlo multiponto para videoconferência) , o Processamento da 4
Conferência em Redes de Computadores Locais, 2 de outubro de 1994, páginas 356 a 364, divulga uma infraestrutura de unidade de controlo multiponto para videoconferência.
Clark W J: "Multipoint Multimedia Conferencing" (Conferência de Multimédia Multiponto) , Publicação de Comunicações IEEE, Centro de Serviços IEEE, Piscataway, US, vol. 30, n.° 5, 1 de maio de 1992, páginas 44 a 50, divulga um método para conferência de multimédia multiponto, e a função de mistura de áudio pode ser implementada na MCU.
Contudo, durante a implementação da presente invenção, os inventores encontraram, pelo menos, os problemas técnicos apresentados em seguida.
No dispositivo existente, o modulador RF modula os sinais de texto em sinais RF, e modula os sinais RF nos sinais de banda de base de vídeo para apresentação, pelo que a complexidade técnica da apresentação da legenda aumenta grandemente, e um desempenho em tempo real é desfavorável. Em seguida, o módulo de reconhecimento de voz do dispositivo é colocado na extremidade de receção, o que é desvantajoso para a formação em reconhecimento de voz dos utilizadores. Além disso, na conferência multiponto, se os sinais de voz recebidos pelo dispositivo existente forem sinais de vozes sintetizadas de diversas pessoas, o módulo de reconhecimento de uma única voz não consegue reconhecer os sinais de vozes diferentes ao mesmo tempo e, como tal, os sinais de reconhecimento são desordenados e não é possível apresentar a legenda corretamente.
RESUMO DA INVENÇÃO 5
Para resolver os problemas de um sistema de comunicação de vídeo existente em que uma tecnologia de apresentação da legenda é complicada e um desempenho em tempo real é desfavorável, a presente invenção fornece um método de apresentação da legenda, e um dispositivo de controlo de comunicação de vídeo de acordo com as reivindicações independentes 1 e 2, respetivamente. 0 método de apresentação da legenda é simples e o desempenho em tempo real é elevado.
Em comparação com o estado da técnica, as soluções técnicas nas formas de realização da presente invenção têm, pelo menos, as seguintes vantagens. Nas formas de realização da presente invenção, os sinais de voz são reconhecidos como sinais de texto, e os sinais de texto são sobrepostos diretamente nos sinais de vídeo para serem codificados e transmitidos, de modo a que os utilizadores possam descodificar diretamente e apresentar imagens e informações de carateres correspondentes a uma voz, e o método é simples e o desempenho em tempo real é elevado.
DESCRIÇÃO BREVE DAS FIGURAS
Para ilustrar as soluções técnicas de acordo com as formas de realização da presente invenção ou no estado da técnica de forma mais clara, as figuras em anexo para descrever as formas de realização ou o estado da técnica são apresentadas resumidamente em seguida. A FIG. 1 é uma vista esquemática simples dos princípios de uma comunicação ponto a ponto de um dispositivo e sistema de comunicação de vídeo de acordo com uma primeira forma de realização da presente invenção; 6 A FIG. 2 é uma vista esquemática simples dos princípios de uma comunicação ponto a ponto de um dispositivo e sistema de comunicação de video de acordo com uma segunda forma de realização da presente invenção; A FIG. 3 é uma vista esquemática simples dos princípios de uma comunicação multiponto de um dispositivo e sistema de comunicação de vídeo de acordo com uma forma de realização da presente invenção; e A FIG. 4 é um fluxograma esquemático simples de um método de apresentação da legenda numa comunicação de vídeo de acordo com uma forma de realização da presente invenção.
DESCRIÇÃO DETALHADA DAS FORMAS DE REALIZAÇÃO
As soluções técnicas de acordo com as formas de realização da presente invenção são descritas de forma clara e completa relativamente às figuras em anexo das formas de realização. Aparentemente, as formas de realização aqui apresentadas são apenas uma parte e não todas as formas de realização da presente invenção.
Na presente invenção, um sistema de comunicação de vídeo inclui terminais de vídeo, módulos de reconhecimento de voz, módulos de codificação de vídeo, uma MCU, e uma rede de transmissão, na qual os utilizadores introduzem sinais de voz e sinais de vídeo através dos terminais de vídeo, os módulos de reconhecimento de voz convertem os sinais de voz introduzidos em sinais de texto, os módulos de codificação de vídeo efetuam uma sobreposição da legenda nos sinais de texto e nos sinais de vídeo e codificam os sinais de texto e os sinais de video, e enviam os sinais de texto e os 7 sinais de video para uma extremidade remota através da rede de transmissão.
Relativamente à FIG. 1, um módulo de reconhecimento de voz 10 e um módulo de codificação de video 20, de acordo com uma primeira forma de realização da presente invenção, estão incluídos num terminal de video. O módulo de reconhecimento de voz 10 é ligado a um módulo de captura de voz (microfone), e é adaptado para reconhecer sinais de voz reunidos pelo microfone como sinais de texto, e transmitir os sinais de texto ao módulo de codificação de vídeo 20. O módulo de codificação de vídeo 20 é ligado a uma câmara de vídeo, e é adaptado para sobrepor os sinais de texto nos sinais de video de imagem reunidos por um módulo de captura de imagem (câmara de vídeo), codificar os sinais de texto e os sinais de vídeo de imagem, e enviar os sinais de texto e os sinais de vídeo de imagem para uma extremidade remota, de modo a que os utilizadores remotos possam ver as informações de legendas reconhecidas apresentadas de forma síncrona com os sinais de voz em tempo real, para que a experiência de sessão dos utilizadores seja melhorada e, em particular, algumas pessoas com dificuldade auditiva possam comunicar normalmente.
Convém referir que o módulo de reconhecimento de voz 10 desta forma de realização está integrado no terminal de vídeo, de modo a ser cómodo para o utilizador realizar uma formação de reconhecimento de voz para melhorar uma taxa de reconhecimento. Em seguida, o módulo de reconhecimento de voz 10 pode ser definido para ser ativado de acordo com as exigências do utilizador. Quando várias pessoas participam numa conferência multiponto, é suportada uma função de distribuição multiponto. Além disso, um módulo de vozes sintetizadas pode ainda ser incluído no terminal de vídeo desta forma de realização. Depois de o utilizador introduzir as informações de carateres através de um módulo de introdução de carateres (um teclado ou outras formas), o módulo de vozes sintetizadas converte as informações de carateres em sinais de voz, e envia as informações de carateres para o módulo de codificação de video 20. O módulo de codificação de vídeo 20 sobrepõe as informações introduzidas pelo utilizador nos sinais de vídeo de imagem, codifica as informações e os sinais de vídeo de imagem, e envia as informações e os sinais de vídeo de imagem para a extremidade remota. Ao mesmo tempo, os sinais de voz convertida são enviados para um módulo de codificação de voz para serem codificados, e são enviados para a extremidade remota. Desta forma, uma pessoa muda ou uma pessoa com uma barreira de língua pode comunicar com outro interveniente através do dispositivo de comunicação de vídeo da presente invenção.
Relativamente à FIG. 2, os módulos de reconhecimento de voz e os módulos de codificação de vídeo de uma segunda forma de realização da presente invenção estão incluídos numa MCU. Diversos módulos de reconhecimento de voz e módulos de codificação de vídeo estão integrados na MCU. Aqui, os terminais de comunicação implementam o controlo da conferência e a troca de suportes de dados através da MCU. A MCU inicia e configura de forma correspondente os diversos módulos de reconhecimento de voz e os módulos de codificação de vídeo de acordo com o número de utilizadores que participam na comunicação de vídeo. Por exemplo, numa conferência ponto a ponto, ao receber vozes de um terminal 1 e de um terminal 2, a MCU efetua um processo de descodificação e, em seguida, envia um sinal de voz 9 descodificada do terminal 1 para um primeiro módulo de reconhecimento de voz 11. 0 primeiro módulo de reconhecimento de voz 11 reconhece e converte um som do terminal 1 num sinal de texto e transmite o sinal de texto a um primeiro módulo de codificação de video 21 correspondente ao terminal 2. 0 primeiro módulo de codificação de video 21 sobrepõe o sinal de texto do terminal 1 numa imagem de video, codifica o sinal de texto e a imagem de video, e envia o sinal de texto e a imagem de video para o terminal 2. Um sinal de voz descodificada do terminal 2 é enviado para um segundo módulo de reconhecimento de voz 12. 0 segundo módulo de reconhecimento de voz 12 reconhece e converte um som do terminal 2 num sinal texto, e transmite o sinal de texto a um segundo módulo de codificação de video 22 correspondente ao terminal 1. 0 segundo módulo de codificação de video 22 sobrepõe o sinal de texto do terminal 2 numa imagem de video, codifica o sinal de texto e a imagem de vídeo, e envia o sinal de texto e a imagem de vídeo para o terminal 1. Desta forma, depois de descodificar respetivamente as sequências de códigos de video recebidas, o terminal 1 e o terminal 2 podem ver a legenda correspondente.
Relativamente à FIG. 3, quando uma conferência multiponto é mantida através da segunda forma de realização da presente invenção, a MCU inicia e configura de forma correspondente os diversos módulos de reconhecimento de voz e os módulos de codificação de vídeo de acordo com o número dos utilizadores que participam na comunicação de vídeo, ou o número dos módulos de reconhecimento de voz a serem iniciados é definido no sistema. Por exemplo, são iniciados três módulos de reconhecimento de voz. Em primeiro lugar, a MCU recebe os dados de vídeo e áudio de cada terminal e 10 descodifica os dados de áudio. Em seguida, um módulo de mistura de áudio efetua a mistura de áudio e, durante o processo de mistura de áudio, são obtidos três locais com o volume máximo, por exemplo, os locais 1, 2 e 3. Os dados de voz dos três locais com o volume máximo são enviados respetivamente para três módulos de reconhecimento de voz. Os módulos de reconhecimento de voz reconhecem as vozes dos três locais com o volume máximo, de modo a obter sinais de texto ΤΙ, T2 e T3 correspondentes às vozes e, em seguida, enviam os sinais de texto para os módulos de codificação de video correspondentes aos locais. Os módulos de codificação de video sobrepõem os sinais de texto e os sinais de video e, em seguida, enviam os sinais de texto e os sinais de video para os terminais. Por exemplo, a legenda enviada para o local 1 corresponde aos sinais de texto/voz depois de as vozes do local 2 e do local 3 serem reconhecidas, a legenda enviada para o local 2 corresponde aos sinais de texto depois de as vozes do local 1 e do local 3 serem reconhecidas, e a legenda enviada para o local 3 corresponde aos sinais de texto depois de as vozes do local 1 e do local 2 serem reconhecidas. As legendas enviadas para outros locais correspondem aos sinais de texto depois de as vozes do local 1, do local 2 e do local 3 serem reconhecidas.
Convém perceber que, durante o processo de mistura de áudio, a MCU obtém primeiro os três locais 1, 2 e 3 com o som máximo e, em seguida, sobrepõe e codifica os sons do local 2 e do local 3, e envia os sons para o local 1. Assim, as pessoas no local 1 ouvem os sons do local 2 e do local 3. Os sons do local 1 e do local 3 são sobrepostos e codificados, e são enviados para o local 2. Por conseguinte, as pessoas no local 2 ouvem os sons do local 1 11 e do local 3. Consequentemente, as pessoas no local 3 ouvem os sons do local 1 e do local 2. Como tal, a legenda apresentada em cada local é correspondente ao som ouvido pelas pessoas no local. Depois de receber as sequências de códigos de video e áudio, os terminais de cada local descodificam as sequências de códigos de video e áudio, o som pode ser recuperado e a legenda correspondente ao som pode ser vista através de altifalantes e ecrãs. Além disso, a apresentação da legenda da mistura de áudio de três intervenientes é efetuada, por exemplo, na descrição acima; contudo, o dispositivo de comunicação de video da presente invenção pode ser configurado para apresentar apenas a legenda de um interveniente com o volume máximo ou as legendas de dois intervenientes com o volume máximo, ou pode ser configurado para efetuar a apresentação da legenda noutros modos de mistura de áudio de vários intervenientes de acordo com as exigências dos utilizadores.
Relativamente à FIG. 4, conforme descrito acima, um método de apresentação da legenda numa comunicação de video de acordo com a presente invenção inclui os passos apresentados em seguida.
No Passo 1, é estabelecida uma comunicação de video.
No Passo 2, é determinada e definida uma quantidade de sinais de voz reconhecida.
No Passo 3, é determinado um volume de cada local, e são selecionados os sinais de voz dos oradores com o volume máximo de um número correspondente à quantidade. 12
No Passo 4, os sinais de voz do orador são reconhecidos e convertidos em sinais de texto.
No Passo 5, os sinais de texto e os sinais de video de imagem que necessitam de ser recebidos por, e apresentados a, outros participantes na conferência (sinais de video de imagem de locais dos oradores correspondentes aos sinais de voz nesta forma de realização) são sobrepostos e codificados em tempo real, e são enviados respetivamente para outros participantes na conferência.
No Passo 6, outros participantes na conferência recebem e descodificam os sinais de video com os sinais de texto sobrepostos, e veem imagens e legendas.
Convém perceber que, no método, a quantidade de sinais de voz reconhecida pode ser determinada e selecionada de acordo com um valor definido pelo sistema ou manualmente, ou a quantidade dos sinais de voz reconhecida pode não ser definida e a voz do local de cada participante é reconhecida. Em seguida, outros participantes na conferência podem controlar e selecionar respetivamente as imagens do local necessárias para serem recebidas e apresentadas, os participantes podem optar por apresentar a imagem do local do orador, ou as imagens do local de outros não oradores. Independentemente do local selecionado, apenas é necessário sobrepor e codificar o sinal de texto do orador e o sinal de video de imagem do local a ser apresentado selecionado por cada participante na conferência.
Convém perceber que os módulos de reconhecimento de voz e os módulos de codificação de video do sistema de 13 comunicação de vídeo da presente invenção podem ser igualmente colocados noutros dispositivos ou dispositivos dedicados no sistema e na rede de transmissão, ou podem ser colocados em separado em dispositivos diferentes no sistema e na rede de transmissão. Os módulos de reconhecimento de voz e os módulos de codificação de vídeo cooperam para reconhecer os sinais de voz como sinais de texto, e sobrepõem diretamente os sinais de texto nos sinais de vídeo para serem codificados e transmitidos . 0 utilizador pode descodificar diretamente as imagens de apresentação e as informações de carateres correspondentes à voz. Por conseguinte, o método é simples e o desempenho em tempo real é elevado.
Lisboa, 11 de Janeiro de 2012

Claims (2)

1 REIVINDICAÇÕES 1. Um método de apresentação da legenda processado por uma Unidade de Controlo Multiponto (MCU) , numa conferência multiponto, a MCU compreende diversos módulos de reconhecimento de voz e diversos módulos de codificação de vídeo, a MCU configura e inicia os diversos módulos de reconhecimento de voz e módulos de codificação de vídeo, em que o número de módulos de reconhecimento de voz a serem iniciados é definido no sistema, e o método é caracterizado por compreender: o estabelecimento de uma comunicação de vídeo entre locais; a receção, por intermédio da MCU, de sinais de voz e sinais de vídeo de cada local, e a descodificação de sinais de voz ; a realização, por intermédio da MCU, da mistura de áudio, e a obtenção de um número dos locais com o volume máximo durante o processo de mistura de áudio; em que o número dos locais com o volume máximo corresponde ao número dos módulos de reconhecimento de voz iniciados pela MCU; o reconhecimento e a conversão, respetivamente, através do número de módulos de reconhecimento de voz, dos sinais de voz dos locais com o volume máximo em sinais de texto correspondentes; e o envio dos sinais de texto para os módulos de codificação de vídeo correspondentes aos locais; a sobreposição e codificação, por intermédio dos módulos de codificação de vídeo, dos sinais de texto e sinais de vídeo correspondentes que necessitam de ser recebidos por, e 2 apresentados a, outros locais de conferência, e o envio dos sinais de vídeo e sinais de texto codificados e sobrepostos para os locais através da comunicação de vídeo.
2. Um dispositivo de controlo de comunicação de vídeo compreendendo uma unidade de controlo multiponto (MCU), e diversos dispositivos de terminal de vídeo, os diversos dispositivos de terminal de vídeo ligam à MCU, cada um dos dispositivos de terminal de vídeo compreende um módulo de captura de voz e um módulo de captura de imagem, a MCU inclui diversos módulos de reconhecimento de voz e diversos módulos de codificação de vídeo, caracterizado por: a MCU ser adaptada para efetuar o método de apresentação da legenda de acordo com a reivindicação 1. Lisboa, 11 de Janeiro de 2012
PT08706572T 2007-05-17 2008-01-28 Um método de apresentação da legenda e um aparelho e sistema de comunicação de vídeo PT2154885E (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100745423A CN101309390B (zh) 2007-05-17 2007-05-17 视讯通信***、装置及其字幕显示方法

Publications (1)

Publication Number Publication Date
PT2154885E true PT2154885E (pt) 2012-01-19

Family

ID=40031408

Family Applications (1)

Application Number Title Priority Date Filing Date
PT08706572T PT2154885E (pt) 2007-05-17 2008-01-28 Um método de apresentação da legenda e um aparelho e sistema de comunicação de vídeo

Country Status (7)

Country Link
US (1) US20100039498A1 (pt)
EP (1) EP2154885B1 (pt)
CN (1) CN101309390B (pt)
AT (1) ATE536031T1 (pt)
ES (1) ES2375537T3 (pt)
PT (1) PT2154885E (pt)
WO (1) WO2008141539A1 (pt)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100079573A1 (en) * 2008-09-26 2010-04-01 Maycel Isaac System and method for video telephony by converting facial motion to text
CN101789871B (zh) * 2009-01-23 2012-10-03 国际商业机器公司 支持多个同时在线会议的方法、服务器端及客户端设备
CN101931779A (zh) * 2009-06-23 2010-12-29 中兴通讯股份有限公司 一种可视电话及其通讯方法
EP2325838A1 (en) * 2009-10-27 2011-05-25 verbavoice GmbH A method and system for transcription of spoken language
CN101764957B (zh) * 2009-12-28 2012-07-04 深圳华为通信技术有限公司 一种在会议字幕中***图片的方法和装置
CN102339603A (zh) * 2010-07-23 2012-02-01 张文 通用数字语音直接交流机
CN102036051A (zh) * 2010-12-20 2011-04-27 华为终端有限公司 实现视频会议中提词的方法以及装置
US9077848B2 (en) 2011-07-15 2015-07-07 Google Technology Holdings LLC Side channel for employing descriptive audio commentary about a video conference
JP5892021B2 (ja) * 2011-12-26 2016-03-23 キヤノンマーケティングジャパン株式会社 会議サーバ、会議システム、会議サーバの制御方法、プログラムおよび記録媒体
CN102625079B (zh) * 2012-03-21 2015-01-14 厦门亿联网络技术股份有限公司 一种三方视频会议的视频实现方法
CN103685985A (zh) * 2012-09-17 2014-03-26 联想(北京)有限公司 通话方法、发送装置、接收装置、语音处理和终端设备
CN102984496B (zh) * 2012-12-21 2015-08-19 华为技术有限公司 视频会议中的视音频信息的处理方法、装置及***
CN103945140B (zh) * 2013-01-17 2017-11-28 联想(北京)有限公司 视频字幕的生成方法及***
JP6064209B2 (ja) * 2013-02-01 2017-01-25 東日本電信電話株式会社 通話システム及び通話中継方法
US9135916B2 (en) * 2013-02-26 2015-09-15 Honeywell International Inc. System and method for correcting accent induced speech transmission problems
KR102090948B1 (ko) * 2013-05-20 2020-03-19 삼성전자주식회사 대화 기록 장치 및 그 방법
CN103369292B (zh) * 2013-07-03 2016-09-14 华为技术有限公司 一种呼叫处理方法及网关
KR20150125464A (ko) * 2014-04-30 2015-11-09 삼성전자주식회사 메시지 표시 방법 및 전자 장치
CN104301564A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带嘴型识别的智能会议电话机
CN104301558A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带显示功能的智能会议电话机
CN104301560A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带打印功能的智能会议电话机
CN104581221A (zh) * 2014-12-25 2015-04-29 广州酷狗计算机科技有限公司 视频直播的方法和装置
CN105992065B (zh) * 2015-02-12 2019-09-03 南宁富桂精密工业有限公司 随选视讯社交互动方法和***
CN106301811A (zh) * 2015-05-19 2017-01-04 华为技术有限公司 实现多媒体会议的方法及装置
CN105024834A (zh) * 2015-07-03 2015-11-04 马岩 会议的互动方法及***
CN105430524B (zh) * 2015-12-01 2019-04-23 赣州市牧士电子有限公司 基于智能电视的通话方式调节方法
CN106973253B (zh) * 2016-01-13 2020-04-14 华为技术有限公司 一种调整媒体流传输的方法及装置
CN105745921A (zh) * 2016-01-19 2016-07-06 王晓光 一种视频网络会议的会议记录方法及***
CN106027505A (zh) * 2016-05-10 2016-10-12 国家电网公司 一种反事故演习观摩***
CN105978874A (zh) * 2016-05-10 2016-09-28 国家电网公司 一种反事故演习自动话单生成方法
CN106060005A (zh) * 2016-05-10 2016-10-26 国家电网公司 一种反事故演习自动话单生成***
EP3455720B1 (en) * 2016-05-13 2023-12-27 Google LLC Led design language for visual affordance of voice user interfaces
CN107547824A (zh) * 2016-06-29 2018-01-05 中兴通讯股份有限公司 音视频处理方法、装置及麦克
CN107578777B (zh) * 2016-07-05 2021-08-03 阿里巴巴集团控股有限公司 文字信息显示方法、装置及***、语音识别方法及装置
US9497315B1 (en) * 2016-07-27 2016-11-15 Captioncall, Llc Transcribing audio communication sessions
CN107707726A (zh) * 2016-08-09 2018-02-16 深圳市鹏华联宇科技通讯有限公司 一种用于正常人与聋哑人通讯的终端和通话方法
CN108173802B (zh) * 2016-12-07 2022-06-07 北京搜狗科技发展有限公司 一种通讯处理方法、装置和终端
US10469800B2 (en) * 2017-01-26 2019-11-05 Antimatter Research, Inc. Always-on telepresence device
CN106803918A (zh) * 2017-03-02 2017-06-06 无锡纽微特科技有限公司 一种视频通话***及实现方法
CN107248947B (zh) * 2017-05-22 2019-01-08 腾讯科技(深圳)有限公司 表情处理方法及装置、计算机设备及存储介质
CN107612881B (zh) * 2017-08-01 2020-07-28 广州视源电子科技股份有限公司 在传输文件时传输画面的方法、装置、终端及存储介质
CN109587429A (zh) * 2017-09-29 2019-04-05 北京国双科技有限公司 音频处理方法和装置
US10372298B2 (en) 2017-09-29 2019-08-06 Apple Inc. User interface for multi-user communication session
CN110324723B (zh) * 2018-03-29 2022-03-08 华为技术有限公司 字幕生成方法及终端
DK180130B1 (da) 2018-05-07 2020-06-02 Apple Inc. Multi-participant live communication user interface
CN110557596B (zh) * 2018-06-04 2021-09-21 杭州海康威视数字技术股份有限公司 会议***
US10834455B2 (en) 2018-06-27 2020-11-10 At&T Intellectual Property I, L.P. Integrating real-time text with video services
CN108962011A (zh) * 2018-07-17 2018-12-07 深圳市福瑞达显示技术有限公司 一种具有风扇屏和摄像头的一体广告机
CN109146789A (zh) * 2018-08-23 2019-01-04 北京优酷科技有限公司 画面拼接方法及装置
US11128792B2 (en) 2018-09-28 2021-09-21 Apple Inc. Capturing and displaying images with multiple focal planes
CN111104080B (zh) * 2018-10-29 2023-04-07 杭州海康威视数字技术股份有限公司 一种文本远程预览方法及装置
CN109348164A (zh) * 2018-11-19 2019-02-15 国网山东省电力公司信息通信公司 一种电视电话会议自助保障控制***
CN109889699B (zh) * 2019-02-15 2023-11-28 深圳市昊一源科技有限公司 无线通话主机、无线通话tally***及转发方法
CN111698441A (zh) * 2019-03-11 2020-09-22 优本技术(深圳)有限公司 一种带字幕合成的智能识别设备
CN110225288A (zh) * 2019-05-09 2019-09-10 黄河 一种信息处理转化装置
CN113539279A (zh) * 2020-04-16 2021-10-22 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及计算机可读存储介质
CN111556372A (zh) * 2020-04-20 2020-08-18 北京甲骨今声科技有限公司 为视音频节目实时添加字幕的方法和装置
CN113473238B (zh) * 2020-04-29 2022-10-18 海信集团有限公司 一种智能设备及视频通话时的同声翻译方法
US11513667B2 (en) 2020-05-11 2022-11-29 Apple Inc. User interface for audio message
CN111901552B (zh) * 2020-06-29 2022-10-25 维沃移动通信有限公司 多媒体数据传输方法、装置及电子设备
CN111899721B (zh) * 2020-07-25 2023-08-08 烽火通信科技股份有限公司 一种语音交互终端和智能家居的通信方法
CN112309419B (zh) * 2020-10-30 2023-05-02 浙江蓝鸽科技有限公司 多路音频的降噪、输出方法及其***
US11671697B2 (en) 2021-01-31 2023-06-06 Apple Inc. User interfaces for wide angle video conference
CN113225614A (zh) * 2021-04-20 2021-08-06 深圳市九洲电器有限公司 视频播放方法、装置、服务器以及存储介质
US20220368548A1 (en) 2021-05-15 2022-11-17 Apple Inc. Shared-content session user interfaces
US11907605B2 (en) 2021-05-15 2024-02-20 Apple Inc. Shared-content session user interfaces
US11893214B2 (en) 2021-05-15 2024-02-06 Apple Inc. Real-time communication user interface
US11812135B2 (en) 2021-09-24 2023-11-07 Apple Inc. Wide angle video conference
CN114494951B (zh) * 2022-01-12 2023-04-25 北京百度网讯科技有限公司 视频处理方法、装置、电子设备和存储介质
CN115767135A (zh) * 2022-11-30 2023-03-07 无锡微纳核芯电子科技有限公司 数据处理方法及通信***
CN116233540B (zh) * 2023-03-10 2024-04-02 北京富通亚讯网络信息技术有限公司 基于视频图像识别的并行信号处理方法及***

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774857A (en) * 1996-11-15 1998-06-30 Motorola, Inc. Conversion of communicated speech to text for tranmission as RF modulated base band video
JP2000023132A (ja) * 1998-07-06 2000-01-21 Canon Inc データ通信制御装置及びその制御方法、及びデータ通信システム
CN1133324C (zh) 1999-08-05 2003-12-31 华为技术有限公司 一种字幕的叠加方法
KR20020060964A (ko) * 2000-09-11 2002-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오/비디오 내용을 인덱스/요약하기 위한 시스템
US6894715B2 (en) * 2001-06-16 2005-05-17 Eric Harold Henrikson Mixing video signals for an audio and video multimedia conference call
US6771302B1 (en) * 2001-08-14 2004-08-03 Polycom, Inc. Videoconference closed caption system and method
CN1218574C (zh) * 2001-10-15 2005-09-07 华为技术有限公司 交互式视频设备及其字幕叠加方法
JP2003345379A (ja) * 2002-03-20 2003-12-03 Japan Science & Technology Corp 音声映像変換装置及び方法、音声映像変換プログラム
US6693663B1 (en) * 2002-06-14 2004-02-17 Scott C. Harris Videoconferencing systems with recognition ability
US20040119814A1 (en) 2002-12-20 2004-06-24 Clisham Allister B. Video conferencing system and method
JP2004304601A (ja) * 2003-03-31 2004-10-28 Toshiba Corp Tv電話装置、tv電話装置のデータ送受信方法
US7830408B2 (en) * 2005-12-21 2010-11-09 Cisco Technology, Inc. Conference captioning
US8149261B2 (en) * 2007-01-10 2012-04-03 Cisco Technology, Inc. Integration of audio conference bridge with video multipoint control unit

Also Published As

Publication number Publication date
EP2154885A1 (en) 2010-02-17
EP2154885A4 (en) 2010-04-28
CN101309390B (zh) 2012-05-23
WO2008141539A1 (fr) 2008-11-27
CN101309390A (zh) 2008-11-19
ES2375537T3 (es) 2012-03-01
US20100039498A1 (en) 2010-02-18
EP2154885B1 (en) 2011-11-30
ATE536031T1 (de) 2011-12-15

Similar Documents

Publication Publication Date Title
PT2154885E (pt) Um método de apresentação da legenda e um aparelho e sistema de comunicação de vídeo
US9462228B2 (en) Distributed real-time media composer
KR100880150B1 (ko) 멀티 포인트 화상회의 시스템 및 해당 미디어 프로세싱방법
CN102868873B (zh) 一种远程呈现方法、终端和***
US7973859B2 (en) Apparatus, network device and method for video/audio data transmission
US20080153442A1 (en) Apparatus and method for displaying multi-point communication information
US20020093531A1 (en) Adaptive display for video conferences
US20050208962A1 (en) Mobile phone, multimedia chatting system and method thereof
CN103096020B (zh) 视讯会议***、视讯会议装置及其方法
CN101645952A (zh) 会议电话终端、***及共享数据的方法
US8743172B2 (en) Image capturing for video conference system
US9088690B2 (en) Video conference system
KR101585871B1 (ko) 이동통신 시스템에서 화이트 보드 서비스 제공을 위한 장치 및 방법
CN102438119B (zh) 一种数字电视的音视频通讯***
WO2016147538A1 (ja) テレビ会議用通信装置
JP2002176503A (ja) 多地点ビデオ会議制御装置、音声切替え方法、およびそのプログラムを記録した記録媒体
WO2010139211A1 (zh) 可视电话、可视电话的拨打和接听方法及装置
CN115412702A (zh) 一种会议终端与电视墙一体化设备及***
CN110740286A (zh) 一种视频会议控制方法、多点控制单元及视频会议终端
JPH01233869A (ja) 画像通信方式
WO2012155761A1 (zh) 一种可视电话动态相框实现方法及移动终端
JPH07264570A (ja) マルチポイントコミュニケーションシステム
KR20070058299A (ko) Tv를 이용한 화상통화 정합 장치 및 홈서버 시스템
JP2001016558A (ja) 通信システム及び方法並びに端末装置
CN116708385A (zh) 一种用于参会设备间屏幕共享的***