BRPI0714736A2 - mÉtodo para misturar vozes para mixar uma pluralidade de informaÇÕes de voz, servidor de conferÊncia multiponto que mistura uma pluridade de informaÇÕpes de voz e programa para executar mistura de vozes - Google Patents
mÉtodo para misturar vozes para mixar uma pluralidade de informaÇÕes de voz, servidor de conferÊncia multiponto que mistura uma pluridade de informaÇÕpes de voz e programa para executar mistura de vozes Download PDFInfo
- Publication number
- BRPI0714736A2 BRPI0714736A2 BRPI0714736-8A BRPI0714736A BRPI0714736A2 BR PI0714736 A2 BRPI0714736 A2 BR PI0714736A2 BR PI0714736 A BRPI0714736 A BR PI0714736A BR PI0714736 A2 BRPI0714736 A2 BR PI0714736A2
- Authority
- BR
- Brazil
- Prior art keywords
- voice
- voice information
- information
- signals
- mixing
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000015654 memory Effects 0.000 claims description 38
- 230000006870 function Effects 0.000 claims 10
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000011017 operating method Methods 0.000 description 2
- 241001125929 Trisopterus luscus Species 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
MÉTODO PARA MISTURAR VOZES PARA MIXAR UMA PLURALIDADE DE INFORMAÇÕES DE VOZ, SERVIDOR DE CONFERêNCIA MULTIPONTO QUE MISTURA UMA PLURALIDADE DE INFORMAÇÕES DE VOZ E PROGRAMA PARA EXECUTAR MISTURA DE VOZES. O método para misturar vozes inclui uma primeira etapa para selecionar informações de voz a partir de uma pluralidade de informações de voz, uma segunda etapa para somar todas as informações de voz selecionadas, uma terceira etapa para obter um sinal de voz totalizando os sinais de voz diferentes daquele sinal de voz, dos sinais de voz selecionados, uma quarta etapa para codificar as informações de voz que foram obtidas na segunda etapa, uma quinta etapa para codificar o sinal de voz que foi obtido na terceira etapa, e uma sexta etapa para copiar as informações codificadas que foram obtidas na quarta etapa nas informações codificadas para a quinta etapa.
Description
"MÉTODO PARA MISTURAR VOZES PARA MIXAR UMA PLURALIDADE DE INFORMAÇÕES DE VOZ, SERVIDOR DE CONFERÊNCIA MULTIPONTO QUE MISTURA UMA PLURALIDADE DE INFORMAÇÕES DE VOZ E PROGRAMA PARA EXECUTAR MISTURA DE VOZES".
Campo da Invenção
A invenção se relaciona a um método para misturar vozes, e a um servidor e programa de conferência multiponto, usando este método. Mais especificamente, a invenção se relaciona um método para misturar vozes de todos participantes., subtraindo a voz de um participante das vozes misturadas, e transmitindo a voz subtraída para este participante, e ademais se relaciona a um servidor e programa de conferência multiponto, usando este método. Histórico da Invenção Em um serviço de conferência multiponto, os dados de voz dos participantes, codificados por um codificador de voz, são transmitidos para um servidor de conferência multiponto. O servidor de conferência multiponto transmite a cada participante os dados de voz com as vozes dos outros participantes, além do próprio participante misturado.
Quando dados de voz são misturados, em primeiro lugar, os sinais de voz de todos participantes são calculados somando todos os sinais de voz decodificados que foram obtidos decodificando os dados de voz de cada participante. A seguir, sinais de voz podem ser obtidos subtraindo a voz de um participante dos sinais de voz de todos participantes, e os sinais de voz são codificados, e os dados de voz gerados são transmitidos aos respectivos participantes.
Como exemplo de protocolo de comunicação entre um terminal de um serviço de conferência multiponto e o servidor, utilizam-se ITU-T H.323 e H.324 em rede fixa, e 3G-324M em rede móvel, e utiliza-se o IETF RFC3550 RTP (Real-time Transport Protocol (protocolo de Transporte em tempo real)) em uma rede de pacotes IP (Internet Protocol (Protocolo Internet)). Como codificador de voz são utilizados: método ARM (Adaptive Multi-Rate (Multitaxa Adaptativa)) em G.711, G.729, e 3GPP TS26.090, método AMR-WB (Wide Band (Banda Larga)) definido em TS26.190, e método EVRC (Enhanced Variable Rate Codec (Codec de Taxa Variável Melhorado)) definido por 3GPP2, que são Padrões ITU-T.
O método G.711 consiste em comprimir cada amostra de 16 bits nos sinais de voz em 8 kHz de 8 bits, usando transformação logaritmica, e, neste método, a quantidade de cálculo é pequena, mas apresenta uma baixa razão de compressibilidade.
De outro lado, os métodos G.729, AMR, EVRC, se baseiam em um método de codificação diferencial de acordo com principio CELP (Code Excited Linear Prediction (Previsão Linear de Código Excitado)), e podem codificar o sinal de voz mais eficientemente.
No CELP, um codificador extrai um parâmetro de espectro mostrando uma característica de espectro do sinal de voz a partir do sinal de voz de cada quadro (tal como, 20 ms) com a análise de previsão linear (LPC - Linear Preditive Coding (Codificação Linear Preditiva)).
Ademais, o sinal de voz dividido em quadros ademais é dividido em sub-quadros (tal como, 5 ms), e parâmetros (parâmetro de atraso e parâmetro de ganho, que correspondem a um ciclo) em um registro de código adaptativo são extraídos com base no sinal de fonte de som anterior para cada sub-quadro, e o ciclo do sinal de voz do correspondente sub-quadro é previsto de acordo com o registro de código adaptativo. 0 vetor de código de fonte de som mais adequado é selecionado de um registro de código de fonte de som (registro de código de quantificação de vetor) que consiste de pré-determinados tipos de sinais de ruído, calculando o ganho mais adequado do sinal residual obtido a partir de previsões de ciclo, daí valorando os sinais de fonte de som.
0 vetor de código de fonte de som é selecionado para minimizar os erros de potência entre um sinal sintetizado pelo sinal de ruído selecionado e o sinal residual mencionado acima. Uma combinação de índice, ganho, parâmetro de espectro, no registro de código adaptativo indicando o vetor de código selecionado é transmitida como dado de voz.
Um decodificador calcula um sinal de fonte de som e um coeficiente de filtro sintético na análise de previsão linear a partir da comparação obtida a partir dos dados de voz, e o sinal de fonte de som é conduzido por um filtro sintético, daí obtendo um sinal de voz complexo.
0 método de mistura de voz é descrito (com referência ao Documento de Patente 1), no qual um processamento de seleção e comparação não é feito para cada amostra, e uma pluralidade de amostras, seguindo a amostra dos dados de voz selecionados, é selecionada com base no resultado do processamento de comparação e seleção por tamanho nas amostras.
A seguir, é descrito um método para misturar vozes (com referência ao Documento de Patente 2), no qual um sinal total é gerado em uma unidade misturadora. Sendo que as informações de voz de um participante são subtraídas do sinal total, e as informações de voz, diferentes daquele participante, retornam para o mesmo. Uma unidade de controle de comunicação é descrita (com referência ao Documento de Patente 3), na qual uma unidade sintetizadora de voz soma cada dado de voz convertido em dado linear por cada unidade decodificadora/ codificadora heterogênea, depois do que os dados de voz são gerados, subtraindo voz de um participante dos dados de voz somados e transmitidos à correspondente unidade codificadora/decodificadora heterogênea.
Publicação de Patente 1 Japonesa em Aberto, N°"2005- 151044 (parágrafo 0014, 0016 e 0045).
Publicação de Patente 2 Japonesa em Aberto _N° 2005- 229259 (parágrafo 0003, Figura 1). Publicação de Patente 3 Japonesa em Aberto N0 6-350724 (parágrafo 0020, Figura 2).
Em um sistema de conferência multiponto na técnica, a voz de um participante, misturada com as vozes de todos outros participantes, é codificada e transmitida a cada participante. Neste instante, em virtude de a quantidade de cálculo para codificação de voz aumentar, à medida que aumenta o número de participantes, o sistema usa um método para detectar os falantes ativos, e restringe o número de codificadores de voz em operação.
Quando se utiliza um codificador de codificação diferencial, tal como o método CELP, sempre que ocorre uma inconsistência em uma memória mostrando a condição do codificador, quando se chaveia o codificador com uma mudança de falante, surge o problema de ocorrer um som anormal em uma voz decodificada.
O meio para resolver o problema não está descrito nos Documentos de Patente 1 a 3. Sumário da Invenção Um objetivo exemplar da presente invenção é prover um método para misturar vozes que evite a ocorrência de um som anormal na voz decodificada, quando se chaveia o codificador com uma mudança de falante, e também a um programa e servidor de conferência multiponto que use tal método.
De acordo com um primeiro aspecto exemplar, provê-se um método para misturar vozes, para misturar uma pluralidade de informações de voz, que inclui uma primeira etapa para selecionar informações de voz a partir de uma pluralidade de informações de voz, uma segunda etapa para somar todas as informações de voz selecionadas, uma terceira etapa para obter as informações de voz que totalizam as informações de voz diferentes de uma informação de voz das informações de voz selecionadas, uma quarta etapa para codificar as informações de voz que foram obtidas na segunda etapa, uma quinta etapa para codificar as informações de voz que foram obtidas na terceira etapa, e uma sexta etapa para copiar as informações codificadas na quarta etapa nas informações codificadas na quinta etapa. De acordo com um segundo aspecto exemplar da invenção, provê-se um programa para misturar vozes a partir de uma pluralidade de informações de voz, que instrui um computador a cumprir uma primeira etapa para selecionar informações de voz a partir de uma pluralidade de informações de voz, uma segunda etapa para somar todas informações de voz selecionadas, uma terceira etapa para subtrair as informações de voz uma a uma das informações de voz, uma quarta etapa para codificar as informações de voz que foram obtidas na segunda etapa, uma quinta etapa para codificar as informações de voz que foram obtidas na terceira etapa, e, por fim, uma sexta etapa para copiar as informações de voz que foram obtidas na quarta etapa nas informações codificadas que foram obtidas na quinta etapa.
De acordo com um segundo aspecto exemplar da invenção, provê-se um servidor de conferência multiponto para misturar uma pluralidade de informações de voz, qual servidor inclui um seletor que seleciona as informações de voz a partir de uma pluralidade de informações de voz, e um somador de todos sinais, que soma todas as informações de voz selecionadas pelo seletor, um somador que obtém um sinal de voz somando os sinais de voz diferentes de um sinal de voz dos sinais de voz selecionados, um primeiro codificador que codifica as informações de voz somadas pelo somador de todos sinais de voz, um segundo codificador que codifica as informações de voz subtraídas pelo somador, e uma chave que faz copiar as informações codificadas obtidas pelo primeiro codificador no segundo codificador. De acordo com um terceiro aspecto exemplar da invenção, provê-se um programa para instruir a mistura de uma pluralidade de informações de voz, qual programa instrui um computador a cumprir uma primeira etapa para selecionar informações de voz a partir de uma pluralidade de informações de voz, uma segunda etapa para somar todas informações de voz selecionadas, uma terceira etapa para subtrair as informações de voz selecionadas das informações de voz somadas uma a uma, uma quarta etapa para codificar as informações de voz que foram obtidas na segunda etapa, uma quinta etapa para codificar as informações de voz que foram obtidas na terceira etapa, e uma sexta etapa para copiar as informações de voz que foram obtidas na quarta etapa nas informações de voz que foram obtidas na primeira etapa.
Outros objetos componentes e vantagens da invenção serão aparentes a partir da descrição detalhada que se segue. Descrição Resumida dos Desenhos A figura 1 mostra uma vista estrutural de um servidor de conferência multiponto, de acordo com uma primeira configuração exemplar da presente invenção;
A figura 2 mostra um fluxograma que mostra um procedimento operacional do servidor de conferência multiponto, de acordo com a primeira configuração exemplar da presente invenção; e
A figura 3 mostra uma vista estrutural de um servidor de conferência multiponto, de acordo com a segunda configuração exemplar da presente invenção. 2 5 Configuração Exemplar
A seguir, serão descritas configurações exemplares da presente invenção com referência aos desenhos anexos. (PRIMEIRA CONFIGURAÇÃO EXEMPLAR)
A figura 1 mostra uma vista estrutural de um servidor de conferência multiponto de acordo com a primeira configuração exemplar da invenção. O servidor de conferência multiponto de acordo com a primeira configuração exemplar da invenção compreende terminais de entrada de voz (ou sinal de voz de entrada) 100, 110,..., 190, calculadores de potência 101, 111,..., 191, seletor de falante 200, chaves para entrada de sinal de voz 102, 112,..., 192, somadores de todos sinais 300, somadores 103, 113,..., 193, codificadores de voz 104, 114,..., 194, chaves de memória 105, 115,..., 195, e um codificador de voz comum 400, chaves de dados de voz
106, 116, ..., 196, e falantes para terminais de saida de voz (ou falantes para saida de voz) 107, 117,..., 197.
Os terminais de entrada de voz 100, 110,..., 190 correspondem aos falantes 1, 2,..., e M, enquanto os calculadores de potência 101, 111,..., 191, as chaves de entrada de sinal de voz 102, 112,..., 192, os somadores 103, 113,..., 194, os codificadores de voz
104, 114,..., 195, as chaves de dados de voz 106, 116,..., 196, e os falantes de terminais de saida de voz
107, 117,..., 197 correspondem aos respectivos falantes, de modo similar.
A seguir, será descrita uma operação da primeira configuração exemplar com referência às figuras 1 e 2. A figura 2 mostra um fluxograma do procedimento operacional do servidor de conferência multiponto de acordo com a primeira configuração exemplar da presente invenção. A seguir, embora apenas os blocos de processamento correspondentes aos falantes 1, 2, e 3, venham a ser descritos, o mesmo processamento deve ser seguido com respeito a falantes não ilustrados. O calculador de potência 101, o calculador de potência 111, e o calculador de potência 191 calculam as potências que respectivamente correspondem ao sinal de voz de entrada 100, ao sinal de voz de entrada 110, e ao sinal de voz de entrada 190 dos falantes 1, 2, e M, respectivamente, e fornece as respectivas potências (Etapa SI, Figura 2).
O seletor de falante 200 seleciona um falante ativo, através das potências calculadas dos falantes, e emite o resultado selecionado (Etapa S2, Figura 2). A chave de entrada de sinal de voz 102, a chave de entrada de sinal de voz 112, e a chave de entrada de sinal de voz 192 são operadas para emitir sinais de voz de entrada dos respectivos falantes, com base no resultado selecionado do seletor 200 (Etapa S3-Figura 2). O somador de todos sinais 300 provê o sinal de voz obtido, totalizando todas as vozes que correspondem ao falante selecionado no seletor 200 (Etapa S4-Figura 2) .
O somador 103, o somador 113, e o somador 193 provêem os sinais de voz obtidos, subtraindo o sinal de voz do falante selecionado a partir do sinal de voz suprido pelo somador de todos sinais 300 (Etapa S5-Figura 2). Especificamente, os somadores suprem as informações de voz obtidas, subtraindo as informações de voz dos falantes que respectivamente correspondem ao codificador de voz 104, ao codificador de voz 114, ao codificador de voz 194 dos falantes selecionados a partir do sinal de voz suprido pelo somador de todos sinais 300. O codificador de voz comum 400 codifica o sinal de voz suprido pelo somador de todos sinais 300 (Etapa S6- Figura 2) .
0 codificador de voz comum 400 codifica o sinal de voz suprido pelo somador de todos sinais (Etapa S6-Figura 2). O codificador de voz 104, o codificador de voz 114, e o codificador de voz 194 codificam os sinais de voz supridos pelo somador 103, pelo somador 113, e pelo somador 193 (Etapa S7-Figura 2).
A chave de memória 105, a chave de memória 115, e a chave de memória 195 copiam o conteúdo da memória em codificação diferencial no codificador de voz comum 400 através do codificador de voz 104, através do codificador de voz 114, e através do codificador de voz 194 respectivamente, com base no resultado selecionado do seletor de falante 200 (Etapa S8-Figura 2).
Especificamente, as chaves de memória copiam respectivamente as informações codificadas que resultam da codificação diferencial armazenada na memória do codificador de voz comum 400, nas memórias do codificador de voz 104, do codificador de voz 114, e do codificador de voz 194, portanto, as memórias do codificador de voz 1104, do codificador de voz 114, e do codificador de voz 194, assumem as mesmas condições da memória que do codificador de voz comum 400.
Com base nos resultados selecionados do seletor de falante 200, a chave de dados de voz 106, a chave de dados de voz 116, e a chave de dados de voz 196, chaveiam os dados de voz de saida (Etapa S9-Figura 2). Especificamente, exemplarmente, quando se seleciona o falante 1, em detrimento dos falantes 2 e M, a chave de sinal de entrada de voz 102 do falante 1 é ligada, e as chaves 112 e 192 dos falantes 2 e M são desligadas, a chave de memória 105 do falante 1 é ligada, e as chaves de memória 115 e 195 dos falantes 2 e M são desligadas, a chave de dados de voz 106 do falante 1 é conectada para o lado do falante 1, e as chaves de dados de voz 116 e 196 dos falantes 2 e M são conectadas para o lado do codificador de voz comum 400.
0 somador de todos sinais 300 totaliza os sinais de voz do falante 1 através de chave de entrada de sinal de voz 102, e o sinal totalizado é suprido ao codificador de voz 2 0 comum 4 00.
O somador de todos sinais 300 totaliza os sinais de voz do falante 1 através de chave de entrada de sinal de voz 102, e o sinal totalizado é suprido ao codificador de voz comum 4 00.
O somador 103 subtrai o sinal de voz do falante 1 a partir do sinal de voz do falante 1, que é totalizado pelo somador de todos sinais 300, e o sinal resultante é suprido ao codificador de voz 104. O sinal de saida do codificador de voz 104 é transmitido ao falante 1 através da chave de dados de voz 106.
O sinal de voz, suprido ao codificador de voz comum 400, é transmitido aos falantes 2 e M não selecionados, através das chaves de dados de voz 116 e 196. A primeira configuração exemplar da invenção se caracteriza pelo fato de as informações armazenadas no codificador de voz comum 4000 serem copiadas no codificador de voz 104 através da chave de memória 105, no instante em que o falante 1 passa de um estado não selecionado para um estado selecionado, ou instante em que as informações armazenadas no codificador de voz comum 400 são copiadas no codificador de voz 114, através da chave de memória 115, no instante em que o falante 2 muda para selecionado.
De acordo com isto, quando se chaveia o codificador de voz com uma mudança de falante, é possível impedir que ocorra um som anormal na voz decodificada, que seria causada por uma inconsistência na memória que mostra a condição do codificador de voz.
Na primeira configuração exemplar, conquanto cada um dos somadores 103, 113, e 193 seja designado a suprir o sinal de voz obtido, subtraindo o sinal de voz do falante selecionado a partir do sinal de voz suprido pelo somador de todos sinais 300, o mesmo resultado pode ser obtido na estrutura de somar e emitir sinais de voz diferentes daqueles do falante selecionado nos sinais de voz selecionados. 2 0 (EXEMPLO OPERATIVO)
A seguir, será descrito um exemplo específico da configuração exemplar com referência à Figura 1. Em primeiro lugar, o calculador de potência 101, o calculador de potência 112, e o calculador de potência 192, calculam as potências dos sinais de voz do sinal de voz de entrada 100, do sinal de voz de entrada 110, e do sinal de voz de entrada 190, e suprem e emitem as potências calculadas ao seletor de falante 200. Por exemplo, a potência P para o sinal de voz de entrada s (n) de 8 kHz é calculada usando a Fórmula (1) a cada milisegundos (amostra 160).
n=0
Fórmula (1) onde, como exemplo, L= 160.
O seletor de falante 200 seleciona um falante ativo usando as potências de entrada dos falantes, e informa, quer selecione ou não, a chave de entrada de sinal de voz
102, a chave de entrada de sinal de voz 112, a chave de entrada de sinal de voz 192, a chave de memória 105, a chave de memória 115, e a chave de memória 195, a chave
de dados de voz 106, chave de dados de voz 116, e a chave de dados de voz 196.
Para selecionar o falante ativo, há um método para selecionar falantes graduados N (Ν < M, onde NeM são números inteiros positivos), pré-determinados em ordem decrescente de potência, e um método para selecionar um falante com uma potência maior que um certo valor. Ademais, pode ser considerado o uso do valor atenuado através da integração de escape, e não por uso direto da potência de entrada. Quando a entrada é definida como x(n) e a saída como y(n), a integração de escape é representada como: y(n) = k X y (n-1) + χ (η). Aqui, 0<k<lekum número constante.
A chave de entrada de sinal de voz 102, a chave de entrada de sinal de voz 112, e a chave de entrada de sinal de voz 192, respectivamente suprem o sinal de voz de entrada 100, o sinal de voz de entrada 110, e o sinal de voz de entrada 190, que correspondem aos falantes selecionados pelo seletor de falante 200 para o somador 103, para o somador 113, para somador 193, e para o somador de todos sinais 300.
O somador de todos sinais 300 supre o sinal de voz obtido somando todos sinais de voz de entrada para o somador
103, para o somador 113, para o somador 193, e para o codificador de voz comum 400.
O somador 103, o somador 113, e o somador 193 suprem o sinal de voz obtido, subtraindo os respectivos sinais de voz supridos pela chave de entrada de sinal de voz 102, pela chave de entrada de sinal de voz 112, e pela chave de entrada pelo somador de todos sinais de voz para o codificador de voz 104, codificador de voz 114, e codificador de voz 194, respectivamente, assim como para os falantes selecionados pelo seletor de falante 200. Na voz depois de mesma ter sido misturada, um ganho ajustável Gi indicado pela Fórmula (2) pode ser multiplicado pelo sinal de voz de entrada dos falantes i para reduzir a diferença de volume entre os falantes.
ΣΡ*'Ν
G1 =
r,
Fórmula (2)
Uma marca de referência Pi é a potência para o falante i
calculada pela fórmula (1), e N o número de sinais
misturados. Gi é calculado em um proporção inversa
à potência dos falantes, e atualizada, por exemplo,
a cada 20 milisegundos, que é um ciclo de cálculo da
potência Pi, a mesma muda muito e, portanto, pode ser
atenuada, como mostrado na fórmula (3).
G_/ = (l-a)xG_i + axG'_i Fórmula (3)
Onde, G'i mostra o ganho ajustável, que já tinha sido calculado antes. Para a, por exemplo, utiliza-se 0,9. Para evitar um ajuste excessivo do volume de som, por exemplo, a faixa de Gi pode ser limitada a 0,5 a 2. Para ajustar o volume de som do sinal de voz misturado, o ganho ajustável Ga mostrado na Fórmula (4) pode ser multiplicado pelo sinal de voz misturado. G_a = P_out/P_a Formula (4)
Onde, Pa é a potência do sinal de voz misturado calculada pela Fórmula 1, e Pout a potência do valor pretendido no instante do ajuste. Podem ser usados um valor maior do falante no sinal de voz misturado dos falantes e um valor pré-determinado de um pré-determinado nivel. A atenuação pode ser feita e a faixa pode ser limitada similarmente para o acima mencionado Gi. 0 codificador de voz comum 400 codifica o sinal de voz suprido a partir do somador de todos sinais 300 e supre os dados de voz codificados para a chave de dados de voz 106, para a chave de dados de voz 116, e para chave de dados de voz 196. O codificador de voz 104, o codificador de voz 114, e o codificador de voz 184 codificam os sinais de voz, e suprem os dados de voz codificados à chave de dados de voz 106, à chave de dados de voz 116, e à chave de dados de voz 196, quando os sinais de voz são supridos a partir do somador 103, a partir do somador 113, e a partir do somador 193.
Δ chave de memória 105, a chave de memória 115, e a chave de memória 195 suprem o conteúdo da memória na codificação diferencial do codificador de voz comum 400 respectivamente para o codificador de voz 104, para o codificador de voz 114, para o codificador de voz 194, quando o seletor de falante 200 passa para o estado de seleção de falante a partir do estado não selecionado. Devido ao processamento da chave de memória, não há nenhuma inconsistência na memória durante a codificação diferencial no instante do chaveamento da emissão dos dados de voz a partir do codificador de voz comum 400 para o codificador de voz 104, por exemplo, com respeito ao falante 1.
De outro lado, no instante do chaveamento da saida dos dados de voz de saida a partir do codificador de voz 104 para o codificador de voz comum 400, em virtude de a memória do codificador de voz comum 400 não poder ser reescrita, ocorre uma inconsistência nas memórias.
No entanto, como isto ocorre no instante em que o volume de som do falante 1 é baixo e a voz de saida do codificador de voz 104 é substancialmente igual à voz de saida para o codificador de voz comum 400, a deterioração na qualidade de som causada pela inconsistência em ambas memórias é pequena. Neste caso, para que a inconsistência nas memórias seja pequena, depois do mesmo sinal, quando a entrada do sinal de voz no codificador de voz comum 400 é suprida para o codificador de voz 104 por um breve período, a chave de dados de voz 1 pode ser chaveada para os dados de voz supridos a partir do codificador de voz comum 400. A inconsistência se torna pequena nas memórias, se usado o mesmo sinal de voz de entrada por um tempo mais longo, no entanto, ocorre um atraso necessário para chaveamento.
A chave de dados de voz 106, a chave de dados de voz 116 e a chave de dados de voz 196 suprem os dados de voz supridos a partir do codificador de voz 104, a partir do codificador de voz 114, e a partir do codificador de voz 194, quando for selecionado como falante o falante ativo no seletor de falante 200, e suprem os dados de voz a partir do codificador de voz comum 400, quando não for selecionado como falante o falante ativo no seletor de falante 200.
Nesta configuração exemplar, embora assumindo que todos codificadores de voz são iguais, vários tipos de codificadores de voz ou vários tipos de taxas de bit podem ser usados ou vários tipos de taxas de bit podem ser misturados, quando é necessário o uso de codificadores comuns para os vários tipos de codificadores ou para os vários tipos de taxas de bit. O chaveamento das memórias tem que ser feito no mesmo tipo de codificadores ou taxas de bit.
Como descrito acima, de acordo com um exemplo operativo da invenção, há a vantagem de não ocorrer nenhuma inconsistência nas memórias na codificação diferencial, no instante de chaveamento da emissão de dados de voz a partir do codificador de voz comum 400 para o codificador de voz 104, tal como, para o falante 1. SEGUNDA CONFIGURAÇÃO EXEMPLAR
A seguir, será descrita uma segunda configuração exemplar da invenção, com referência à figura 3. A figura 3 mostra vista estrutural de um servidor de conferência multiponto, de acordo com uma segunda configuração exemplar da invenção, sendo que os mesmos números de referência serão usados para os mesmos componentes da figura 1, por conseguinte omitindo sua descrição.
O decodificador de voz 501, o decodificador de voz 511, e o decodificador de voz 591 decodificam os dados de voz de entrada 500, os dados de voz de entrada 510, e os dados de voz de entrada 590, que respectivamente são codificados e suprem as vozes decodificadas para o calculador de potência 192, para a chave de entrada de sinal de voz 102, para a chave de entrada de sinal de voz 112, e para a chave de entrada de sinal de voz 192. 0 analisador de dados de voz 502, o analisador de dados de voz 512, e o analisador de dados de voz 592 suprem os resultados de análise, se os dados de voz de entrada 500, os dados de voz de entrada 510, os dados de voz de entrada 590 respectivamente são de silêncio ou ruido. Como método de análise, é usado um exemplo de um método de codificação de voz para efeito de descrição. No método de codificação de voz AMR, é realizada uma detecção de atividade de voz VAD (de Voice Activity Detection) sobre a voz de entrada para determinar se há som ou silêncio, e se for determinado silêncio, podem ser transmitidas informações cujo tipo de quadro é N0_DATA (sem dados), ou podem ser transmitidas informações do ruido de fundo como Indicação de Silêncio (SID) (de Silence Indication). Quando se determina que o tipo de quadro no cabeçalho dos dados de voz é N0_DATA ou SID, pode ser determinado como silêncio. Quando a detecção VAD não é realizada, mas cada dado de voz é codificado como tendo som, também há um método para suprir o volume de som assumido, com base em um parâmetro de ganho e de espectro incluídos nos dados de voz para o seletor de falante 201.
0 calculador de potência 101, o calculador de potência 111, e o calculador de potência 191 calculam as potências dos sinais de codificados supridos a partir do codificador de voz 501, a partir do codificador de voz 511, e a partir do codificador de voz 591, e suprem seus valores para o seletor de falante 201.
0 seletor de falante 201 seleciona o falante ativo com base no resultado da análise pelo analisador de dados de voz 502, pelo analisador de dados de voz 512, e pelo analisador de dados de voz 592, e com base nas potências supridas a partir do calculador de potência 101, a partir do calculador de potência 111, e a partir do calculador de potência 192, supre o resultado da seleção. Especificamente, há um método para selecionar N (N< M) falantes graduados em ordem decrescente de potência pré- determinada suprida a partir do calculador de potência 101, a partir do calculador de potência 111, e a partir do calculador de potência 191, e um método para selecionar os falantes tendo uma potência acima de um certo limite, quando o resultado da análise suprida a partir do analisador de dados de voz 502, a partir do analisador de dados de voz 512, e a partir do analisador de dados de voz 592 mostram que o som, ou o volume de som assumido, excede um certo limite. Como mencionado acima, de acordo com uma segunda configuração exemplar da presente invenção,
a determinação de som ou silêncio é acrescentada ao modo de seleção de falante, dai obtendo um resultado melhor que da primeira configuração exemplar. TERCEIRA CONFIGURAÇÃO EXEMPLAR
A terceira configuração exemplar se refere a um programa para instruir o computador a executar um método para misturar vozes. Referindo-se à figura 1, um controlador (não ilustrado) controla os calculadores de potência 101, 111, .·., 191, o seletor de falante 200, as chaves de entrada de sinal de voz 102, 112, .. , 192, e o somador de todos sinais 300, os somadores 103, 113, ..., 193, os codificadores de voz 104, 114, ..., 194, as chaves de memória 105, 115, ..., 195, o codificador de voz comum 400, e as chaves de dados de voz 106, 116, ..., 196, que estão incluídos no servidor de conferência multiponto. Ademais, o servidor de conferência multiponto inclui uma unidade de armazenamento (não ilustrada), e a unidade de armazenamento armazena o programa que instrui os procedimentos de processamento do método para misturar vozes, como mostrado no fluxograma da figura 2. O controlador ou computador lê o programa mencionado a partir da unidade de armazenamento, e controla os mencionados componentes com o programa. Como o conteúdo de controle já foi descrito, sua descrição é omitida. Como descrito, de acordo com a terceira configuração exemplar da invenção, pode ser obtido um programa para evitar inconsistência nas memórias na codificação diferencial no instante de chavear a emissão dos dados de voz do codificador de codificador de voz comum 400 para o codificador de voz 104, tal como, para o falante 1. Outras configurações exemplares serão descritas a seguir. Como a largura de banda de telefones celulares é muito estreita, faz-se necessário comprimir as vozes de modo eficiente com uma técnica de codificação diferencial. Quando se empregam telefones celulares em um sistema de conferência multiponto, em virtude de a capacidade dos processadores dos telefones celulares ser muito limitada, a execução da mistura de voz com telefones celulares não é possível, requerendo o uso de um servidor de conferência multiponto, em adição aos telefones celulares. A configuração exemplar da invenção é aplicável para esta situação.
Certas situações podem ser consideradas para um sistema de conferência multiponto. Uma primeira situação seria aquela em que há apenas uma pessoa em cada sala de conferência, uma segunda situação seria aquela em que há uma pluralidade de pessoas em uma pluralidade de salas de conferência e, ademais, pode ser prevista uma situação adicional em que há uma pluralidade de pares de microfones e falantes em cada sala de conferência e uma situação em que há um par de microfones e falantes em cada sala de conferência. A configuração exemplar da invenção é útil para esta situação.
De acordo com configurações exemplares da invenção, se não houver inconsistências com respeito ao conteúdo de memória na codificação, é possível evitar a ocorrência de um som anormal na voz decodificada, quando se chaveia o codificador, de acordo com uma mudança de falante. Conquanto a invenção tenha sido particularmente mostrada e descrita com referência às configurações exemplares, a mesma não será limitada por estas configurações. Ademais, deve ser entendido por aqueles habilitados na técnica que várias mudanças com respeito à forma e detalhes poderão ser feitas sem sair do espirito e escopo da invenção, como definido pelas reivindicações. INCORPORAÇÃO POR REFERÊNCIA
Este pedido de patente se baseia e reivindica os benefícios de prioridade conferidos pelo Pedido de Patente Japonês N0 20006-2322919 de 30 de Agosto de 2006, cuja descrição está incorporada nesta em sua totalidade por referência.
Claims (20)
1.- Método para misturar vozes para mixar uma pluralidade de informações de voz, caracterizado pelo fato de incluir: - uma primeira etapa para selecionar informações de voz a partir de uma pluralidade de informações de voz; uma segunda etapa para somar todas as informações de voz selecionadas; uma terceira etapa para obter informações de voz, somando as informações de voz diferentes de uma informação de voz, das citadas informações de voz. uma quarta etapa para codificar as citadas informações de voz obtidas na citada segunda etapa; uma quinta etapa para codificar as citadas informações de voz obtidas na citada terceira etapa; e uma sexta etapa para copiar as citadas informações de voz obtidas na citada quarta etapa nas citadas informações codificadas na citada quinta etapa.
2.- Método, de acordo com a reivindicação 1, caracterizado pelo fato de: na citada sexta etapa, as informações armazenadas em uma memória de um codificador, que faz a codificação na citada quarta etapa serem copiadas em um codificador que executa a codificação na citada quinta etapa.
3.- Método, de acordo com qualquer uma das reivindicações 1 ou 2, caracterizado pelo fato de adicionalmente incluir: uma sétima etapa de chavear e suprir as citadas informações codificadas obtidas na citada quarta etapa ou as citadas informações codificadas obtidas na citada quinta etapa, de acordo com o resultado selecionado na citada primeira etapa.
4.- Método, de acordo com qualquer uma das reivindicações de 1 a 3, caracterizado pelo fato de: - as informações de voz de entrada codificadas serem decodificadas e as informações de voz decodificadas serem usadas como informações de voz na citada primeira etapa.
5.- Método, de acordo com qualquer uma das reivindicações de 1 a 4, caracterizado pelo fato de:
6. missing in file na citada primeira etapa, selecionar as informações de voz de acordo com a potência de um sinal de voz das citadas informações de voz. Método, de acordo com qualquer uma das reivindicações de 1 a 5, caracterizado pelo fato de: na citada primeira etapa, selecionar as informações de voz conforme os dados de voz das citadas informações de voz sejam sonoros ou silenciosos.
7.- Método, de acordo com qualquer uma das reivindicações de 1 a 6, caracterizado pelo fato de: na citada terceira etapa, as informações de voz, que foram obtidas somando informações de voz diferentes de uma informação de voz das citadas informações de voz, serem obtidas subtraindo as citadas informações de voz selecionadas das citadas informações de voz somadas uma a uma.
8.- Método, de acordo com qualquer uma das reivindicações de 1 a 7, caracterizado pelo fato de: as citadas informações de voz serem dados codificados de um sinal de voz; na citada primeira etapa, analisar uma pluralidade de citados dados codificados, e selecionar os dados codificados a serem misturados, decodificar os citados dados codificados selecionados, e gerar um sinal de voz decodificado.
9.- Método, de acordo com qualquer uma das reivindicações de 1 a 7, caracterizado pelo fato de: as citadas informações de voz serem dados codificados de um sinal de voz; na citada primeira etapa, analisar os citados dados codificados e sinais de voz decodificados que foram obtidos decodificando os citados dados codificados, e selecionar os sinais de voz decodificados a serem misturados.
10.- Método, de acordo com qualquer uma das reivindicações 8 ou 9, caracterizado pelo fato de: na citada segunda etapa, gerar um sinal de voz totalizando todos os citados sinais de voz decodificados; na citada terceira etapa, gerar um sinal de voz totalizando os sinais de voz decodificados diferentes de um sinal de voz decodificado dos citados sinais de voz decodificados selecionados; na citada quarta etapa, executar uma codificação diferencial nos citados sinais de voz gerados na citada segunda etapa em um primeiro codificador; na citada quinta etapa, executar uma codificação diferencial nos citados sinais de voz gerados na citada terceira etapa em um segundo codificador; - na citada sexta etapa, prover um conteúdo de memória indicando o estado do segundo codificador da citada quinta etapa igual ao conteúdo de memória que indica o estado do primeiro codificador da citada quarta etapa, quando o resultado selecionado do citados sinais de voz decodificados para mistura é alterado.
11.- Método, de acordo com qualquer uma das reivindicações de 1 a 10, caracterizado pelo fato de incluir: uma etapa para ajustar a diferença de volume entre os sinais de voz para um pequeno grau de mistura.
12.- Método, de acordo com qualquer uma das reivindicações de 1 a 10, caracterizado pelo fato de incluir: uma etapa para ajustar o volume de som das vozes misturadas, de modo que este volume seja igual ao maior volume das certo nivel.
13.- Servidor de conferência multiponto que mistura uma pluralidade de informações de voz, caracterizado pelo fato de compreender: - um meio seletor para selecionar informações de voz a partir da citada pluralidade das informações de voz; um meio somador de todos sinais para somar todas informações de voz selecionadas pelos citados meios seletores; um meio somador para obter as informações de voz somando informações de voz diferentes de uma informação de voz, das citadas informações de voz selecionadas; um primeiro meio codificador para codificar as informações de voz somadas pelo citado meio somador de todos sinais; um segundo meio codificador para codificar as informações de voz somadas pelo citado meio somador; e um meio de chaveamento para copiar as citadas informações codificadas obtidas pelo citado primeiro meio codificador no citado segundo meio codificador.
14.- Servidor, de acordo com a reivindicação 13, caracterizado pelo fato de: o citado meio de chaveamento copiar a informações codificadas armazenadas em uma memória do citado primeiro meio codificador para o citado segundo meio de chaveamento, de acordo com o resultado do citado meio seletor.
15.- Servidor, de acordo com qualquer uma das reivindicações 13 ou 14, caracterizado pelo fato de adicionalmente compreender: um meio de chaveamento emissor para chavear e emitir as informações codificadas obtidas pelo citado primeiro meio codificador ou as informações codificadas obtidas pelo citado segundo meio codificador, de acordo com o resultado selecionado pelo citado meio seletor.
16.- Servidor, de acordo com qualquer uma das reivindicações de 13 a 15, caracterizado pelo fato de compreender: um meio decodificador para decodificar uma pluralidade de informações de voz codificadas de entrada, sendo que, - o citado meio seletor selecionar as informações de voz a partir da pluralidade de informações de voz decodificada pelo citado meio decodificador.
17.- Servidor, de acordo com qualquer uma das reivindicações de 13 a 16, caracterizado pelo fato de: o citado meio seletor selecionar as informações de voz de acordo com a potência do sinal de voz das citadas informações de voz.
18.- Servidor, de acordo com qualquer uma das reivindicações de 13 a 17, caracterizado pelo fato de: o citado meio seletor selecionar as informações de voz, quer os dados de voz sejam sonoros ou silenciosos.
19.- Servidor, de acordo com qualquer uma das reivindicações de 13 a 18, caracterizado pelo fato de: o citado meio somador obter as informações de voz totalizando as informações de voz diferentes da informação de voz da citada informação de voz selecionada, subtraindo a citada informação de voz selecionada das informações de voz somadas uma a uma pelo citado meio somador de todos sinais.
20.- Programa para executar mistura de vozes, de uma pluralidade de informações de voz, caracterizado pelo fato de compreender: uma primeira função para selecionar informações de voz a partir de uma pluralidade de informações de voz; uma segunda função para somar todas as informações de voz selecionadas; - uma terceira função para subtrair as citadas informações de voz a partir da citadas informações de voz somadas uma a uma; uma quarta função para codificar as informações de voz que foram obtidas na citada segunda função; - uma quinta função para codificar as informações de voz que foram obtidas na citada terceira função; e uma sexta função para copiar as informações codificadas que foram obtidas na citada quarta função nas informações codificadas obtidas na citada quinta função.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006-232919 | 2006-08-30 | ||
JP2006232919 | 2006-08-30 | ||
PCT/JP2007/067101 WO2008026754A1 (fr) | 2006-08-30 | 2007-08-28 | Procédé de mixage vocal, serveur de conférence multipoint utilisant le procédé et programme |
Publications (1)
Publication Number | Publication Date |
---|---|
BRPI0714736A2 true BRPI0714736A2 (pt) | 2013-05-07 |
Family
ID=39136033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0714736-8A BRPI0714736A2 (pt) | 2006-08-30 | 2007-08-28 | mÉtodo para misturar vozes para mixar uma pluralidade de informaÇÕes de voz, servidor de conferÊncia multiponto que mistura uma pluridade de informaÇÕpes de voz e programa para executar mistura de vozes |
Country Status (10)
Country | Link |
---|---|
US (1) | US8255206B2 (pt) |
EP (1) | EP2068544A4 (pt) |
JP (1) | JP4582238B2 (pt) |
KR (1) | KR101036965B1 (pt) |
CN (1) | CN101513030A (pt) |
BR (1) | BRPI0714736A2 (pt) |
CA (1) | CA2660007A1 (pt) |
MX (1) | MX2009002093A (pt) |
RU (1) | RU2009111270A (pt) |
WO (1) | WO2008026754A1 (pt) |
Families Citing this family (123)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
JP2010166425A (ja) * | 2009-01-16 | 2010-07-29 | Nec Corp | 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法 |
JP2010166424A (ja) * | 2009-01-16 | 2010-07-29 | Nec Corp | 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法 |
WO2010090019A1 (ja) * | 2009-02-04 | 2010-08-12 | パナソニック株式会社 | 結合装置、遠隔通信システム及び結合方法 |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9025497B2 (en) * | 2009-07-10 | 2015-05-05 | Qualcomm Incorporated | Media forwarding for a group communication session in a wireless communications system |
US9088630B2 (en) * | 2009-07-13 | 2015-07-21 | Qualcomm Incorporated | Selectively mixing media during a group communication session within a wireless communications system |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8873774B2 (en) * | 2010-07-30 | 2014-10-28 | Hewlett-Packard Development Company, L.P. | Audio mixer |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8924206B2 (en) | 2011-11-04 | 2014-12-30 | Htc Corporation | Electrical apparatus and voice signals receiving method thereof |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
CN103327014B (zh) * | 2013-06-06 | 2015-08-19 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置及*** |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US20150092615A1 (en) * | 2013-10-02 | 2015-04-02 | David Paul Frankel | Teleconference system with overlay aufio method associate thereto |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
JP6224850B2 (ja) | 2014-02-28 | 2017-11-01 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 会議における変化盲を使った知覚的連続性 |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
JP5802956B1 (ja) * | 2015-03-16 | 2015-11-04 | 株式会社アクセル | 音声合成装置、音声合成方法 |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
BR112021019785A2 (pt) | 2019-04-03 | 2021-12-07 | Dolby Laboratories Licensing Corp | Servidor de mídia para cenas de voz escalonáveis |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4456789A (en) * | 1978-03-07 | 1984-06-26 | The Post Office | Audio teleconferencing |
US5150410A (en) * | 1991-04-11 | 1992-09-22 | Itt Corporation | Secure digital conferencing system |
JPH0685932A (ja) * | 1992-09-07 | 1994-03-25 | Tech Res & Dev Inst Of Japan Def Agency | 音声ブリッジ装置 |
JPH06169349A (ja) * | 1992-11-30 | 1994-06-14 | Hitachi Ltd | N−1加算方式 |
JP3300471B2 (ja) | 1993-06-08 | 2002-07-08 | 三菱電機株式会社 | 通信制御装置 |
JPH1075310A (ja) * | 1996-08-29 | 1998-03-17 | Nec Corp | 多地点テレビ会議システム |
US6125343A (en) * | 1997-05-29 | 2000-09-26 | 3Com Corporation | System and method for selecting a loudest speaker by comparing average frame gains |
US6697476B1 (en) * | 1999-03-22 | 2004-02-24 | Octave Communications, Inc. | Audio conference platform system and method for broadcasting a real-time audio conference over the internet |
GB9915312D0 (en) * | 1999-06-30 | 1999-09-01 | Nortel Networks Corp | Conference circuit for encoded digital audio |
US6940826B1 (en) * | 1999-12-30 | 2005-09-06 | Nortel Networks Limited | Apparatus and method for packet-based media communications |
US6683858B1 (en) * | 2000-06-28 | 2004-01-27 | Paltalk Holdings, Inc. | Hybrid server architecture for mixing and non-mixing client conferencing |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
US6804340B2 (en) * | 2001-05-03 | 2004-10-12 | Raytheon Company | Teleconferencing system |
US20030223562A1 (en) * | 2002-05-29 | 2003-12-04 | Chenglin Cui | Facilitating conference calls by dynamically determining information streams to be received by a mixing unit |
US20040190701A1 (en) * | 2003-03-28 | 2004-09-30 | Versatel Networks Inc. | Apparatus and method for a distributed conference bridge |
JP2005151044A (ja) | 2003-11-13 | 2005-06-09 | Japan Science & Technology Agency | 音声ミキシング方法、音声ミキシングシステム及び音声ミキシングのためのプログラム |
JP4033840B2 (ja) | 2004-02-12 | 2008-01-16 | 日本電信電話株式会社 | 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体 |
JP2006232919A (ja) | 2005-02-23 | 2006-09-07 | Fuji Photo Film Co Ltd | コアシェル粒子の製造方法 |
US7599834B2 (en) * | 2005-11-29 | 2009-10-06 | Dilithium Netowkrs, Inc. | Method and apparatus of voice mixing for conferencing amongst diverse networks |
CA2656867C (en) * | 2006-07-07 | 2013-01-08 | Johannes Hilpert | Apparatus and method for combining multiple parametrically coded audio sources |
EP2047669B1 (de) * | 2006-07-28 | 2014-05-21 | Unify GmbH & Co. KG | Verfahren zum durchführen einer audiokonferenz, audiokonferenzeinrichtung und umschalteverfahren zwischen kodierern |
WO2008011901A1 (de) * | 2006-07-28 | 2008-01-31 | Siemens Aktiengesellschaft | Verfahren zum durchführen einer sprachkonferenz und sprachkonferenzsystem |
-
2007
- 2007-08-28 BR BRPI0714736-8A patent/BRPI0714736A2/pt not_active Application Discontinuation
- 2007-08-28 MX MX2009002093A patent/MX2009002093A/es not_active Application Discontinuation
- 2007-08-28 RU RU2009111270/09A patent/RU2009111270A/ru not_active Application Discontinuation
- 2007-08-28 JP JP2008532145A patent/JP4582238B2/ja not_active Expired - Fee Related
- 2007-08-28 US US12/438,659 patent/US8255206B2/en not_active Expired - Fee Related
- 2007-08-28 KR KR1020097004325A patent/KR101036965B1/ko not_active IP Right Cessation
- 2007-08-28 CN CNA2007800325552A patent/CN101513030A/zh active Pending
- 2007-08-28 CA CA002660007A patent/CA2660007A1/en not_active Abandoned
- 2007-08-28 WO PCT/JP2007/067101 patent/WO2008026754A1/ja active Application Filing
- 2007-08-28 EP EP07806574A patent/EP2068544A4/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
KR20090035728A (ko) | 2009-04-10 |
EP2068544A1 (en) | 2009-06-10 |
EP2068544A4 (en) | 2010-09-22 |
JPWO2008026754A1 (ja) | 2010-01-21 |
CN101513030A (zh) | 2009-08-19 |
MX2009002093A (es) | 2009-03-10 |
WO2008026754A1 (fr) | 2008-03-06 |
US20090248402A1 (en) | 2009-10-01 |
US8255206B2 (en) | 2012-08-28 |
JP4582238B2 (ja) | 2010-11-17 |
KR101036965B1 (ko) | 2011-05-25 |
CA2660007A1 (en) | 2008-03-06 |
RU2009111270A (ru) | 2010-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BRPI0714736A2 (pt) | mÉtodo para misturar vozes para mixar uma pluralidade de informaÇÕes de voz, servidor de conferÊncia multiponto que mistura uma pluridade de informaÇÕpes de voz e programa para executar mistura de vozes | |
US10424306B2 (en) | Frame erasure concealment for a multi-rate speech and audio codec | |
KR102636396B1 (ko) | 스테레오 사운드 신호를 1차 및 2차 채널로 시간 영역 다운 믹싱하기 위해 좌측 및 우측 채널들간의 장기 상관 차이를 이용하는 방법 및 시스템 | |
TWI436349B (zh) | 用於重建一被抹除語音訊框之系統與方法 | |
ES2924351T3 (es) | Codificador, decodificador y método para codificar y decodificar contenido de audio que utiliza parámetros para potenciar una ocultación | |
TWI464734B (zh) | 用於在一語音訊框內避免資訊流失的系統與方法 | |
KR100956522B1 (ko) | 음성 통신에서의 프레임 소거 은닉 | |
US6125343A (en) | System and method for selecting a loudest speaker by comparing average frame gains | |
RU2469419C2 (ru) | Способ и устройство для управления сглаживанием стационарного фонового шума | |
US8543388B2 (en) | Efficient speech stream conversion | |
BR112014017120B1 (pt) | Sistemas, métodos aparelho, e mídia legível por computador para controle de limite de criticalidade | |
US6940967B2 (en) | Multirate speech codecs | |
KR20190139872A (ko) | 멀티-소스 환경에서의 비-고조파 음성 검출 및 대역폭 확장 | |
US9984698B2 (en) | Optimized partial mixing of audio streams encoded by sub-band encoding | |
KR20060121990A (ko) | 음성 통신용 컴포트 노이즈 생성 방법 | |
Janicki et al. | Influence of speech codecs selection on transcoding steganography | |
US20130054230A1 (en) | Estimation of speech energy based on code excited linear prediction (celp) parameters extracted from a partially-decoded celp-encoded bit stream and applications of same | |
BR112019014544A2 (pt) | Modificação de parâmetro de diferença de fase entre canais | |
JP5158098B2 (ja) | 音声ミキシング装置および方法ならびに多地点会議サーバ | |
WO2014010175A1 (ja) | 符号化装置及び符号化方法 | |
Neves | Methods for quality enhancement of voice communications over erasure channels | |
Huang | Effects of vocoder distortion and packet loss on network echo cancellation | |
dos Santos Neves | Methods for quality enhancement of voice communications over erasure channels | |
JP2013054282A (ja) | 通信装置及び通信方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B11A | Dismissal acc. art.33 of ipl - examination not requested within 36 months of filing | ||
B11Y | Definitive dismissal - extension of time limit for request of examination expired [chapter 11.1.1 patent gazette] |