BR112016001244B1 - Aparelho e método para efetuar um downmix saoc de conteúdo áudio 3d - Google Patents

Aparelho e método para efetuar um downmix saoc de conteúdo áudio 3d Download PDF

Info

Publication number
BR112016001244B1
BR112016001244B1 BR112016001244-5A BR112016001244A BR112016001244B1 BR 112016001244 B1 BR112016001244 B1 BR 112016001244B1 BR 112016001244 A BR112016001244 A BR 112016001244A BR 112016001244 B1 BR112016001244 B1 BR 112016001244B1
Authority
BR
Brazil
Prior art keywords
audio
channels
information
depending
signals
Prior art date
Application number
BR112016001244-5A
Other languages
English (en)
Other versions
BR112016001244A2 (pt
Inventor
Sascha Disch
Harald Fuchs
Oliver Hellmuth
Jürgen Herre
Adrian Murtaza
Falko Ridderbusch
Leon Terentiv
Jouni PAULUS
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20130177378 external-priority patent/EP2830045A1/en
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Publication of BR112016001244A2 publication Critical patent/BR112016001244A2/pt
Publication of BR112016001244B1 publication Critical patent/BR112016001244B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/006Systems employing more than two channels, e.g. quadraphonic in which a plurality of audio signals are transformed in a combination of audio signals and modulated signals, e.g. CD-4 systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)

Abstract

aparelho e método para efetuar um downmix saoc de conteúdo áudio 3d. é fornecido um aparelho para gerar um ou mais canais de saída áudio. o aparelho inclui um processador de parâmetros (110) para calcular a informação de mistura do canal de saída e um processador de downmix (120) para gerar um ou mais canais de saída. o processador de downmix (120) está configurado para receber um sinal de transporte áudio que inclui um ou mais canais de transporte áudio, sendo que dois ou mais sinais do objeto áudio são misturados no sinal de transporte áudio, e sendo que o número do um ou mais canais de transporte é menor do que o número dos dois ou mais sinais do objeto áudio. o sinal de transporte áudio depende de uma primeira regra de mistura e de uma segunda regra de mistura. a primeira regra de mistura indica como misturar os dois ou mais sinais do objeto áudio para obter uma variedade de canais pré-misturados. além do mais, a segunda regra de mistura indica como misturar a variedade de canais pré-misturados para obter o um ou mais canais de transporte do sinal de transporte áudio do sinal de transporte áudio. o processador de parâmetros (110) está configurado para receber informações sobre a segunda regra de mistura, sendo que as informações sobre a segunda regra de mistura indicam como misturar a variedade de sinais pré-misturados de modo a que o um ou mais canais de transporte áudio sejam obtidos. além do mais, o processador de parâmetros (110) está configurado para calcular as informações de mistura do canal de saída dependendo de um número de objetos áudio que indicam o número dos dois ou mais sinais do objeto áudio, dependendo de um número de canais pré-misturados, que indicam o número da variedade de canais pré-misturados e dependendo das informações sobre a segunda regra de mistura. o processador de downmix (120) está configurado para gerar o um ou mais canais de saída áudio a partir do sinal de transporte áudio dependendo das informações de mistura do canal de saída. fig. 1

Description

[001] A presente invenção refere-se à codificação/descodificação áudio, em particular à codificação áudio espacial e à codificação do objeto áudio espacial e, mais em particular, a um aparelho e método para efetuar um downmix SAOC de conteúdo áudio 3D e a um aparelho e método para descodificar eficazmente o downmix SAOC de conteúdo áudio 3D.
[002] As ferramentas de codificação áudio espacial são bem conhecidas dos especialistas e, por exemplo, estão padronizadas no padrão de envolvência MPEG. A codificação áudio espacial inicia-se a partir dos canais de entrada originais, como cinco ou sete canais, que estão identificados através da sua localização numa configuração de reprodução, ou seja, um canal esquerdo, um canal central, um canal direito, um canal envolvente esquerdo, um canal envolvente direito e um canal de melhoria da frequência baixa. Um codificador áudio espacial obtém normalmente um ou mais canais de downmix a partir dos canais originais e, adicionalmente, obtém dados paramétricos relativos aos sinais espaciais, tais como, diferenças do nível intercanal, diferenças da fase intercanal, diferenças do tempo intercanal, etc. O um ou mais canais de downmix são transmitidos em conjunto com a informação lateral paramétrica que indica os sinais espaciais para um descodificador áudio espacial que descodifica o canal de downmix e os dados paramétricos associados de modo a obter finalmente canais de saída que são uma versão aproximada dos canais de entrada originais. A colocação dos canais na configuração de saída é normalmente fixa, por exemplo, um formato 5.1, um formato 7.1, etc.
[003] Esses formatos áudio baseados no canal são amplamente utilizados para guardar ou transmitir conteúdos áudio multicanal onde cada canal se refere a um altifalante específico numa determinada posição. Uma reprodução fiel deste tipo de formatos requer uma configuração do altifalante onde os altifalantes estão localizados nas mesmas posições dos altifalantes utilizados durante a produção dos sinais áudio. Embora aumentar o número de altifalantes melhore a reprodução de cenários áudio 3D verdadeiramente imersivos, torna-se cada vez mais difícil preencher este requisito - especialmente num ambiente doméstico como uma sala de estar.
[004] A necessidade de ter uma configuração do altifalante específica pode ser ultrapassada por uma abordagem baseada em objetos, onde os sinais do altifalante são transformados especificamente para a configuração de reprodução.
[005] Por exemplo, as ferramentas de codificação do objeto áudio espacial são bem conhecidas e estão padronizadas, por exemplo, na norma MPEG SAOC (SAOC = codificação do objeto áudio espacial). Em contraste com a codificação áudio espacial que se inicia a partir dos canais originais, a codificação do objeto áudio espacial inicia-se a partir dos objetos áudio que são automaticamente atribuídos a uma determinada configuração de transformação da reprodução. Em vez disso, a colocação dos objetos áudio no cenário de reprodução é flexível e pode ser determinada pelo utilizador inserindo determinada informação de transformação num descodificador da codificação do objeto áudio espacial. Em alternativa ou adicionalmente, a informação de transformação, isto é, a informação sobre em que posição na configuração de reprodução um determinado objeto áudio vai ser colocado normalmente ao longo do tempo, pode ser transmitida como informação lateral adicional ou meta dados. De modo a obter uma determinada compressão dos dados, são codificados vários objetos áudio através de um codificador SAOC que calcula, a partir dos objetos de entrada, um ou mais canais de transporte submisturando os objetos de acordo com determinada informação de downmix. Adicionalmente, o codificador SAOC calcula a informação lateral paramétrica que representa os sinais inter-objeto, como as diferenças de nível do objeto (OLD), valores de coerência do objeto, etc. Os dados paramétricos inter-objeto são calculados para as frações de tempo/frequência do parâmetro, isto é, para uma determinada estrutura do sinal áudio que inclui, por exemplo, as amostras 1024 ou 2048, 28, 20, 14 ou 10, etc., são consideradas bandas de processamento de modo a que, no final, os dados paramétricos existam para cada estrutura e para cada banda de processamento. Como exemplo, quando uma peça áudio possui 20 estruturas e quando cada estrutura está subdividida em 28 bandas de processamento, o número de frações de tempo/frequência é de 560.
[006] Numa abordagem baseada no objeto, o campo de som é descrito por objetos áudio descontínuos. Isto requer meta dados do objeto que descrevem, entre outros, a posição de variação do tempo de cada fonte de som no espaço 3D.
[007] Um primeiro conceito de codificação de meta dados na versão anterior consiste no formato de intercâmbio da descrição do som espacial (SpatDIF), um formato da descrição do cenário áudio que ainda está em desenvolvimento [M1]. Foi desenvolvido como um formato de intercâmbio para cenários de som baseados no objeto e não fornece nenhum método de compressão para as trajetórias do objeto. O SpatDIF utiliza o formato de Controlo de Som Aberto (OSC) baseado em texto para estruturar os metadados do objeto [M2]. Contudo, uma representação baseada em texto, não é uma opção para a transmissão comprimida das trajetórias do objeto.
[008] Outro conceito de meta dados na versão anterior é o Formato da Descrição do Cenário Áudio (ASDF) [M3], uma solução baseada em texto que possui as mesmas vantagens. Os dados são estruturados através de uma extensão da Linguagem de Integração Multimédia Sincronizada (SMIL), que consiste num subconjunto da Linguagem de Marcação Extensível (XML) [M4], [M5].
[009] Um outro conceito de meta dados na versão anterior é o formato binário áudio para cenários (AudioBIFS), um formato binário que faz parte da especificação MPEG-4 [M6], [M7]. Está intimamente relacionado com a Linguagem de Modelação da Realidade Virtual (VRML) baseada em XML, que foi desenvolvida para a descrição dos cenários 3D audiovisuais e aplicações de realidade virtual interativa [M8]. A especificação AudioBFIS complexa utiliza gráficos de cenas para especificar os percursos dos movimentos do objeto. Uma importante vantagem do AudioBFIS é que não foi desenvolvido para o funcionamento em tempo real onde seja um requisito um atraso limitado ao sistema e um acesso aleatório ao fluxo de dados. Além do mais, a codificação das posições do objeto não explora o desempenho da localização limitada dos ouvintes humanos. Para uma posição fixa do ouvinte no cenário audiovisual, os dados do objeto podem ser quantificados com um número muito inferior de bits [M9]. Assim, a codificação dos meta dados do objeto que é aplicado no AudioBFIS não é eficiente em relação à compressão dos dados.
[010] O objeto da presente invenção é fornecer conceitos melhorados para o conteúdo áudio de downmix. O objeto da presente invenção é resolvido através de um aparelho de acordo com a reivindicação 1, por um aparelho de acordo com a reivindicação 9, por um sistema de acordo com a reivindicação 12, por um método de acordo com a reivindicação 13, por um método de acordo com a reivindicação 14 e por um programa de computador de acordo com a reivindicação 15.
[011] De acordo com as versões, é efetuado o transporte eficiente e são fornecidos meios sobre como descodificar o downmix para o conteúdo áudio 3D.
[012] É fornecido um aparelho para gerar um ou mais canais de saída áudio. O aparelho inclui um processador de parâmetros para calcular a informação de mistura do canal de saída e um processador de downmix para gerar um ou mais canais de saída. O processador de downmix está configurado para receber um sinal de transporte áudio que inclui um ou mais canais de transporte áudio, sendo que dois ou mais sinais do objeto áudio são misturados no sinal de transporte áudio, e sendo que o número de um ou mais canais de transporte é menor do que o número de dois ou mais sinais do objeto áudio. O sinal de transporte áudio depende de uma primeira regra de mistura e de uma segunda regra de mistura. A primeira regra de mistura indica como misturar os dois ou mais sinais do objeto áudio para obter uma variedade de canais pré-misturados. Além do mais, a segunda regra de mistura indica como misturar a variedade de canais pré-misturados para obter um ou mais canais de transporte do sinal de transporte áudio. O processador de parâmetros está configurado para receber informações sobre a segunda regra de mistura, sendo que as informações sobre a segunda regra de mistura indica como misturar a variedade de sinais pré-misturados de modo a que um ou mais canais de transporte áudio sejam obtidos. Além do mais, o processador de parâmetros está configurado para calcular as informações de mistura do canal de saída dependendo de um número de objetos áudio que indicam o número de dois ou mais sinais do objeto áudio, dependendo de um número de canais pré-misturados, que indica o número da variedade de canais pré-misturados e dependendo das informações sobre a segunda regra de mistura. O processador de downmix está configurado para gerar um ou mais canais de saída áudio a partir do sinal de transporte áudio dependendo da informação de mistura do canal de saída.
[013] Além do mais, é fornecido um aparelho para gerar um sinal de transporte áudio que inclui um ou mais canais de transporte áudio. O aparelho inclui um misturador de objetos para gerar o sinal de transporte áudio que inclui um ou mais canais de transporte áudio a partir de dois ou mais sinais do objeto áudio, de modo a que dois ou mais sinais do objeto áudio sejam misturados no sinal de transporte áudio, e sendo que o número de um ou mais canais de transporte áudio seja menor do que o número de dois ou mais sinais do objeto áudio e uma interface de saída para emissão do sinal de transporte áudio. O misturador de objetos está configurado para gerar um ou mais canais de transporte áudio do sinal de transporte áudio dependendo de uma primeira regra de mistura e dependendo de uma segunda regra de mistura, sendo que a primeira regra de mistura indica como misturar os dois ou mais sinais do objeto áudio para obter uma variedade de canais pré-misturados, e sendo que a segunda regra de mistura indica como misturar a variedade de canais pré-misturados para obter um ou mais canais de transporte áudio do sinal de transporte áudio. A primeira regra de mistura depende de um número de objetos áudio que indica o número de dois ou mais sinais do objeto áudio, e depende de um número de canais pré-misturados, que indica o número da variedade de canais pré-misturados e sendo que a segunda regra de mistura depende do número de canais pré-misturados. A interface de saída está configurada para a informação de saída na segunda regra de mistura.
[014] Além do mais, é fornecido um sistema. O sistema inclui um aparelho para gerar um sinal de transporte áudio conforme acima descrito e um aparelho para gerar um ou mais canais de saída áudio conforme acima descrito. O aparelho para gerar um ou mais canais de saída áudio está configurado para receber o sinal de transporte áudio e a informação sobre a segunda regra de mistura a partir do aparelho para gerar um sinal de transporte áudio. Além do mais, o aparelho para gerar um ou mais canais de saída áudio está configurado para gerar um ou mais canais de saída áudio a partir do sinal de transporte áudio dependendo da informação sobre a segunda regra de mistura.
[015] Além do mais, é fornecido um método para gerar um ou mais canais de saída áudio. O método inclui:
[016] - Recepção de um sinal de transporte áudio que inclui um ou mais canais de transporte áudio, sendo que dois ou mais sinais do objeto áudio são misturados no sinal de transporte áudio e sendo que o número de um ou mais canais de transporte áudio é menor que o número de dois ou mais sinais do objeto áudio, sendo que o sinal de transporte áudio depende de uma primeira regra de mistura e de uma segunda regra de mistura, sendo que a primeira regra de mistura indica como misturar os dou mais sinais do objeto áudio para obter uma variedade de canais pré-misturados e sendo que a segunda regra de mistura indica como misturar a variedade dos canais pré-misturados para obter um ou mais canais de transporte áudio do sinal de transporte áudio.
[017] - Recepção da informação sobre a segunda regra de mistura, sendo que a informação sobre a segunda regra de mistura indica como misturar a variedade de sinais pré-misturados de modo a que sejam obtidos um ou mais canais de transporte áudio.
[018] - Cálculo da informação de mistura do canal de saída dependendo de um número de objetos áudio que indica o número de dois ou mais sinais do objeto áudio, dependendo de um número de canais pré-misturados que indica o número da variedade de canais pré-misturados e dependendo da informação sobre a segunda regra de mistura. E:
[019] - Geração de um ou mais canais de saída áudio a partir do sinal de transporte áudio dependendo da informação sobre a mistura do canal de saída.
[020] Além do mais, é fornecido um método para gerar um sinal de transporte áudio que inclui um ou mais canais de transporte áudio. O método inclui:
[021] - Geração do sinal de transporte áudio que inclui um ou mais canais de transporte áudio a partir de dois ou mais sinais do objeto áudio.
[022] - Emissão do sinal de transporte áudio. E:
[023] - Emissão da informação sobre a segunda regra de mistura.
[024] É efetuada a geração do sinal de transporte áudio que inclui um ou mais canais de transporte áudio a partir de dois ou mais sinais do objeto áudio, de modo a que dois ou mais sinais do objeto áudio sejam misturados no sinal de transporte áudio, sendo que o número de um ou mais canais de transporte áudio seja menor do que o número de dois ou mais sinais do objeto áudio. É efetuada a geração de um ou mais canais de transporte áudio do sinal de transporte áudio dependendo de uma primeira regra de mistura e dependendo de uma segunda regra de mistura, sendo que a primeira regra de mistura indica como misturar os dois ou mais sinais do objeto áudio para obter uma variedade de canais pré-misturados, e sendo que a segunda regra de mistura indica como misturar a variedade de canais pré- misturados para obter um ou mais canais de transporte áudio do sinal de transporte áudio. A primeira regra de mistura depende de um número de objetos áudio que indica o número de dois ou mais sinais do objeto áudio, e depende de um número de canais pré-misturados, que indica o número da variedade de canais pré- misturados. A segunda regra de mistura depende do número de canais pré- misturados.
[025] Além do mais, é fornecido um programa de computador para implementar o método acima descrito quando é executado num computador ou num processador de sinal.
[026] De seguida, são descritas as versões da presente invenção mais em pormenor com referência às figuras, nas quais:
[027] A Fig. 1 ilustra um aparelho para gerar um ou mais canais de saída áudio de acordo com uma versão,
[028] A Fig. 2 ilustra um aparelho para gerar um sinal de transporte áudio que inclui um ou mais canais de saída áudio de acordo com uma versão,
[029] A Fig. 3 ilustra um sistema de acordo uma versão,
[030] A Fig. 4 ilustra uma primeira versão de um codificador áudio 3D,
[031] A Fig. 5 ilustra uma primeira versão de um descodificador áudio 3D,
[032] A Fig. 6 ilustra uma segunda versão de um codificador áudio 3D,
[033] A Fig. 7 ilustra uma segunda versão de um descodificador áudio 3D,
[034] A Fig. 8 ilustra uma terceira versão de um codificador áudio 3D,
[035] A Fig. 9 ilustra uma terceira versão de um descodificador áudio 3D,
[036] A Fig. 10 ilustra a posição de um objeto áudio um espaço tridimensional a partir de uma origem expressa pelo azimute, elevação e raio, e
[037] A Fig. 11 ilustra as posições dos objetos áudio e uma configuração do altifalante assumida pelo gerador do canal áudio.
[038] Antes de se descreverem as versões preferenciais da presente invenção com mais pormenor, é descrito o novo Sistema de Códigos Áudio 3D.
[039] Na versão anterior, não existia nenhuma tecnologia flexível que combinasse a codificação do canal, por um lado, e a codificação do objeto, por outro lado, de modo a que fossem obtidas qualidades áudio aceitáveis a taxas de bit baixas.
[040] Esta limitação é ultrapassada pelo nodo Sistema de Códigos Áudio 3D.
[041] Antes de se descreverem as versões preferenciais com mais pormenor, é descrito o novo Sistema de Códigos Áudio 3D.
[042] A Fig. 4 ilustra um codificador áudio 3D de acordo com uma versão da presente invenção. O codificador áudio 3D está configurado para codificar os dados de entrada áudio 101 para obter dados de saída áudio 501. O codificador áudio 3D inclui uma interface de entrada para receber uma variedade de canais áudio indicados por CAN e uma variedade de objetos áudio indicados por OBJ. Além do mais, conforme ilustrado na Fig. 4, a interface de entrada 1100 recebe adicionalmente os meta dados relativos a uma ou mais variedades de objetos áudio OBJ. Além do mais, o codificador áudio 3D inclui um misturador 200 para misturar a variedade de objetos e a variedade de canais para obter uma variedade de canais pré-misturados, sendo que cada canal pré-misturado inclui dados áudio de um canal e dados áudio de pelo menos um objeto.
[043] Além do mais, o codificador áudio 3D inclui um codificador central 300 para a codificação central os dados de entrada do codificador central, um compressor de meta dados 400 para comprimir os meta dados relativos a uma ou mais variedades dos objetos áudio.
[044] Além do mais, o codificador áudio 3D pode incluir um controlador de modo 600 para controlo do misturador, o codificador central e/ou uma interface de saída 500 num dos vários modos operativos, sendo que no primeiro modo, o codificador central está configurado para codificar a variedade de canais áudio e a variedade de objetos áudio recebidos pela interface de entrada 1100 sem qualquer interação pelo misturador, isto é, sem qualquer mistura pelo misturado 200. Contudo, num segundo modo, no qual o misturador 200 estava ativo, o codificador central codifica a variedade de canais misturados, isto é, a saída gerada pelo bloco 200. Neste último caso, é preferível não codificar mais quaisquer dados do objeto. Em vez disso, os meta dados que indicam as posições dos objetos áudio, estão já a ser utilizados pelo misturador 200 para transformar os objetos em canais conforme indicado pelos meta dados. Por outras palavras, o misturador 200 utiliza os meta dados relativos à variedade de objetos áudio para pré-transformar os objetos áudio e, de seguida, os objetos pré-transformados são misturados com os canais para se obter canais misturados na saída do misturador. Nesta versão, nem todos os objetos têm necessariamente que ser transmitidos e isto aplica-se também aos meta dados comprimidos como saída pelo bloco 400. Contudo, se nem todos os objetos que entram na interface 1100 forem misturados, mas for misturada apenas uma determinada quantidade de objetos, então apenas são transmitidos os objetos restantes não misturados e os meta dados associados ao codificador central 300 ou ao compressor de meta dados 400 respetivamente.
[045] A Fig. 6 ilustra uma outra versão de um codificador áudio 3D que, adicionalmente, inclui um codificador SAOC 800. O codificador SAOC 800 está configurado para gerar um ou mais canais de transporte e dados paramétricos a partir dos dados de entrada do codificador do objeto áudio espacial Conforme ilustrado na Fig. 6, os dados de entrada do codificador do objeto áudio espacial são objetos que não foram processados pelo pré-transformador/misturador. Em alternativa, desde que o pré-transformador/misturador tenha sido ignorado tal como no modo um, onde uma codificação do canal/objeto individual está ativa, todos os objetos inseridos na interface de entrada 1100 são codificados pelo codificador SAOC 800.
[046] Além do mais, conforme ilustrado na Fig. 6, o codificador central 300 é preferencialmente implementado como um codificador USAC, isto é, como um codificador conforme definido e padronizado no padrão MPEG-USAC (USAC = Discurso Unificado e Codificação Áudio). A saída do codificador áudio 3D completo ilustrado na Fig. 6 consiste num fluxo de dados MPEG 4, fluxo de dados MPEG H ou fluxo de dados áudio 3D, com estruturas tipo recipiente para tipos de dados individuais. Além do mais, os meta dados indicados como dados "OAM" e o compressor de meta dados 400 na Fig. 4, correspondem ao codificador OAM 400 para obter dados OAM comprimidos que são inseridos no codificador USAC 300, o qual, conforme observado na Fig. 6, inclui adicionalmente a interface de saída para obter o fluxo de dados de saída MP4, que possui não apenas os dados do canal/objeto codificado, como também os dados OAM comprimidos.
[047] A Fig. 8 ilustra uma outra versão do codificador áudio 3D, onde, em contraste com a Fig. 6, o codificador SAOC pode estar configurado para codificar, com o algoritmo de codificação SAOC, os canais fornecidos no pré- transformador/misturador 200 não ativo neste modo ou, em alternativa, para codificação SAOC dos canais mais objetos pré-transformados. Assim, na Fig. 8 o codificador SAOC 800 pode funcionar em três tipos diferentes de dados de entrada, isto é, canais sem quaisquer objetos pré-transformados, canais e objetos pré- transformados ou apenas objetos. Além do mais, é preferível fornecer um descodificador OAM adicional 420 na Fig., 8, como o que o codificador SAOC 800 utiliza, para o seu processamento dos mesmos dados como no lado do descodificador, isto é, dados obtidos por uma compressão com perdas em vez dos dados OAM originais.
[048] O codificador áudio 3D da Fig. 8 pode funcionar em vários modos individuais.
[049] Adicionalmente aos primeiro e segundo modos, conforme mencionado no contexto da Fig. 4, o codificador áudio 3D da Fig. 8 pode funcionar também num terceiro modo, no qual o codificador central gera um ou mais canais de transporte a partir de objetos individuais quando o pré-transformador/misturador 200 não está ativo. Em alternativa ou adicionalmente, neste terceiro modo, o codificador SAOC 800 pode gerar um ou mais canais de transporte alternativos ou adicionais a partir dos canais originais, isto é, novamente quando o pré-transformador/misturador 200 correspondente ao misturador 200 da Fig. 4 não está ativo.
[050] Finalmente, o codificador SAOC 800 pode codificar, quando o codificador áudio 3D está configurado no quarto modo, o canal mais os objetos pré- transformados conforme gerados pelo pré-transformador/misturador. Assim, no quarto modo, as aplicações de taxa bit mais baixa irão fornecer boa qualidade devido ao facto dos canais e objetos terem sido completamente transformados em canais de transporte SAOC individuais e informação lateral associada conforme indicado nas Figs. 3 e 5 como "SAOC-SI" e, adicionalmente, os meta dados comprimidos não têm que ser transmitidos neste quarto modo.
[051] A Fig. 5 ilustra um descodificador áudio 3D de acordo com uma versão da presente invenção. O descodificador áudio 3D recebe, como uma entrada, os dados áudio codificados, isto é, os dados 501 da Fig. 4.
[052] O descodificador áudio 3D inclui um descompressor de meta dados 1400, um descodificador centra 1300, um processador de objetos 1200, um controlador de modo 1600 e um pós-processador 1700.
[053] Especificamente, o descodificador áudio 3D está configurado para descodificar os dados áudio codificados e a interface de entrada está configurada para receber os dados áudio codificados, sendo que os dados áudio codificados incluem uma variedade de canais codificados e a variedade de objetos codificados e meta dados comprimidos relativos à variedade de objetos num determinado modo.
[054] Além do mais, o descodificador central 1300 está configurado para descodificar a variedade de canais codificados e a variedade de objetos codificados e, adicionalmente, o descompressor de meta dados está configurado para descomprimir os meta dados comprimidos.
[055] Além do mais, o processador de objetos 1200 está configurado para processar a variedade de objetos descodificados conforme gerados pelo descodificador central 1300 utilizando os meta dados descomprimidos para obter um número pré-determinado de canais de saída que incluem dados do objeto e os canais descodificados. Estes canais de saída, conforme indicado em 1205, são depois inseridos num pós-processador 1700. O pós-processador 1700 está configurado para converter o número de canais de saída 1205 num determinado formato de saída que pode ser um formato de saída binauricular ou um formato de saída do altifalante, como o formato de saída 5.1, 7.1, etc.
[056] Preferencialmente, o descodificador áudio 3D inclui um controlador de modo 1600 que está configurado para analisar os dados codificados para detetar uma indicação de modo. Desse modo, o controlador de modo 1600 é ligado à interface de saída 1100 na Fig. 5. Contudo, em alternativa, o controlador de modo não tem necessariamente que estar aqui. Em vez disso, o descodificador áudio flexível pode ser pré-configurado por qualquer outro tipi de dados de controlo, tais como uma entrada do utilizador ou qualquer outro controlo. O descodificador áudio 3D na Fig. 5, e preferencialmente controlado pelo controlador de modo 1100, está configurado para ignorar o processador de objetos e para enviar a variedade de canais descodificados para o pós-processador 1700. Isto é o modo de funcionamento 2, isto é, no qual apenas são recebidos os canais pré- transformados, ou seja, quando o modo 2 é aplicado no codificador áudio 3D da Fig. 4. Em alternativa, quando o modo 1 é aplicado no codificador áudio 3D, ou seja, quando o codificador áudio 3D efetua a codificação dos canais/objetos individuais, então o processador de objetos 1200 não é ignorado, mas a variedade de canais descodificados e a variedade de objetos descodificados é enviada para o processador de objetos 1200 em conjunto com os meta dados descomprimidos gerados pelo descompressor de meta dados 1400.
[057] Preferencialmente, a indicação se o modo 1 ou o modo 2 é aplicado, está incluída nos dados áudio codificados e depois o controlador de modo 1600 analisa os dados codificados para detetar uma indicação do modo. O modo 1 é utilizado quando a indicação do modo indica que os dados áudio codificados incluem canais codificados e objetos codificados e o modo 2 é aplicado quando a indicação do modo indica que os dados áudio codificados não possuem objetos áudio, isto é, possuem apenas os canais pré-transformados obtidos pelo modo 3 do codificado áudio 3D da Fig. 4.
[058] A Fig. 7 ilustra uma versão preferencial comparada ao descodificador áudio 3D da Fig. 5 e a versão da Fig. 7 corresponde ao codificador áudio 3D da Fig. 6. Para além da implementação do descodificador áudio 3D da Fig. 5, o descodificador áudio 3D na Fig. 7 inclui um descodificador SAOC 1800. Além do mais, o processador de objetos 1200 da Fig. 5 é implementado como um transformador de objetos individual 1210 e o misturador 1220, embora, dependendo do modo, a funcionalidade do transformador de objetos 1210 pode ser também implementada pelo descodificador SAOC 1800.
[059] Além do mais, o pós-processador 1700 pode ser implementado como um transformador binauricular 1710 ou como um conversor de formato 1720. Em alternativa, pode ser também implementada uma saída direta de dados 1205 da Fig., 5 conforme ilustrado por 1730. Desse modo, é preferível efetuar o processamento no descodificador no número mais elevado de canais, como 22.2 ou 32 de modo a obter flexibilidade e a pós-processar depois se for necessário um formato mais pequeno. Contudo, quando se torna claro desde o início que é apenas necessário um formato diferente com um número inferior de canais como um formato 5.1, então é preferível, conforme indicado pela Fig. 9 pelo atalho 1727, que possa ser aplicado um determinado controlo no descodificador SAOC e/ou no descodificador USAC de modo a evitar operações de sobremistura desnecessárias e subsequentes operações de downmix.
[060] Numa versão preferencial da presente invenção, o processador de objetos 1200 inclui o descodificador SAOC 1800 e o descodificador SAOC está configurado para descodificar uma ou mais saídas dos canais de transporte através do descodificador central e dados paramétricos associados e utilizando os meta dados descomprimidos para obter a variedade de objetos áudio transformados. Para este fim, a saída OAM está ligada à caixa 1800.
[061] Além do mais, o processador de objetos 1200 está configurado para transformar os objetos descodificados emitidos pelo descodificador central, que não estejam codificados nos canais de transporte SAOC mas que estejam individualmente codificados em elementos canalizados tipicamente individuais conforme indicado pelo transformador de objetos 1210. Além do mais, o descodificador inclui uma interface de saída correspondente à saída 1730 para emissão de uma saída do misturador para os altifalantes.
[062] Numa outra versão, o processador de objetos 1200 inclui um descodificador da codificação do objeto áudio espacial 1800 para descodificação de um ou mais canais de transporte e informação lateral paramétrica associada, que representa os sinais áudio codificados ou canais áudio codificados, sendo que o descodificador da codificação do objeto áudio espacial está configurado para transcodificar a informação paramétrica associada e os meta dados descomprimidos em informação lateral paramétrica transcodificada usada para transformar diretamente o formato de saída, como por exemplo definido numa versão anterior do SAOC. O pós-processador 1700 está configurado para calcular os canais áudio do formato de saída utilizando os canais de transporte descodificados e a informação lateral paramétrica transcodificada. O processamento efetuado pelo pós-processador pode ser similar ao processamento Envolvente MPEG ou pode ser qualquer outro processamento como o processamento BCC ou outro.
[063] Numa outra versão, o processador de objetos 1200 inclui um descodificador da codificação do objeto áudio espacial 1800 configurado para sobremisturar e transformar diretamente os sinais do canal para o formato de saída utilizando os canais de transporte descodificados (pelo descodificador central) e a informação lateral paramétrica.
[064] Além do mais, e muito importante, o processador de objetos 1200 da Fig. 5 inclui também o misturador 1220, que recebe diretamente, como entrada, a saída de dados através do descodificador USAC 1300 quando existem objetos pré- transformados misturados com canais, isto é, quando o misturador 1200 da Fig. 4 estava ativo. Adicionalmente, o misturador 1220 recebe dados do transformador de objetos para efetuar a transformação dos objetos sem a descodificação SAOC. Além do mais, o misturador recebe dados de saída do descodificador SAOC, isto é, objetos transformados SAOC.
[065] O misturador 1220 está ligado à interface de saída 1730, ao transformador binauricular 1710 e ao conversor de formato 1720. O transformador binauricular 1710 está configurado para transformar os canais de saída em dois canais biauriculares utilizando funções de transferência ou respostas ao impulso da sala binauricular (BRIR) relativas à cabeça O conversor de formato 1720 está configurado para converter os canais de saída num formato de saída com um número inferior de canais aos canais de saída 1205 do misturador e o conversor de formato 1720 requer informações sobre a disposição de reprodução, como por exemplo altifalantes 5.1 ou outros.
[066] O descodificador áudio 3D da Fig. 9 é diferente do descodificador áudio 3D da Fig. 7, já que o descodificador SAOC não só pode gerar objetos transformados como também canais transformados, e é este o caso quando foi utilizado o codificador áudio 3D da Fig. 8 e está ativa a ligação 900 entre os canais/objetos pré-transformados e a interface de entrada do codificador SAOC 800.
[067] Além do mais, está configurada uma fase tangente da amplitude da base do vetor (VBAP) 1810, que recebe, a partir do descodificador SAOC, informações sobre a disposição de reprodução e qual emite uma matriz de transformação para o descodificador SAOC, de modo a que o descodificador SAOC possa, no final, fornecer canais transformados sem qualquer outra operação do misturador no formato de canal elevado de 1205, isto é, altifalantes 32.
[068] O bloco VBAP recebe preferencialmente os dados OAM descodificados para obter as matrizes de transformação. Mais em geral, requer preferencialmente informação geométrica, não apenas da disposição de reprodução, mas também das posições onde os sinais de entrada devem ser transformados na disposição de reprodução. Estes dados de entrada geométricos podem ser dados OAM para a informação da posição dos objetos ou canal para os canais que foram transmitidos utilizando o SAOC.
[069] Contudo, se for apenas necessária uma interface de saída específica, o estado VBAP 1810 pode já fornecer a matriz de transformação necessária para, por exemplo, a saída 5.1. O descodificador SAOC 1800 efetua então uma transformação direta a partir dos canais de transporte SAOC, dados paramétricos associados e meta dados descomprimidos, uma transformação direta para o formato de saída necessário sem qualquer interação do misturador 1220. Contudo, quando é aplicada uma determinada mistura entre os modos, isto é, quando vários canais estão codificados em SAOC mas nem todos os canais estão codificados em SAOC ou quando vários objetos estão codificados em SAOC mas nem todos os objetos estão codificados em SAOC ou quando apenas uma determinada quantidade de objetos pré-transformados com canais estão descodificados em SAOC e os restantes canais não são processados em SAOC, então o misturador irá reunir os dados das várias porções de entrada individuais, ou seja, diretamente a partir do descodificador central 1300, a partir do transformador de objetos 1210 e a partir do descodificador SAOC 1800.
[070] No áudio 3D, é utilizado um ângulo azimute, um ângulo de elevação e um raio para definir a posição de um objeto áudio. Além do mais, poderá ser transmitido um ganho para um objeto áudio.
[071] O ângulo azimute, o ângulo de elevação e o raio definem sem ambiguidade a posição de um objeto áudio num espaço 3D a partir de uma origem. Isto é ilustrado em referência à Fig. 10.
[072] A Fig. 10 ilustra a posição 410 de um objeto áudio num espaço tridimensional (3D) a partir de uma origem (400) expressa pelo azimute, elevação e raio.
[073] O ângulo azimute especifica, por exemplo, um ângulo no plano xy (o plano definido pelo eixo x e pelo eixo y). O ângulo de elevação define, por exemplo, um ângulo no plano xz (o plano definido pelo eixo x e pelo eixo z). Ao especificar o ângulo azimute e o ângulo de elevação, pode ser definida a linha reta 415 através da origem 400 e da posição 410 do objeto áudio. Ao especificar mais o raio, pode ser definida a posição exata 410 do objeto áudio.
[074] Numa versão, o ângulo azimute é definido para a gama: -180° < azimute < 180°, o ângulo de elevação é definido para a gama: -90° < elevação < 90° e o raio poderá, por exemplo, ser definido em metros [m] (superior ou igual a 0m). A esfera descrita pelo azimute, elevação e ângulo pode ser dividida em dois hemisférios: hemisfério esquerdo (0° < azimute < 180°) e hemisfério direito (-180° < azimute < 0°), ou hemisfério superior (0°<elevação < 90°) e hemisfério inferior (-90° < elevação < 0°)
[075] Numa outra versão, onde poderá, por exemplo, assumir-se que todos os valores x das posições do objeto áudio num sistema de coordenadas xyz são superiores a ou iguais a zero, o ângulo azimute poderá ser definido para a gama: - 90° < azimute < 90°, o ângulo de elevação é definido para a gama: -90° < elevação < 90° e o raio poderá, por exemplo, ser definido em metros [m].
[076] O processador de downmix 120 poderá, por exemplo, estar configurado para gerar um ou mais canais áudio dependendo de um ou mais sinais do objeto áudio, dependendo dos valores de informação de meta dados reconstruídos, sendo que os valores de informação de meta dados reconstruídos poderão, por exemplo, indicar a posição dos objetos áudio.
[077] Numa versão, os valores de informação de meta dados poderão, por exemplo, indicar o ângulo azimute definido para a gama: -180° < azimute < 180°, o ângulo de elevação é definido para a gama: -90° < elevação < 90° e o raio poderá, por exemplo, ser definido em metros [m] (superior ou igual a 0m).
[078] A Fig. 11 ilustra as posições dos objetos áudio e uma configuração do altifalante assumida pelo gerador do canal áudio. A origem 500 do sistema de coordenadas xyz está ilustrada. Além do mais, está ilustrada a posição 510 de um primeiro objeto áudio e a posição 520 de um segundo objeto áudio. Além do mais, a Fig. 11 ilustra um cenário onde o gerador de canais áudio 120 gera quatro canais áudio para quatro altifalantes. O gerador de canais áudio 120 assume que os quatro altifalantes 511, 512, 513 e 514 estão localizados nas posições ilustradas na Fig. 11.
[079] Na Fig. 11, o primeiro objeto áudio está localizado numa posição 510 junto das posições assumidas dos altifalantes 511 e 512 e está localizado afastado dos altifalantes 513 e 514. Assim, o gerador de canais áudio 120 poderá gerar os quatro canais áudio de modo a que o primeiro objeto áudio 510 seja reproduzido pelos altifalantes 511 e 512 mas não pelos altifalantes 513 e 514.
[080] Em outras versões, o gerador de canais áudio 120 poderá gerar os quatro canais áudio de modo a que o primeiro objeto áudio 510 seja reproduzido com um nível elevado pelos altifalantes 511 e 512 e com um nível baixo pelos altifalantes 513 e 514.
[081] Além do mais, o segundo objeto áudio está localizado numa posição 520 junto das posições assumidas dos altifalantes 513 e 514 e está localizado afastado dos altifalantes 511 e 512. Assim, o gerador de canais áudio 120 poderá gerar os quatro canais áudio de modo a que o segundo objeto áudio 520 seja reproduzido pelos altifalantes 513 e 514 mas não pelos altifalantes 511 e 512.
[082] Em outras versões, o processador de downmix 120 poderá gerar os quatro canais áudio de modo a que o segundo objeto áudio 520 seja reproduzido com um nível elevado pelos altifalantes 513 e 514 e com um nível baixo pelos altifalantes 511 e 512.
[083] Em versões alternativas, apenas são utilizados dois valores de informação de meta dados para especificar a posição de um objeto áudio. Por exemplo, apenas poderão ser especificados o azimute e o raio, por exemplo, quando se assume que todos os objetos áudio estão localizados num único plano.
[084] Em outras versões, para cada objeto áudio, apenas é codificado e transmitido um único valor de informação de meta dados de um sinal de meta dados como informação da posição. Por exemplo, apenas poderá ser especificado um ângulo azimute como informação de posição para um objeto áudio (ex.: poderá assumir-se que todos os objetos áudio estão localizados no mesmo plano com a mesma distância a partir de um ponto central e assume-se assim, que têm o mesmo raio). A informação azimute poderá, por exemplo, ser suficiente para determinar que um objeto áudio está localizado junto a um altifalante esquerdo e afastado de um altifalante direito. Nessa situação, o gerador de canais áudio 120 poderá, por exemplo, gerar um ou mais canais áudio de modo a que o objeto áudio seja reproduzido pelo altifalante esquerdo, mas não pelo altifalante direito.
[085] Por exemplo, a Tangente da Amplitude da Base do Vetor poderá ser utilizada para determinar o peso de um sinal do objeto áudio em cada canal de saída áudio (ver, por exemplo, [VBAP]). Em relação à VBAP, assume-se que um sinal do objeto áudio é atribuído a uma fonte virtual e assume-se também que um canal de saída áudio é um canal de um altifalante.
[086] Nas versões, um outro valor de informação de meta dados, por exemplo, de um outro sinal de meta dados poderá especificar um volume, por exemplo, um ganho (por exemplo, expresso em decibéis [dB]) para cada objeto áudio.
[087] Por exemplo, na Fig. 11 poderá ser especificado um primeiro valor de ganho ou um outro valor de informação de meta dados para o primeiro objeto áudio localizado na posição 510, a qual é superior ao segundo valor de ganho a ser especificado por um outro valor de informação de meta dados para o segundo objeto áudio localizado na posição 520. Nessa situação, os altifalantes 511 e 512 poderão reproduzir o primeiro objeto áudio com um nível superior ao nível no qual os altifalantes 513 e 514 reproduzem o segundo objeto áudio.
[088] De acordo com a técnica SAOC, um codificador SAOC recebe uma variedade de sinais do objeto áudio X e submistura-os utilizando uma matriz de downmix D para obter um sinal de transporte áudio Y que inclui um ou mais canais de transporte áudio. A fórmula a. Y = DX
[089] poderá ser utilizada. O codificador SAOC transmite o sinal de transporte áudio Y e a informação sobre a matriz de downmix D (ex.: coeficientes da matriz de downmix D) ao descodificador SAOC. Além do mais, o codificador SAOC transmite a informação sobre uma matriz de covariação E (ex.: coeficientes da matriz de covariação E) ao descodificador SAOC.
[090] No lado do descodificador, os sinais do objeto áudio X poderão ser reconstruídos para obter objetos áudio reconstruídos X utilizando a fórmula
[091] X = GY
[092] em que G é uma matriz de estimativa da fonte paramétrica com G = E DH (D E DH) -1 .
[093] Assim, poderão ser gerados um ou mais canais de saída áudio Z aplicando uma matriz de transformação R aos objetos áudio reconstruídos X de acordo com a fórmula:
[094] Z = R X .
[095] A geração de um ou mais canais de saída áudio Z a partir do sinal de transporte áudio pode, contudo, ser também efetuada numa única fase utilizando a matriz U de acordo com a fórmula:
[096] Z = UY , com U = RG .
[097] Cada linha da matriz de transformação R é associada a um dos canais de saída áudio que devem ser gerados. Cada coeficiente numa das linhas da matriz de transformação R determina o peso de um dos sinais do objeto áudio reconstruído no canal de saída áudio, para a referida linha da matriz de transformação R à qual se refere.
[098] Por exemplo, a matriz de transformação R poderá depender da informação da posição para cada um dos sinais do objeto áudio transmitidos do descodificador SAOC na informação de meta dados. Por exemplo, um sinal do objeto áudio com uma posição localizada junto de uma posição assumida ou real do altifalante poderá, por exemplo, ter um peso superior no canal de saída áudio do referido altifalante do que o peso de um sinal do objeto áudio, cuja posição está afastada do referido altifalante (ver Fig. 5). Por exemplo, a Tangente da Amplitude da Base do Vetor poderá ser utilizada para determinar o peso de um sinal do objeto áudio em cada canal de saída áudio (ver, por exemplo, [VBAP]). Em relação à VBAP, assume-se que um sinal do objeto áudio é atribuído a uma fonte virtual e assume-se também que um canal de saída áudio é um canal de um altifalante.
[099] Nas Fig. 6 e 8 é ilustrado um codificador SAOC 800. O codificador SAOC 800 é utilizado para codificar parametricamente um número de objetos/canais de entrada submisturando-os num número inferior de canais de transporte e extraindo a informação auxiliar necessária que está integrada no fluxo de dados Áudio 3D.
[100] O downmix para um número inferior de canais de transporte é efetuada utilizando os coeficientes de downmix para cada sinal de entrada e canal de downmix (ex.: utilizando uma matriz de downmix).
[101] O estado atual da técnica no processamento de sinais do objeto áudio é o sistema MPEG SAOC. Uma propriedade principal desse sistema é que os sinais de downmix intermédia (ou Canais de Transporte SAOC de acordo com as Fig. 6 e 8) podem ser listados com dispositivos incapazes de descodificar a informação SAOC. Isto impõe restrições aos coeficientes de downmix a serem utilizados, os quais são geralmente fornecidos pelo criador dos conteúdos.
[102] O Sistema de Códigos Áudio 3D tem como objetivo utilizar a tecnologia SAOC para aumentar a eficiência de codificação de um vasto número de objetos ou canais. O downmix de um vasto número de objetos para um pequeno número de canais de transporte reduz a taxa de bits.
[103] A Fig. 2 ilustra um aparelho para gerar um sinal de transporte áudio que inclui um ou mais canais de saída áudio de acordo com uma versão.
[104] O aparelho inclui um misturador de objetos 210 para gerar o sinal de transporte áudio que inclui um ou mais canais de transporte áudio a partir de dois ou mais sinais do objeto áudio, de modo a que dois ou mais sinais do objeto áudio sejam misturados no sinal de transporte áudio, e sendo que o número de um ou mais canais de transporte áudio seja menor do que o número de dois ou mais sinais do objeto áudio.
[105] Além do mais, o aparelho inclui uma interface de saída 220 para emissão do sinal de transporte áudio.
[106] O misturador de objetos 210 está configurado para gerar um ou mais canais de transporte áudio do sinal de transporte áudio dependendo de uma primeira regra de mistura e dependendo de uma segunda regra de mistura, sendo que a primeira regra de mistura indica como misturar os dois ou mais sinais do objeto áudio para obter uma variedade de canais pré-misturados, e sendo que a segunda regra de mistura indica como misturar a variedade de canais pré- misturados para obter um ou mais canais de transporte áudio do sinal de transporte áudio. A primeira regra de mistura depende de um número de objetos áudio que indica o número de dois ou mais sinais do objeto áudio, e depende de um número de canais pré-misturados, que indica o número da variedade de canais pré- misturados e sendo que a segunda regra de mistura depende do número de canais pré-misturados. A interface de saída 220 está configurada para a informação de saída na segunda regra de mistura.
[107] A Fig. 1 ilustra um aparelho para gerar um ou mais canais de saída áudio de acordo com uma versão.
[108] O aparelho inclui um processador de parâmetros 110 para calcular a informação de mistura do canal de saída e um processador de downmix 120 para gerar um ou mais canais de saída.
[109] O processador de downmix 120 está configurado para receber um sinal de transporte áudio que inclui um ou mais canais de transporte áudio, sendo que dois ou mais sinais do objeto áudio são misturados no sinal de transporte áudio, e sendo que o número de um ou mais canais de transporte é menor do que o número de dois ou mais sinais do objeto áudio. O sinal de transporte áudio depende de uma primeira regra de mistura e de uma segunda regra de mistura. A primeira regra de mistura indica como misturar os dois ou mais sinais do objeto áudio para obter uma variedade de canais pré-misturados. Além do mais, a segunda regra de mistura indica como misturar a variedade de canais pré-misturados para obter um ou mais canais de transporte do sinal de transporte áudio.
[110] O processador de parâmetros 110 está configurado para receber informações sobre a segunda regra de mistura, sendo que as informações sobre a segunda regra de mistura indica como misturar a variedade de sinais pré- misturados de modo a que um ou mais canais de transporte áudio sejam obtidos. O processador de parâmetros 110 está configurado para calcular as informações de mistura do canal de saída dependendo de um número de objetos áudio que indicam o número de dois ou mais sinais do objeto áudio, dependendo de um número de canais pré-misturados, que indica o número da variedade de canais pré- misturados e dependendo das informações sobre a segunda regra de mistura.
[111] O processador de downmix 120 está configurado para gerar um ou mais canais de saída áudio a partir do sinal de transporte áudio dependendo da informação de mistura do canal de saída.
[112] De acordo com uma versão, o aparelho poderá, por exemplo, estar configurado para receber pelo menos um número de objetos áudio e um número de camais pré-misturados.
[113] Numa outra versão, o processador de parâmetros 110 poderá, por exemplo, estar configurado para determinar, dependendo do número de objetos áudio e dependendo do número de canais pré-misturados, a informação sobre a primeira regra de mistura, de modo a que a informação sobre a primeira regra de mistura indique como mistura dois ou mais sinais do objeto áudio para obter a variedade de canais pré-misturados. Nessa versão, o processador de parâmetros 110 poderá, por exemplo, estar configurado para calcular a informação de mistura do canal de saída, dependendo da informação sobre a primeira regra de mistura e dependendo da informação sobre a segunda regra de mistura.
[114] De acordo com uma versão, o processador de parâmetros 110 poderá, por exemplo, estar configurado para determinar, dependendo do número de objetos áudio e dependendo do número de canais pré-misturados, uma variedade de coeficientes de uma primeira matriz P como a informação sobre a primeira regra de mistura, sendo que a primeira matriz P indica como misturar a variedade de canais pré-misturados para obter um ou mais canais de transporte áudio do sinal de transporte áudio. Nessa versão, o processador de parâmetros 110 poderá, por exemplo, estar configurado para receber uma variedade de coeficiente de uma segunda matriz Q como a informação sobre a segunda regra de mistura, sendo que a segunda matriz Q indica como misturar a variedade de canais pré-misturados para obter um ou mais canais de transporte áudio do sinal de transporte áudio. O processador de parâmetros 110 dessa versão poderá, por exemplo, estar configurado para calcular a informação de mistura do canal de saída dependendo da primeira matriz P e dependendo da segunda matriz Q.
[115] As versões baseiam-se na descoberta que quando se submistura dois ou mais sinais do objeto áudio X para obter um sinal de transporte áudio Y no lado do codificador utilizando a matriz de downmix D de acordo com a fórmula
[116] Y = DX,
[117] a matriz de downmix D pode ser dividida em duas matrizes mais pequenas P e Q de acordo com a fórmula
[118] D = QP.
[119] Aqui, a primeira matriz P efetua a mistura a partir dos sinais do objeto áudio X para a variedade de canais pré-misturados Xpre de acordo com a fórmula:
[120] Xpre = PX.
[121] A segunda matriz Q efetua a mistura a partir da variedade de canais pré- misturados Xpre para um ou mais canais de transporte áudio do sinal de transporte áudio Y de acordo com a fórmula:
[122] Y = Q Xpre.
[123] De acordo com as versões, a informação sobre a segunda regra de mistura, por exemplo, sobre os coeficientes da segunda matriz de mistura Q, é transmitida ao descodificador.
[124] Os coeficientes da primeira regra de mistura P não tem que ser transmitida ao descodificador. Em vez disso, o descodificador recebe a informação sobre o número de sinais do objeto áudio e a informação sobre o número de canais pré-misturados. A partir desta informação, o descodificador consegue reconstruir a primeira matriz de mistura P. Por exemplo, o codificador e o descodificador determinam a matriz de mistura P do mesmo modo, quando misturam um primeiro número de Nobjetos sinais do objeto áudio para um segundo número de Npre canais pré-misturados.
[125] A Fig. 3 ilustra um sistema de acordo uma versão. O sistema inclui um aparelho 310 para gerar um sinal de transporte áudio conforme acima descrito com referência à Fig. 2 e um aparelho 320 para gerar um ou mais canais de saída áudio conforme acima descrito com referência à Fig. 1.
[126] O aparelho 320 para gerar um ou mais canais de saída áudio está configurado para receber o sinal de transporte áudio e a informação sobre a segunda regra de mistura a partir do aparelho 310 para gerar um sinal de transporte áudio. Além do mais, o aparelho 320 para gerar um ou mais canais de saída áudio está configurado para gerar um ou mais canais de saída áudio a partir do sinal de transporte áudio dependendo da informação sobre a segunda regra de mistura.
[127] Por exemplo, o processador de parâmetros 110 poderá, por exemplo, estar configurado para receber informação de meta dados que inclui a informação da posição para cada um dos dois ou mais sinais do objeto áudio, e determina a informação sobre a primeira regra de downmix dependendo da informação da posição de cada um dos dois ou mais sinais do objeto áudio, por exemplo, utilizando a Tangente da Amplitude da Base do Vetor. Por exemplo, o codificador poderá ter também acesso à informação da posição de cada um dos dois ou mais sinais do objeto áudio e poderá também utilizar a Tangente da Amplitude da Base do vetor para determinar os pesos dos sinais do objeto áudio nos canais pré-misturados, e através disto determina os coeficientes da primeira matriz P do mesmo modo que posteriormente efetuado pelo descodificador (ex.: ambos o codificador e o descodificador poderão assumir o mesmo posicionamento dos altifalantes assumidos atribuídos aos Npre canais pré-misturados).
[128] Ao receber os coeficientes da segunda matriz Q e ao determinar a primeira matriz P, o descodificador pode determinar a matriz de downmix D de acordo com D = QP.
[129] Numa versão, o processador de parâmetros 110 poderá, por exemplo, estar configurado para receber informação de covariação, por exemplo, coeficientes de uma matriz de covariação E (ex.: a partir do aparelho para gerar o sinal de transporte áudio), indicando uma diferença de nível do objeto para cada um dos dois ou mais sinais do objeto áudio e, possivelmente, indicando uma ou mais correlações interobjeto entre um dos sinais do objeto áudio e outro dos sinais do objeto áudio.
[130] Nessa versão, o processador de parâmetros 110 poderá estar configurado para calcular a informação de mistura do canal de saída dependendo do número de objetos áudio, dependendo do número de canais pré-misturados, dependendo da informação sobre a segunda regra de mistura e dependendo da informação de covariação.
[131] Por exemplo, utilizando a matriz de covariação E, os sinais do objeto áudio X poderão ser reconstruídos para obter os objetos áudio reconstruídos X utilizando a fórmula
[132] X = GY
[133] em que G é uma matriz de estimativa da fonte paramétrica com G = E DH (D E DH) -1 .
[134] Assim, poderão ser gerados um ou mais canais de saída áudio Z aplicando uma matriz de transformação R aos objetos áudio reconstruídos X de acordo com a fórmula:
[135] Z = R X .
[136] A geração de um ou mais canais de saída áudio Z a partir do sinal de transporte áudio pode, contudo, ser também efetuada numa única fase utilizando a matriz U de acordo com a fórmula:
[137] Z = UY , com S = UG .
[138] Essa matriz S é um exemplo para uma informação de mistura do canal de saída determinada pelo processador de parâmetros 110.
[139] Por exemplo, conforme acima descrito, cada linha da matriz de transformação R poderá ser associada a um dos canais de saída áudio que devem ser gerados. Cada coeficiente numa das linhas da matriz de transformação R determina o peso de um dos sinais do objeto áudio reconstruído no canal de saída áudio, para a referida linha da matriz de transformação R à qual se refere.
[140] De acordo com uma versão, na qual o processador de parâmetros 110 poderá, por exemplo, estar configurado para receber informação de meta dados que inclui a informação da posição para cada um dos dois ou mais sinais do objeto áudio, poderá, por exemplo, estar configurado para determinar a informação de transformação, por exemplo, os coeficientes da matriz de transformação R dependendo da informação da posição de cada um dos dois ou mais sinais do objeto áudio e poderá, por exemplo, estar configurado para calcular a informação de mistura do canal de saída (ex.: a matriz anterior S) dependendo do número de objetos áudio, dependendo do número de canais pré-misturados, dependendo da informação sobre a segunda regra de mistura e dependendo da informação de transformação (ex.: matriz de transformação R).
[141] Por exemplo, a matriz de transformação R poderá, por exemplo, depender da informação da posição para cada um dos sinais do objeto áudio transmitidos do descodificador SAOC na informação de meta dados. Por exemplo, um sinal do objeto áudio com uma posição localizada junto de uma posição assumida ou real do altifalante poderá, por exemplo, ter um peso superior no canal de saída áudio do referido altifalante do que o peso de um sinal do objeto áudio,cuja posição está afastada do referido altifalante (ver Fig. 5). Por exemplo, a Tangente da Amplitude da Base do Vetor poderá ser utilizada para determinar o peso de um sinal do objeto áudio em cada canal de saída áudio (ver, por exemplo, [VBAP]). Em relação à VBAP, assume-se que um sinal do objeto áudio é atribuído a uma fonte virtual e assume-se também que um canal de saída áudio é um canal de um altifalante. O coeficiente correspondente da matriz de transformação R (o coeficiente que é atribuído ao canal de saída áudio considerado ao sinal do objeto áudio considerado) poderá ser então configurado para o valor dependente desse peso. Por exemplo, o próprio peso poderá ser o valor do referido coeficiente correspondente na matriz de transformação R.
[142] Em seguida, são explicadas em pormenor as versões que efetuam o downmix espacial para os sinais baseados em objetos.
[143] É feita referência às seguintes notas e definições.
[144] NObjects número de sinais do objeto áudio de entrada
[145] NChannels número de canais de entrada
[146] N número de sinais de entrada;
[147] N pode ser igual a NObjects , NChannles ou NObjects + NChannels .
[148] NDmxCh número de canais de downmix (processados)
[149] Npre número de canais pré-misturados
[150] NSamples número de amostras de dados processadas
[151] D matriz de downmix, tamanho NDmxCh x N
[152] X sinal áudio de entrada que inclui dois ou mais sinais de entrada, tamanho N x NSamples
[153] Y sinal áudio de downmix (sinal de transporte áudio), tamanho NDmxCh x NSamples, definido como Y = DX
[154] DMG dados do ganho de downmix para todos os sinais de entrada, canal de downmix e conjunto de parâmetros
[155] DDMG consiste na matriz tridimensional que possui os dados DMG não quantificados e mapeados para todos os sinais de entrada, canal de downmix e conjunto de parâmetros
[156] Sem perda de generalidade, de modo a melhorar a leitura das equações, são omitidos para todas as variáveis inseridas os índices que denotam a dependência do tempo e frequência.
[157] Se não for especificada nenhuma restrição em relação aos sinais de entrada (canais ou objetos), os coeficientes de downmix são calculados do mesmo modo para os sinais do canal de entrada e sinais do objeto de entrada. É utilizada a nota para o número de sinais de entrada N.
[158] Algumas versões poderão, por exemplo, ser designadas para o downmix de sinais do objeto de uma forma diferente da dos sinais do canal, orientada pela informação espacial disponível nos meta dados do objeto.
[159] O downmix poderá ser dividido em duas fases:
[160] - Numa primeira fase, os objetos são pré-transformados para a disposição de reprodução com o número mais elevado de altifalantes Npre (ex.: Npre = 22 dados pela configuração 22.2). Ex: poderá ser utilizada a primeira matriz P.
[161] - Numa segunda fase, os sinais pré-transformados Npre obtidos são submisturados num número de canais de transporte disponíveis (NCnSib) (ex.: de acordo com um algoritmo de distribuição do downmix ortogonal). Ex: poderá ser utilizada a segunda matriz Q.
[162] Contudo, em algumas versões, o downmix é efetuado numa única fase, ex.: utilizando a matriz D definida de acordo com a fórmula: D = QP, e aplicando Y = DX com D = QP.
[163] A propósito, uma outra vantagem dos conceitos propostos é, por exemplo, que os sinais do objeto de entrada, que são supostos serem transformados na mesma posição espacial no cenário áudio, são submisturados em conjunto nos mesmos canais de transporte. Consequentemente, no lado do descodificador é obtida uma melhor separação dos sinais pré-transformados, evitando a separação dos objetos áudio que serão misturados em conjunto no cenário de reprodução final.
[164] De acordo com versões particulares preferenciais, o downmix pode ser descrito como uma multiplicação da matriz por:
[165] Xpre = PX e Y = QXpre .
[166] em que P do tamanho (Npre x NObjetos) e Q do tamanho (NCnSub x Npre) são calculados como explicado de seguida.
[167] Os coeficientes de mistura em P são construídos a partir do meta dados dos sinais do objeto (raio, ganho, ângulos azimute e de elevação) utilizando um algoritmo de tangente (ex.: Tangente da Amplitude da Base do Vetor). O algoritmo de tangente deve ser o mesmo que o utilizado no lado do descodificador para construção dos canais de saída.
[168] Os coeficientes de mistura em Q são dados no lado do codificador para os sinais de entrada Npre e canais de transporte disponíveis NDmxCh.
[169] De modo a reduzir a complexidade computacional, o downmix de duas fases pode ser simplificado para uma calculando os ganhos de downmix final como:
[170] D = QP .
[171] São depois obtidos os sinais de downmix por:
[172] Y = DX .
[173] Os coeficientes de mistura em P não são transmitidos no fluxo de dados. Em vez disso, são reconstruídos no lado do descodificador utilizando o mesmo algoritmo tangente. Desse modo, a taxa de bits é reduzida enviando apenas os coeficientes de mistura em Q. Em particular, como os coeficientes de mistura em P variam geralmente no tempo, e como P não é transmitido, pode ser obtida uma elevada redução da taxa de bits.
[174] Em seguida, é considerada a sintaxe do fluxo de dados de acordo com uma versão.
[175] Para sinalizar o método de downmix utilizado e o número de canais Npre para pré-transformar os objetos na primeira fase, a sintaxe do fluxo de dados MPEG SAOC é aumentada em 4 bits:
Figure img0001
[176] bsNumPremixedChannels
Figure img0002
[177] No contexto de MPEG SAOC, isto pode ser obtido através da seguinte modificação:
[178] bsSaocDmxMethod : Indica como é construída a matriz de downmix
[179] Sintaxe de SAOC3DConfigEspecífica() – Sinalização
Figure img0003
[180] Sintaxe de Saoc3DFrame (): modo como os DMGs são lidos para os diferentes modos
Figure img0004
[181] bsNumSaocDmxChannels Define o números e canais de downmix para conteúdos baseados nos canais. Se não existirem canais no downmix, downmix bsNumSaocDmxChannels é configurado para zero.
[182] bsNumSaocChannels Define o número de canais de entrada para os quais os parâmetros SAOC 3D são transmitidos. Se bsNumSaocChannels = 0, não existem canais presentes no downmix.
[183] bsNumSaocDmxObjects Define o número de canais de downmix para os conteúdos baseados no objeto. Se não existirem objetos presentes no downmix, bsNumSaocDmxObjects é configurado para zero.
[184] bsNumPremixedChannels Define o número de canais pré- misturados para os objetos áudio de entrada. Se bsSaocDmxMethod for igual a 15, então o número real de canais pré-misturados é assinalado diretamente pelo valor de bsNumPremixedChannels. Em todos os outros casos, bsNumPremixedChannels é configurado de acordo com a tabela anterior.
[185] De acordo com uma versão, a matriz de downmix D aplicada aos sinais áudio de entrada S determina o sinal de downmix como
[186] X = DS .
[187] A matriz de downmix D de tamanho Ndmx x N é obtida como:
[188] D = D dmx D premix .
[189] A matriz Ddmx e a matriz Dpremix possuem tamanhos diferentes dependendo do modo de processamento.
[190] A matriz Ddmx é obtida a partir dos parâmetros DMG como:
[191]
Figure img0005
[192] Aqui, os parâmetros de downmix não quantificados são obtidos como:
[193] DMGi,J = DDMG (i, j, l)
[194] No caso do modo direto, não é utilizada nenhuma pré-mistura. A matriz Dpremix possui o tamanho NxN e é dada por: Dpremix =I . A matriz Ddmx possui o tamanho Ndmx xN e é obtida a partir dos parâmetros DMG.
[195] No caso do modo de pré-mistura a matriz Dpremix possui o tamanho (Nch + Npremix) x N e é dada por:
[196]
Figure img0006
[197] sendo que a matriz de pré-mistura A do tamanho Npremix x Nobj é recebida como uma entrada no descodificador 3D SAOC, a partir do transformador do objeto.
[198] A matriz Ddmx possui o tamanho Ndmx x (Nch + Npremix) e é obtida a partir dos parâmetros DMG.
[199] Embora alguns aspetos tenham sido descritos no contexto de um aparelho, está claro que esses aspetos representam também uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma fase do método ou a uma característica de uma fase do método. De forma análoga, os aspetos descritos no contexto de uma fase do método representam também uma descrição de um bloco ou item correspondente ou característica de um aparelho correspondente.
[200] O sinal decomposto da invenção pode ser guardado num meio digital de armazenamento ou pode ser transmitido num meio de transmissão, como um meio de transmissão sem fios ou um meio de transmissão por cabo como a Internet.
[201] Dependendo de determinados requisitos de implementação, as versões da invenção podem ser implementadas em hardware ou em software. A implementação pode ser efetuada utilizando um meio digital de armazenamento, por exemplo, uma disquete, um DVD, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou um dispositivo de memória amovível, que possuam sinais de controlo eletronicamente legíveis guardados aí, que cooperam (ou conseguem cooperar) com um sistema de computador programável, de modo a que o respetivo método seja efetuado.
[202] Algumas versões de acordo com a invenção incluem um suporte de dados não transitórios com sinais de controlo eletronicamente legíveis, que conseguem cooperar com um sistema de computador programável, de modo a que um dos métodos aqui descrito seja efetuado.
[203] No geral, as versões da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, sendo o código do programa operativo para efetuar um dos métodos quando o produto do programa de computador é executado num computador. O código do programa poderá, por exemplo, ser guardado num suporte legível pela máquina.
[204] Outras versões incluem o programa de computador para efetuar um dos métodos aqui descritos, guardados num suporte legível pela máquina.
[205] Por outras palavras, uma versão do método da invenção é, desse modo, um programa de computador com um código do programa para efetuar um dos métodos aqui descritos, quando o programa de computador é executado num computador.
[206] Outra versão dos métodos da invenção é, desse modo, um suporte de dados (ou um meio digital de armazenamento, ou um meio legível no computador) que inclui, nele guardado, o programa de computador para efetuar um dos métodos aqui descritos.
[207] Outra versão do método da invenção é, desse modo, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para efetuar um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais poderá, por exemplo, estar configurado para ser transferido através de uma ligação de comunicação de dados, por exemplo através da Internet.
[208] Uma outra versão inclui um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para efetuar um dos métodos aqui descritos.
[209] Outra versão inclui um computador com o programa de computador nele instalado para efetuar um dos métodos aqui descritos.
[210] Em algumas versões, um dispositivo lógico programável (por exemplo, um painel de porta de campo programável) poderá ser utilizado para efetuar algumas ou todas as funções dos métodos aqui descritos. Em algumas versões, um painel de porta de campo programável poderá cooperar com um microprocessador para efetuar um dos métodos aqui descritos. No geral, os métodos são preferencialmente efetuados por qualquer aparelho de hardware.
[211] As versões acima descritas são meramente ilustrativas para os princípios da presente invenção. É entendido que as alterações e variações das disposições e dos pormenores aqui descritos serão aparentes aos especialistas. É intenção, desse modo, estar limitado apenas pelo âmbito das reivindicações da patente iminente e não pelo pormenores específicos apresentados através da descrição e explicação das versões.
[212] Referências
[213] [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22a Conferência Regional UK AES, Cambridge, RU, Abril 2007.
[214] [SAOC2] J. Engdegârd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers e W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124a Convenção AES, Amesterdão 2008
[215] [SAOC] ISO/IEC, “MPEG audio technologies - Part 2: ("Tecnologias áudio MPEG - Parte 2") Spatial Audio Object Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) Norma Internacional 23003-2
[216] [VBAP] Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”; J. Audio Eng. Soc., Nível 45, Edição 6, pp. 456-466, Junho 1997.
[217] [M1] Peters, N., Lossius, T. e Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing 9a Conferência de Computação de Som e Música, Copenhaga, Dinamarca, Julho 2012
[218] [M2] Wright, M., Freed, A., "Open Sound Control: ("Controlo do Som Aberto:) A New Protocol for Communicating with Sound Synthesizers", Conferência Internacional de Música de Computador, Tessalónica, Grécia, 1997
[219] [M3] Matthias Geier, Jens Ahrens, e Sascha Spors. (2010), "Object based audio reproduction and the audio scene description format" Org. Som, Vol. 15, N° 3, pp. 219-227, Dezembro 2010.
[220] [M4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", Dez. 2008.
[221] [M5] W3C, "Extensible Markup Language (XML) 1.0 (Quinta Edição)”, Nov. 2008.
[222] [M6] MPEG, "ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio" ("ISO/IEC Norma Internacional 14496-3), 2009.
[223] [M7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116a Conferência AES, Berlim, Alemanha, Maio 2004
[224] [M8] Web3D, "International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997.
[225] [M9] Sporer, T. (2012), "Codierung raumlicher Audiosignale mit leichtgewichtigen Audio-Objekten",(Reunião Anual da Sociedade Audiológica Alemã (DGA), Erlangen, Alemanha, Março 2012)

Claims (14)

1. Aparelho para gerar um ou mais canais de saída áudio, caracterizado por o aparelho incluir: um processador de parâmetros (110) para cálculo da informação de mistura do canal de saída, e um processador de downmix (120) para gerar o um ou mais canais de saída áudio, sendo que o processador de downmix (120) está configurado para receber um sinal de transporte áudio que inclui um ou mais canais de transporte áudio, sendo que dois ou mais sinais do objeto áudio estão misturados no sinal de transporte áudio, e sendo que o número do um ou mais canais de transporte áudio é menor do que o número dos dois ou mais sinais do objeto áudio, sendo que o sinal de transporte áudio depende de uma primeira regra de mistura e de uma segunda regra de mistura, sendo que a primeira regra de mistura indica como misturar os dois ou mais sinais do objeto áudio para adquirir uma variedade de canais pré-misturados, e sendo que a segunda regra de mistura indica como misturar a variedade de canais pré-misturados para adquirir o um ou mais canais de transporte áudio do sinal de transporte áudio, sendo que o processador de parâmetros (110) está configurado para receber informação sobre a segunda regra de mistura, sendo que a informação sobre a segunda regra de mistura indica como misturar a variedade de sinais pré-misturados, de modo a que sejam adquiridos o um ou mais canais de transporte áudio, sendo que o processador de parâmetros (110) está configurado para calcular as informações de mistura do canal de saída dependendo de um número de objetos áudio que indicam o número dos dois ou mais sinais do objeto áudio, dependendo de um número de canais pré-misturados, que indica o número da variedade de canais pré-misturados e dependendo das informações sobre a segunda regra de mistura, e sendo que o processador de downmix (120) está configurado para gerar o um ou mais canais de saída áudio a partir do sinal de transporte áudio dependendo da informação de mistura do canal de saída.
2. Aparelho de acordo com a reivindicação 1, caracterizado por o aparelho estar configurado para receber pelo menos um número de objetos áudio e um número de camais pré-misturados.
3. Aparelho de acordo com a reivindicação 1, caracterizado por o processador de parâmetros (110) estar configurado para determinar, dependendo do número de objetos áudio e dependendo do número de canais pré-misturados, a informação sobre a primeira regra de mistura, de modo a que a informação sobre a primeira regra de mistura indique como misturar os dois ou mais sinais do objeto áudio para adquirir a variedade de canais pré-misturados, e sendo que o processador de parâmetros (110) está configurado para calcular a informação de mistura do canal de saída, dependendo da informação sobre a primeira regra de mistura e dependendo da informação sobre a segunda regra de mistura.
4. Aparelho de acordo com a reivindicação 3, caracterizado por o processador de parâmetros (110) estar configurado para determinar, dependendo do número de objetos áudio e dependendo do número de canais pré-misturados, uma variedade de coeficientes de uma primeira matriz (P) como a informação sobre a primeira regra de mistura, sendo que a primeira matriz (P) indica como misturar os dois ou mais sinais do objeto áudio para adquirir a variedade de canais pré- misturados; o processador de parâmetros (110) está configurado para receber uma variedade de coeficientes de uma segunda matriz (Q) como a informação sobre a segunda regra de mistura, sendo que a segunda matriz (Q) indica como misturar a variedade de canais pré-misturados para adquirir o um ou mais canais de transporte áudio do sinal de transporte áudio; e o processador de parâmetros (110) está configurado para calcular a informação de mistura do canal de saída dependendo da primeira matriz (P) e dependendo da segunda matriz (Q).
5. Aparelho de acordo com a reivindicação 3, caracterizado por o processador de parâmetros (110) estar configurado para receber informação de meta dados que inclui a informação da posição para cada um dos dois ou mais sinais do objeto áudio, e o processador de parâmetros (110) está configurado para determinar a informação da primeira regra de mistura, dependendo da informação da posição para cada um dos dois ou mais sinais do objeto áudio.
6. Aparelho de acordo com a reivindicação 1, caracterizado por o processador de parâmetros (110) estar configurado para receber informação de meta dados que inclui informação da posição para cada um dos dois ou mais sinais do objeto áudio, e o processador de parâmetros (110) está configurado para determinar informação sobre a primeira regra de mistura dependendo da informação da posição para cada um dos dois ou mais sinais do objeto áudio.
7. Aparelho de acordo com a reivindicação 5, caracterizado por o processador de parâmetros (110) estar configurado para determinar a informação de renderização dependendo da informação da posição para cada um dos dois ou mais sinais do objeto áudio, e o processador de parâmetros (110) está configurado para calcular a informação de mistura do canal de saída dependendo do número de objetos áudio, dependendo do número de canais pré-misturados, dependendo da informação sobre a segunda regra de mistura e dependendo da informação de renderização.
8. Aparelho de acordo com a reivindicação 1, caracterizado por o processador de parâmetros (110) estar configurado para receber informação de covariação que indica uma diferença de nível do objeto para cada um dos dois ou mais sinais do objeto áudio, e o processador de parâmetros (110) está configurado para calcular a informação de mistura do canal de saída dependendo do número de objetos áudio, dependendo do número de canais pré-misturados, dependendo da informação sobre a segunda regra de mistura e dependendo da informação de covariação.
9. Aparelho de acordo com a reivindicação 8, caracterizado por a informação de covariação indicar também pelo menos uma correlação interobjeto entre um dos dois ou mais sinais do objeto áudio e de outra dos dois ou mais sinais do objeto áudio, e sendo que o processador de parâmetros (110) está configurado para calcular a informação de mistura do canal de saída dependendo do número de objetos áudio, dependendo do número de canais pré-misturados, dependendo da informação sobre a segunda regra de mistura, dependendo da diferença de nível do objeto de cada um dos dois ou mais sinais do objeto áudio e dependendo da pelo menos uma correlação interobjeto entre um dos dois ou mais sinais do objeto áudio e de outra dos dois ou mais sinais do objeto áudio.
10. Aparelho para gerar um sinal de transporte áudio que inclui um ou mais canais de transporte áudio, caracterizado por o aparelho incluir: um misturador de objetos (210) para gerar o sinal de transporte áudio que inclui o um ou mais canais de transporte áudio a partir de dois ou mais sinais do objeto áudio, de modo a que os dois ou mais sinais do objeto áudio sejam misturados no sinal de transporte áudio, e sendo que o número do um ou mais canais de transporte áudio seja menor do que o número dos dois ou mais sinais do objeto áudio, e uma interface de saída (220) para emissão do sinal de transporte áudio, sendo que o aparelho está configurado para transmitir o sinal de transporte áudio a um descodificador, sendo que o misturador de objetos (210) está configurado para gerar o um ou mais canais de transporte áudio do sinal de transporte áudio dependendo de uma primeira regra de mistura e dependendo de uma segunda regra de mistura, sendo que a primeira regra de mistura indica como misturar os dois ou mais sinais do objeto áudio para adquirir uma variedade de canais pré-misturados, e sendo que a segunda regra de mistura indica como misturar a variedade de canais pré-misturados para adquirir o um ou mais canais de transporte áudio do sinal de transporte áudio, sendo que a primeira regra de mistura depende de um número de objetos áudio que indica o número dos dois ou mais sinais do objeto áudio, e depende de um número de canais pré-misturados, que indica o número da variedade de canais pré-misturados e sendo que a segunda regra de mistura depende do número de canais pré-misturados, e sendo que o misturador de objetos (210) está configurado para gerar o um ou mais canais de transporte áudio do sinal de transporte áudio dependendo de uma primeira matriz (P), sendo que a primeira matriz (P) indica como misturar os dois ou mais sinais do objeto áudio para adquirir a variedade de canais pré-misturados, e dependendo de uma segunda matriz (Q), sendo que a segunda matriz (Q) indica como misturar a variedade de canais pré- misturados para adqurir o um ou mais canais de transporte áudio do sinal de transporte áudio, sendo que os primeiros coeficientes da primeira matriz (P) indicam a informação sobre a primeira regra de mistura, e sendo que os segundos coeficientes da segunda matriz (Q) indicam a informação sobre a segunda regra de mistura, sendo que o aparelho está configurado para transmitir os segundos coeficientes da segunda matriz de mistura (Q) ao descodificador, e sendo que o aparelho está configurado para não transmitir os primeiros coeficientes da primeira matriz de mistura (P) ao descodificador.
11. Aparelho de acordo com a reivindicação 10, caracterizado por o misturador de objetos (210) estar configurado para receber informação da posição para cada um dos dois ou mais sinais do objeto áudio, e o misturador de objetos (210) está configurado para determinar a primeira regra de mistura dependendo da informação da posição para cada um dos dois ou mais sinais do objeto áudio.
12. Sistema caracterizado por incluir: um aparelho (310) para gerar um sinal de transporte áudio que inclui um ou mais canais de transporte áudio, sendo que o aparelho (320) inclui: um misturador de objetos (210) para gerar o sinal de transporte áudio que inclui o um ou mais canais de transporte áudio a partir dos dois ou mais sinais de objeto áudio, de modo que os dois ou mais sinais de objeto áudio são misturados dentro do sinal de transporte áudio, e sendo que o número do um ou mais canais de transporte áudio é menor do que o número dos dois ou mais sinais de objeto áudio, e uma interface de saída (220) para emissão do sinal de transporte áudio, sendo que o aparelho está configurado para transmitir o sinal de transporte áudio a um descodificador, sendo que o misturador de objetos (210) está configurado para gerar o um ou mais canais de transporte áudio do sinal de transporte áudio dependendo de uma primeira regra de mistura e dependendo de uma segunda regra de mistura, sendo que a primeira regra de mistura indica como misturar os dois ou mais sinais de objeto áudio para adquirir uma pluralidade de canais pré-misturados, e sendo que a segunda regra de mistura indica como misturar a pluralidade de canais pré-misturados para adquirir o um ou mais canais de transporte áudio do sinal de transporte áudio, sendo que a primeira regra de mistura depende de um número de objetos áudio, indicando o número dos dois ou mais sinais de objeto áudio, e depende de um número de canais pré-misturados, indicando o número da pluralidade de canais pré-misturados, e sendo que a segunda regra de mistura depende do número de canais pré-misturados, e sendo que o misturador de objetos (210) está configurado para gerar o um ou mais canais de transporte áudio do sinal de transporte áudio dependendo em uma primeira matriz (P), sendo que a primeira matriz (P) indica como misturar os dois ou mais sinais de objeto áudio para adquirir a pluralidade de canais pré-misturados, e dependendo de uma segunda matriz (Q), sendo que a segunda matriz (Q) indica como misturar a pluralidade de canais pré- misturados para adquirir o um ou mais canais de transporte áudio do sinal de transporte áudio, sendo que os primeiros coeficientes da primeira matriz (P) indicam informação sobre a primeira regra de mistura, e sendo que os segundos coeficientes da segunda matriz (Q) indicam informação sobre a segunda regra de mistura, sendo que o aparelho (310) está configurado para transmitir os segundos coeficientes da segunda matriz de mistura (Q) do descodificador, e sendo que o aparelho está configurado para não transmitir os primeiros coeficientes da primeira matriz de mistura (P) ao descodificador, e um aparelho para gerar um ou mais canais de saída áudio, sendo que o aparelho inclui: um processador de parâmetros (110) para calcular informação de mistura do canal de saída, e um processador de downmix (120) para gerar o um ou mais canais de saída áudio, sendo que o processador de downmix (120) é configurado para receber um sinal de transporte áudio que inclui um ou mais canais de transporte áudio, sendo que dois ou mais sinais de objeto áudio são misturados dentro do sinal de transporte áudio, e sendo que o número do um ou mais canais de transporte áudio é menor do que o número dos dois ou mais sinais de áudio objeto, sendo que o sinal de transporte áudio depende de uma primeira regra de mistura e de uma segunda regra de mistura, sendo que a primeira regra de mistura indica como misturar os dois ou mais sinais de objeto áudio para adquirir uma pluralidade de canais pré-misturados, e sendo que a segunda regra de mistura indica como misturar a pluralidade de canais pré- misturados para adquirir o um ou mais canais de transporte áudio do sinal de transporte áudio, sendo que o processador de parâmetro (110) está configurado para receber informação sobre a segunda regra de mistura, sendo que a informação sobre a segunda regra de mistura indica como misturar a pluralidade de sinais pré-misturados, de modo que o um ou mais canais de transporte áudio são adquiridos, sendo que o processador de parâmetro (110) está configurado para calcular a informação de mistura do canal de saída dependendo de um número de objetos áudio indicando o número dos dois ou mais sinais de objeto áudio, dependendo de um número de canais pré-misturados indicando o número da pluralidade de canais pré-misturados, e dependendo da informação sobre a segunda regra de mistura, e sendo que o processador de downmix (120) está configurado para gerar o um ou mais canais de saída áudio a partir do sinal de transporte áudio dependendo da informação de mistura do canal de saída, sendo que o aparelho para gerar um ou mais canais de saída áudio está configurado para receber o sinal de transporte áudio e informação sobre a segunda regra de mistura, a partir do aparelho para gerar um sinal de transporte áudio, e sendo que o aparelho para gerar um ou mais canais de saída áudio está configurado para gerar o um ou mais canais de saída áudio a partir do sinal de transporte áudio, dependendo da informação da segunda regra de mistura.
13. Método para gerar um ou mais canais de saída áudio, caracterizado por o método incluir: receção de um sinal de transporte áudio que inclui um ou mais canais de transporte áudio, sendo que dois ou mais sinais do objeto áudio são misturados no sinal de transporte áudio e sendo que o número do um ou mais canais de transporte áudio é menor que o número dos dois ou mais sinais do objeto áudio, sendo que o sinal de transporte áudio depende de uma primeira regra de mistura e de uma segunda regra de mistura, sendo que a primeira regra de mistura indica como misturar os dois ou mais sinais do objeto áudio para adquirir uma variedade de canais pré-misturados e sendo que a segunda regra de mistura indica como misturar a variedade dos canais pré-misturados para adquirir o um ou mais canais de transporte áudio do sinal de transporte áudio, receção da informação sobre a segunda regra de mistura, sendo que a informação sobre a segunda regra de mistura indica como misturar a variedade de sinais pré-misturados de modo a que sejam adquiridos um ou mais canais de transporte áudio, cálculo da informação de mistura do canal de saída dependendo de um número de objetos áudio que indica o número dos dois ou mais sinais do objeto áudio, dependendo de um número de canais pré-misturados que indica o número da variedade de canais pré-misturados e dependendo da informação sobre a segunda regra de mistura, e geração de um ou mais canais de saída áudio a partir do sinal de transporte áudio dependendo da informação sobre a mistura do canal de saída.
14. Método para gerar um sinal de transporte áudio que inclui um ou mais canais de transporte áudio, caracterizado por o método incluir: geração do sinal de transporte áudio que inclui o um ou mais canais de transporte áudio a partir de dois ou mais sinais do objeto áudio, emissão de um sinal de transporte áudio, e transmissão do sinal de transporte áudio a um descodificador, e transmissão dos segundos coeficientes de uma segunda matriz de mistura (Q) ao descodificador, e não transmissão dos primeiros coeficientes de uma primeira matriz de mistura (P) ao descodificador, sendo que a geração do sinal de transporte áudio que inclui o um ou mais canais de transporte áudio a partir de dois ou mais sinais do objeto áudio, é efetuada de modo a que os dois ou mais sinais do objeto áudio sejam misturados no sinal de transporte áudio, sendo que o número do um ou mais canais de transporte áudio é menor do que o número dos dois ou mais sinais de objeto áudio, e sendo que a geração do um ou mais canais de transporte áudio do sinal de transporte áudio é efetuada dependendo de uma primeira regra de mistura e dependendo de uma segunda regra de mistura, sendo que a primeira regra de mistura indica como misturar os dois ou mais sinais do objeto áudio para adquirir uma variedade de canais pré-misturados, e sendo que a segunda regra de mistura indica como misturar a variedade de canais pré-misturados para adquirir o um ou mais canais de transporte áudio do sinal de transporte áudio, sendo que a primeira regra de mistura depende de um número de objetos áudio, que indica o número dos dois ou mais sinais do objeto áudio, e depende de um número de canais pré-misturados, que indica o número da variedade de canais pré-misturados, e sendo que a segunda regra de mistura depende do número de canais pré-misturados, sendo que a geração do um ou mais canais de transporte áudio do sinal de transporte áudio dependendo da primeira matriz ( P), sendo que a primeira matriz (P) indica como misturar os dois ou mais sinais do objeto áudio para adquirir a variedade de canais pré-misturados, e dependendo da segunda matriz (Q), sendo que a segunda matriz (Q) indica como misturar a variedade de canais pré-misturados para adquirir o um ou mais canais de transporte áudio do sinal de transporte áudio, sendo que os primeiros coeficientes da primeira matriz (P) indicam informação sobre a primeira regra de mistura, e sendo que os segundos coeficientes da segunda matriz (Q) indicam informação sobre a segunda regra de mistura.
BR112016001244-5A 2013-07-22 2014-07-16 Aparelho e método para efetuar um downmix saoc de conteúdo áudio 3d BR112016001244B1 (pt)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
EP13177357.4 2013-07-22
EP13177357 2013-07-22
EP13177378.0 2013-07-22
EP13177371 2013-07-22
EP13177371.5 2013-07-22
EP20130177378 EP2830045A1 (en) 2013-07-22 2013-07-22 Concept for audio encoding and decoding for audio channels and audio objects
EP13189281.2 2013-10-18
EP13189281.2A EP2830048A1 (en) 2013-07-22 2013-10-18 Apparatus and method for realizing a SAOC downmix of 3D audio content
PCT/EP2014/065290 WO2015010999A1 (en) 2013-07-22 2014-07-16 Apparatus and method for realizing a saoc downmix of 3d audio content

Publications (2)

Publication Number Publication Date
BR112016001244A2 BR112016001244A2 (pt) 2017-07-25
BR112016001244B1 true BR112016001244B1 (pt) 2022-03-03

Family

ID=49385153

Family Applications (2)

Application Number Title Priority Date Filing Date
BR112016001244-5A BR112016001244B1 (pt) 2013-07-22 2014-07-16 Aparelho e método para efetuar um downmix saoc de conteúdo áudio 3d
BR112016001243-7A BR112016001243B1 (pt) 2013-07-22 2014-07-17 Aparelho e método para codificação de objetos áudio espaciais melhorada

Family Applications After (1)

Application Number Title Priority Date Filing Date
BR112016001243-7A BR112016001243B1 (pt) 2013-07-22 2014-07-17 Aparelho e método para codificação de objetos áudio espaciais melhorada

Country Status (19)

Country Link
US (4) US9699584B2 (pt)
EP (4) EP2830050A1 (pt)
JP (3) JP6395827B2 (pt)
KR (2) KR101774796B1 (pt)
CN (3) CN105593929B (pt)
AU (2) AU2014295270B2 (pt)
BR (2) BR112016001244B1 (pt)
CA (2) CA2918529C (pt)
ES (2) ES2768431T3 (pt)
HK (1) HK1225505A1 (pt)
MX (2) MX355589B (pt)
MY (2) MY176990A (pt)
PL (2) PL3025333T3 (pt)
PT (1) PT3025333T (pt)
RU (2) RU2666239C2 (pt)
SG (2) SG11201600460UA (pt)
TW (2) TWI560700B (pt)
WO (2) WO2015010999A1 (pt)
ZA (1) ZA201600984B (pt)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102088337B1 (ko) * 2015-02-02 2020-03-13 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 인코딩된 오디오 신호를 프로세싱하기 위한 장치 및 방법
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
BR112017002758B1 (pt) * 2015-06-17 2022-12-20 Sony Corporation Dispositivo e método de transmissão, e, dispositivo e método de recepção
US10271157B2 (en) 2016-05-31 2019-04-23 Gaudio Lab, Inc. Method and apparatus for processing audio signal
US10349196B2 (en) * 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10535355B2 (en) 2016-11-18 2020-01-14 Microsoft Technology Licensing, Llc Frame coding for spatial audio data
CN108182947B (zh) * 2016-12-08 2020-12-15 武汉斗鱼网络科技有限公司 一种声道混合处理方法及装置
EP3605531A4 (en) 2017-03-28 2020-04-15 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
TWI703557B (zh) * 2017-10-18 2020-09-01 宏達國際電子股份有限公司 聲音播放裝置、方法及非暫態儲存媒體
GB2574239A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
US10620904B2 (en) 2018-09-12 2020-04-14 At&T Intellectual Property I, L.P. Network broadcasting for selective presentation of audio content
WO2020067057A1 (ja) 2018-09-28 2020-04-02 株式会社フジミインコーポレーテッド 酸化ガリウム基板研磨用組成物
GB2577885A (en) * 2018-10-08 2020-04-15 Nokia Technologies Oy Spatial audio augmentation and reproduction
GB2582748A (en) * 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
US11622219B2 (en) * 2019-07-24 2023-04-04 Nokia Technologies Oy Apparatus, a method and a computer program for delivering audio scene entities
BR112022000806A2 (pt) 2019-08-01 2022-03-08 Dolby Laboratories Licensing Corp Sistemas e métodos para atenuação de covariância
GB2587614A (en) * 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
CN115280411A (zh) * 2020-03-09 2022-11-01 日本电信电话株式会社 声音信号缩混方法、声音信号编码方法、声音信号缩混装置、声音信号编码装置、程序及记录介质
GB2595475A (en) * 2020-05-27 2021-12-01 Nokia Technologies Oy Spatial audio representation and rendering
US11930349B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for producing audio content for realizing customized being-there and method thereof
KR102505249B1 (ko) 2020-11-24 2023-03-03 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 전송하는 컴퓨터 시스템 및 그의 방법
JP2022083443A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法
WO2023131398A1 (en) * 2022-01-04 2023-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for implementing versatile audio object rendering

Family Cites Families (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2605361A (en) 1950-06-29 1952-07-29 Bell Telephone Labor Inc Differential quantization of communication signals
JP3576936B2 (ja) 2000-07-21 2004-10-13 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
ATE473502T1 (de) * 2005-03-30 2010-07-15 Koninkl Philips Electronics Nv Mehrkanal-audiocodierung
ATE406651T1 (de) * 2005-03-30 2008-09-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN101288115A (zh) * 2005-10-13 2008-10-15 Lg电子株式会社 用于处理信号的方法和装置
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN101410891A (zh) * 2006-02-03 2009-04-15 韩国电子通信研究院 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
DE602007004451D1 (de) 2006-02-21 2010-03-11 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
EP2005787B1 (en) 2006-04-03 2012-01-25 Srs Labs, Inc. Audio signal processing
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
US8326609B2 (en) 2006-06-29 2012-12-04 Lg Electronics Inc. Method and apparatus for an audio signal processing
MY151651A (en) 2006-07-04 2014-06-30 Dolby Int Ab Filter compressor and method for manufacturing compressed subband filter impulse responses
EP2575129A1 (en) * 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
MX2008012250A (es) * 2006-09-29 2008-10-07 Lg Electronics Inc Metodos y aparatos para codificar y descodificar señales de audio basadas en objeto.
MY145497A (en) 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008063034A1 (en) * 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
EP2595148A3 (en) 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for coding multi-object audio signals
WO2008100100A1 (en) * 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
RU2394283C1 (ru) 2007-02-14 2010-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
CN101542596B (zh) * 2007-02-14 2016-05-18 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
JP5541928B2 (ja) * 2007-03-09 2014-07-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
KR20080082917A (ko) * 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
JP5161893B2 (ja) 2007-03-16 2013-03-13 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
US7991622B2 (en) 2007-03-20 2011-08-02 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
KR101422745B1 (ko) * 2007-03-30 2014-07-24 한국전자통신연구원 다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩장치 및 방법
ES2452348T3 (es) * 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
MY146431A (en) 2007-06-11 2012-08-15 Fraunhofer Ges Forschung Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009049895A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
MX2010002629A (es) 2007-11-21 2010-06-02 Lg Electronics Inc Metodo y aparato para procesar una señal.
KR101024924B1 (ko) * 2008-01-23 2011-03-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
KR101061129B1 (ko) * 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
PL2146344T3 (pl) 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
US8351612B2 (en) 2008-12-02 2013-01-08 Electronics And Telecommunications Research Institute Apparatus for generating and playing object based audio contents
KR20100065121A (ko) * 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
US8620008B2 (en) * 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8139773B2 (en) * 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
WO2010090019A1 (ja) * 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
RU2520329C2 (ru) 2009-03-17 2014-06-20 Долби Интернешнл Аб Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования
WO2010105695A1 (en) 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
US8909521B2 (en) 2009-06-03 2014-12-09 Nippon Telegraph And Telephone Corporation Coding method, coding apparatus, coding program, and recording medium therefor
TWI404050B (zh) 2009-06-08 2013-08-01 Mstar Semiconductor Inc 多聲道音頻信號解碼方法與裝置
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101283783B1 (ko) 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
CN102171754B (zh) * 2009-07-31 2013-06-26 松下电器产业株式会社 编码装置以及解码装置
KR101805212B1 (ko) 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
TWI463485B (zh) 2009-09-29 2014-12-01 Fraunhofer Ges Forschung 音訊信號解碼器或編碼器、用以提供上混信號表示型態或位元串流表示型態之方法、電腦程式及機器可存取媒體
WO2011048067A1 (en) 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Apparatus for providing an upmix signal representation on the basis of a downmix signal representation, apparatus for providing a bitstream representing a multichannel audio signal, methods, computer program and bitstream using a distortion control signaling
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
CN102823273B (zh) 2010-03-23 2015-12-16 杜比实验室特许公司 用于局域化感知音频的技术
US8675748B2 (en) 2010-05-25 2014-03-18 CSR Technology, Inc. Systems and methods for intra communication system information transfer
US8755432B2 (en) 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
TWI489450B (zh) * 2010-12-03 2015-06-21 Fraunhofer Ges Forschung 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式
TWI716169B (zh) 2010-12-03 2021-01-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
CN103649706B (zh) 2011-03-16 2015-11-25 Dts(英属维尔京群岛)有限公司 三维音频音轨的编码及再现
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
JP5740531B2 (ja) 2011-07-01 2015-06-24 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトベースオーディオのアップミキシング
KR102185941B1 (ko) 2011-07-01 2020-12-03 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
CA3151342A1 (en) 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and tools for enhanced 3d audio authoring and rendering
CN102931969B (zh) 2011-08-12 2015-03-04 智原科技股份有限公司 数据提取的方法与装置
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
WO2013075753A1 (en) 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
CN105229731B (zh) 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding

Also Published As

Publication number Publication date
EP3025333A1 (en) 2016-06-01
JP2016527558A (ja) 2016-09-08
RU2016105469A (ru) 2017-08-25
CA2918869A1 (en) 2015-01-29
TW201519217A (zh) 2015-05-16
JP6395827B2 (ja) 2018-09-26
US20160142847A1 (en) 2016-05-19
EP2830050A1 (en) 2015-01-28
JP6873949B2 (ja) 2021-05-19
ES2959236T3 (es) 2024-02-22
HK1225505A1 (zh) 2017-09-08
ES2768431T3 (es) 2020-06-22
MY192210A (en) 2022-08-08
CA2918529A1 (en) 2015-01-29
ZA201600984B (en) 2019-04-24
RU2016105472A (ru) 2017-08-28
MX357511B (es) 2018-07-12
JP2016528542A (ja) 2016-09-15
CN105593930A (zh) 2016-05-18
CN112839296B (zh) 2023-05-09
AU2014295216A1 (en) 2016-03-10
MX2016000914A (es) 2016-05-05
CN105593929A (zh) 2016-05-18
US11330386B2 (en) 2022-05-10
EP3025333B1 (en) 2019-11-13
JP6333374B2 (ja) 2018-05-30
RU2660638C2 (ru) 2018-07-06
BR112016001243B1 (pt) 2022-03-03
CA2918529C (en) 2018-05-22
WO2015011024A1 (en) 2015-01-29
EP3025335A1 (en) 2016-06-01
US9699584B2 (en) 2017-07-04
SG11201600396QA (en) 2016-02-26
TWI560701B (en) 2016-12-01
KR20160053910A (ko) 2016-05-13
CN112839296A (zh) 2021-05-25
CN105593929B (zh) 2020-12-11
JP2018185526A (ja) 2018-11-22
TW201519216A (zh) 2015-05-16
RU2666239C2 (ru) 2018-09-06
US9578435B2 (en) 2017-02-21
US20170272883A1 (en) 2017-09-21
WO2015010999A1 (en) 2015-01-29
EP2830048A1 (en) 2015-01-28
PL3025333T3 (pl) 2020-07-27
AU2014295216B2 (en) 2017-10-19
PT3025333T (pt) 2020-02-25
BR112016001244A2 (pt) 2017-07-25
EP3025335B1 (en) 2023-08-30
TWI560700B (en) 2016-12-01
CN105593930B (zh) 2019-11-08
MX355589B (es) 2018-04-24
US10701504B2 (en) 2020-06-30
CA2918869C (en) 2018-06-26
KR101852951B1 (ko) 2018-06-04
KR20160041941A (ko) 2016-04-18
AU2014295270B2 (en) 2016-12-01
MX2016000851A (es) 2016-04-27
AU2014295270A1 (en) 2016-03-10
US20160142846A1 (en) 2016-05-19
BR112016001243A2 (pt) 2017-07-25
PL3025335T3 (pl) 2024-02-19
EP3025335C0 (en) 2023-08-30
SG11201600460UA (en) 2016-02-26
KR101774796B1 (ko) 2017-09-05
MY176990A (en) 2020-08-31
US20200304932A1 (en) 2020-09-24

Similar Documents

Publication Publication Date Title
US11330386B2 (en) Apparatus and method for realizing a SAOC downmix of 3D audio content
JP6239109B2 (ja) 低遅延オブジェクト・メタデータ符号化の装置と方法
BR112016001143B1 (pt) Codificador de áudio para codificar dados de entrada de áudio para obter dados de saída de áudio, decodificador de áudio para decodificar dados de áudio codificados e método de codificação de dados de entrada de áudio para obter dados de saída de áudio

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 16/07/2014, OBSERVADAS AS CONDICOES LEGAIS.