BR122021008665B1 - Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio - Google Patents

Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio Download PDF

Info

Publication number
BR122021008665B1
BR122021008665B1 BR122021008665-6A BR122021008665A BR122021008665B1 BR 122021008665 B1 BR122021008665 B1 BR 122021008665B1 BR 122021008665 A BR122021008665 A BR 122021008665A BR 122021008665 B1 BR122021008665 B1 BR 122021008665B1
Authority
BR
Brazil
Prior art keywords
parameters
signal representation
adjusted
coefficients
parameter
Prior art date
Application number
BR122021008665-6A
Other languages
English (en)
Inventor
Cornelia FALCH
Jürgen Herre
Leon Terentiv
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority claimed from BR112012008921-8A external-priority patent/BR112012008921B1/pt
Publication of BR122021008665B1 publication Critical patent/BR122021008665B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Amplifiers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stored Programmes (AREA)

Abstract

um mecanismo para fornecer um ou mais parâmetros ajustados para uma provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associadas à representação de sinal downmix compreende um ajustador de parâmetro. o ajustador de parâmetro é configurado para receber um ou mais parâmetros e para fornecer, com base nisso, um ou mais parâmetros ajustados. o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros ajustados em dependência de um valor médio de uma pluralidade de valores de parâmetro, de modo que uma distorção da representação de sinal upmix causada pelo uso dos parâmetros não ideais é reduzida pelo menos para os parâmetros desviando-se dos parâmetros ideais em mais do que um desvio pré-determinado.

Description

Pedido dividido do BR 11 2012 008921 8 depositado em 15/10/2010 originado do PCT/EP2010065503. Campo Técnico
[0001] Uma realização de acordo com a invenção é relacionada a um mecanismo para fornecer um ou mais parâmetros ajustados para uma provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada à representação de sinal downmix.
[0002] Outra realização de acordo com a invenção é relacionada a um mecanismo para fornecer uma representação de sinal upmix com base na representação de sinal downmix e a informação lateral paramétrica.
[0003] Outra realização de acordo com a invenção é relacionada a um método para fornecer um ou mais parâmetros ajustados para uma provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada à representação de sinal downmix.
[0004] Outra realização de acordo com a invenção é relacionada a um programa de computador para realizar o referido método.
[0005] Algumas realizações de acordo com a invenção são relacionadas a um esquema de limitação de parâmetro para controle de distorção em MPEG SAOC.
Histórico da Invenção
[0006] Na técnica de processamento de áudio, transmissão de áudio e armazenamento de áudio, existe um desejo crescente para manuseio conteúdos multicanais para melhorar a impressão de audição. A utilização do conteúdo de áudio multicanal provoca melhorias significativas para o usuário. Por exemplo, uma impressão de audição tridimensional pode ser obtida, que provoca uma satisfação melhorada de usuário nos aplicativos de entretenimento. Entretanto, os conteúdos de áudio multicanais também são úteis nos ambientes profissionais, por exemplo, nos aplicativos de conferência telefônica, pois a inteligibilidade do locutor pode ser melhorada ao usar uma reprodução de áudio multicanal.
[0007] Entretanto, também é desejável ter uma boa troca entre a qualidade de áudio e exigências de taxa de bit com a finalidade de evitar uma carga excessiva de recurso causada por aplicativos multicanais.
[0008] Recentemente, as técnicas paramétricas para a transmissão eficiente de taxa de bit e/ou armazenamento de cenas de áudio contendo múltiplos objetos de áudio foram propostas, por exemplo, Binaural Cue Coding (Tipo I) (vide, por exemplo, referência [1]), Joint Source Coding (vide, por exemplo, referência [2]), e MPEG Spatial Audio Object Coding (SAOC) (vide, por exemplo, referências [3], [4], [5]).
[0009] Em combinação com a interatividade de usuário no lado receptor, tais técnicas podem levar a uma baixa qualidade de áudio dos sinais de saída se a prestação de objeto extremo for realizada (vide, por exemplo, referência [6]).
[00010] Essas técnicas têm o objeto de perceptivamente reconstruir a cena de áudio de saída desejada, ao invés de, por uma combinação de forma de onda.
[00011] A Fig. 8 mostra uma visão geral do sistema de tal sistema (aqui: MPEG SAOC). O sistema MPEG SAOC 800 mostrado na Fig. 8 compreende um codificador SAOC 810 e um decodificador SAOC 820. O codificador SAOC 810 recebe uma pluralidade de sinais de objeto x1 a xN, que pode ser representada, por exemplo, como sinais de domínio de tempo ou como sinais de domínio de frequência de tempo (por exemplo, na forma de um conjunto de coeficientes de transformação de uma transformação do tipo Fourier, ou na forma de sinais de subfaixa QMF). O codificador SAOC 810 tipicamente também recebe os coeficientes downmix d1 a dN, que são associados aos sinais de objeto x1 a xN. Os conjuntos separados de coeficientes downmix podem estar disponíveis para cada canal do sinal downmix. O codificador SAOC 810 é tipicamente configurado para obter um canal do sinal downmix ao combinar os sinais de objeto x1 a xN em conformidade com os coeficientes associados downmix d1 a dN. Tipicamente, existem menos canais downmix do que os sinais de objeto x1 a xN. Com a finalidade de permitir (pelo menos aproximadamente) uma separação (ou tratamento separado) dos sinais de objeto no lado do decodificador SAOC 820, o codificador SAOC 810 fornece ambos de um ou mais sinais downmix (designados como canais downmix) 812 e uma informação lateral 814. A informação lateral 814 descreve as características dos sinais de objeto x1 a xN, com a finalidade de permitir um processamento específico de objeto do lado do decodificador.
[00012] O decodificador SAOC 820 é configurado para receber ambos de um ou mais sinais downmix 812 e informação lateral 814. Da mesma forma, o decodificador SAOC 820 é tipicamente configurado para receber uma informação de interação de usuário e/ou uma informação de controle de usuário 822, que descreve uma configuração desejada de prestação. Por exemplo, a informação de interação de usuário/informação de controle de usuário 822 pode descrever uma configuração de locutor e a colocação espacial desejada dos objetos que fornecem os sinais de objeto x1 a xN.
[00013] O decodificador SAOC 820 é configurado para fornecer, por exemplo, uma pluralidade de sinais de canal upmix decodificados y1 a yM. O sinais de canal upmix pode, por exemplo, ser associado aos locutores individuais de um arranjo de prestação de multi-locutor. O decodificador SAOC 820 pode, por exemplo, compreender um separador de objeto 820a, que é configurado para reconstruir, pelo menos aproximadamente, os sinais de objeto x1 a xN com base em um ou mais sinais downmix 812 e a informação lateral 814, assim obtendo os sinais de objeto reconstruídos 820b. Entretanto, os sinais de objeto reconstruídos 820b podem desviar de algum modo dos sinais de objeto originais x1 a xN, por exemplo, pois a informação lateral 814 não é bem suficiente para uma reconstrução perfeita devido às restrições de taxa de bit. O decodificador SAOC 820 pode ainda compreender um misturador 820c, que pode ser configurado para receber os sinais de objeto reconstruídos 820b e a informação de interação de usuário/informação de controle de usuário 822, e para fornecer, com base nisso, os sinais de canal upmix y1 a yM. O misturador 820c pode ser configurado para usar a informação de interação de usuário /informação de controle de usuário 822 para determinar a contribuição dos sinais de objeto reconstruídos individuais 820b aos sinais de canal upmix y1 a yM. A informação de interação de usuário/informação de controle de usuário 822 pode, por exemplo, compreender a parâmetros de prestação (também designados como coeficientes de prestação), que determinam a contribuição dos sinais de objeto reconstruídos individuais 822 aos sinais de canal upmix y1 a yM.
[00014] Entretanto, deve ser observado que em muitas realizações, a separação de objeto, que é indicada pelo separador de objeto 820a na Fig. 8, e a mistura, que é indicada pelo misturador 820c na Fig. 8, são realizadas em uma única etapa. Para essa finalidade, os parâmetros gerais podem ser computados que descrevem um mapeamento direto de um ou mais sinais downmix 8i2 nos sinais de canal upmix y1 a yM. Esses parâmetros podem ser computados com base na informação lateral e informação de interação de usuário/informação de controle de usuário 820.
[00015] Com referência agora às Figs. 9a, 9b e 9c, diferente mecanismo para obter uma representação de sinal upmix com base em uma representação de sinal downmix e informação lateral relacionada ao objeto será descrito. Deve ser observado que a informação lateral relacionada ao objeto é um exemplo de uma informação lateral associado ao sinal downmix. A Fig. 9a mostra um diagrama esquemático de bloco de um sistema MPEG SAOC 900 compreendendo um decodificador SAOC 920. O decodificador SAOC 920 compreende, como blocos funcionais separados, um decodificador de objeto 922 e um misturador/prestador 926. O decodificador de objeto 922 fornece uma pluralidade de sinais de objeto reconstruídos 924 em dependência da representação de sinal downmix (por exemplo, na forma de um ou mais sinais downmix representados no domínio de tempo ou no domínio de frequência de tempo) e informação lateral relacionada ao objeto (por exemplo, na forma de metadados de objeto). O misturador/prestador 926 recebe os sinais de objeto reconstruídos 924 associados a uma pluralidade de objetos N e fornece, com base nisso e na informação de prestação, um ou mais sinais de canal upmix 928. No decodificador SAOC 920, a extração dos sinais de objeto 924 é realizada separadamente da mistura/prestação que permite uma separação da funcionalidade de decodificação de objeto a partir da funcionalidade de mistura/prestação, porém provoca uma complexidade computacional relativamente alta.
[00016] Com referência agora à Fig. 9b, outro sistema MPEG SAOC 930 será brevemente discutido, que compreende um decodificador SAOC 950. O decodificador SAOC 950 fornece uma pluralidade de sinais de canal upmix 958 em dependência de uma representação de sinal downmix (por exemplo, na forma de um ou mais sinais downmix) e uma informação lateral relacionada ao objeto (por exemplo, na forma de metadados de objeto). O decodificador SAOC 950 compreende um decodificador de objeto e misturador/prestador combinados, que são configurados para obter os sinais de canal upmix 958 em um processo conjunto de mistura sem uma separação de decodificação de objeto e mistura/prestação, caracterizado pelo fato de que os parâmetros para o referido processo conjunto upmix são dependentes de ambas a informação lateral relacionada ao objeto e a informação de prestação. O processo conjunto upmix também depende da informação downmix, que é considerada como parte da informação lateral relacionada a objeto.
[00017] Para resumir o acima, a provisão dos sinais de canal upmix 928, 958 pode ser realizada em um processo de uma etapa ou um processo de duas etapas.
[00018] Com referência agora à Fig. 9c, um sistema MPEG SAOC 960 será descrito. O sistema SAOC 960 compreende um transcodificador SAOC para MPEG Surround 980, ao invés de um decodificador SAOC.
[00019] O transcodificador SAOC para MPEG Surround compreende um transcodificador de informação lateral 982, que é configurado para receber a informação lateral relacionada ao objeto (por exemplo, na forma de metadados de objeto) e, opcionalmente, informação sobre um ou mais sinais downmix e informação de prestação. O transcodificador de informação lateral também é configurado para fornecer uma informação lateral MPEG Surround (por exemplo, na forma de uma corrente de bit MPEG Surround) com base nos dados recebidos. De forma correspondente, o transcodificador de informação lateral 982 é configurado para transformar uma informação lateral relacionada ao objeto (paramétrica), que é recebida a partir do codificador de objeto, em uma informação lateral relacionada ao canal (paramétrica), considerando a informação de prestação e, opcionalmente, a informação sobre o conteúdo de um ou mais sinais downmix.
[00020] Opcionalmente, o transcodificador SAOC para MPEG Surround 980 pode ser configurado para manipular um ou mais sinais downmix, descritos, por exemplo, pela representação de sinal downmix, para obter uma representação manipulada de sinal downmix 988. Entretanto, o manipulador de sinal downmix 986 pode ser omitido, de modo que a representação de sinal de saída downmix 988 do transcodificador SAOC para MPEG Surround 980 é idêntica à representação de sinal de entrada downmix do transcodificador SAOC para MPEG Surround. O manipulador de sinal downmix 986 pode, por exemplo, ser usado se a informação lateral MPEG Surround relacionada ao canal 984 não permitiria fornecer uma impressão de audição desejada com base na representação de sinal de entrada downmix do transcodificador SAOC para MPEG Surround 980, que pode ser o caso em algumas constelações de prestação.
[00021] De forma correspondente, o transcodificador SAOC para MPEG Surround 980 fornece a representação de sinal downmix 988 e a corrente de bit MPEG Surround 984 de modo que uma pluralidade de sinais de canal upmix, que representa os objetos de áudio em conformidade com a entrada de informação de prestação ao transcodificador SAOC para MPEG Surround 980 pode ser gerada usando um decodificador MPEG Surround que recebe a corrente de bit MPEG Surround 984 e a representação de sinal downmix 988.
[00022] Para resumir o acima, diferentes conceitos para decodificar sinais de áudio codificados por SAOC podem ser usados. Em alguns casos, um decodificador SAOC é usado, que fornece os sinais de canal upmix (por exemplo, sinais de canal upmix 928, 958) em dependência da representação de sinal downmix e a informação lateral relacionada ao objeto paramétrica. Os exemplos para esse conceito podem ser vistos nas Figs. 9a e 9b. Alternativamente, a informação de áudio codificada por SAOC pode ser transcodificada para obter uma representação de sinal downmix (por exemplo, uma representação de sinal downmix 988) e uma informação lateral relacionada ao canal (por exemplo, a corrente de bit MPEG Surround relacionada ao canal 984), que podem ser usadas por um decodificador MPEG Surround para fornecer os sinais desejados de canal upmix.
[00023] No sistema MPEG SAOC 800, uma visão geral do sistema, o qual é fornecido na Fig. 8, o processamento geral é conduzido de uma forma seletiva de frequência e pode ser descrita conforme segue dentro de cada faixa de frequência: • Os sinais de objeto de áudio de entrada N x1 a xN são realizados por downmix como parte do processamento do codificador SAOC. Para um downmix mono, os coeficientes downmix são denotados por d1 a dN. Além disso, o codificador SAOC 810 extrai a informação lateral 814 descrevendo as características dos objetos de áudio de entrada. Para MPEG SAOC, as relações das potências de objeto com relação entre si são a forma mais básica de tal informação lateral. • O sinal downmix (ou sinais) 812 e informação lateral 814 são transmitidos e/ou armazenados. Para essa finalidade, o sinal de áudio downmix pode ser comprimido usando dispositivos de codificação de áudio de percepção bem conhecidos, tais como, MPEG- 1 Camada II ou III (também conhecido como ".mp3"), Codificação de Áudio Avançado MPEG (AAC), ou qualquer outro dispositivo de codificação de áudio. • Na extremidade receptora, o decodificador SAOC 820 conceitualmente tenta restaurar o sinal de objeto original ("separação de objeto") usando a informação lateral transmitida 814 (e, naturalmente, um ou mais sinais downmix 812). Esses sinais de objeto aproximados (também designados como sinais de objeto reconstruídos 820b) são então misturados em uma cena alvo representada pelos canais de saída de áudio M (que podem, por exemplo, ser representados pelos sinais de canal upmix y1 a yM) usando a matriz de prestação. Para uma saída mono, os coeficientes de matriz de prestação são fornecidos por r1 a rN . • Efetivamente, a separação dos sinais de objeto é raramente executada (ou ainda nunca executada), já que ambas a etapa de separação (indicada pelo separador de objeto 820a) e a etapa de mistura (indicada pelo misturador 820c) são combinadas em uma única etapa de transcodificação, que frequentemente resulta em uma enorme redução na complexidade computacional.
[00024] Foi averiguado que tal esquema é tremendamente eficiente, tanto em termos de taxa de bit de transmissão (somente é necessário transmitir poucos canais downmix mais alguma informação lateral, ao invés de sinais de áudio de objeto discreto N ou um sistema discreto) e complexidade computacional (a complexidade de processamento relaciona-se principalmente ao número de canais de saída, ao invés do número de objetos de áudio). As vantagens adicionais para o usuário na extremidade receptora incluem a liberdade de escolher uma configuração de prestação de sua escolha (mono, estéreo, surround, reprodução virtualizada de fone de ouvido, e etc.) e o recurso da interatividade de usuário: a matriz de prestação e, dessa forma, a cena de saída, podem ser definidas e alteradas interativamente pelo usuário de acordo com a vontade, preferência pessoal ou outros critérios. Por exemplo, é possível localizar os faladores de um grupo junto em uma área espacial para maximizar a discriminação de outros faladores restantes. Essa interatividade é atingida ao fornecer uma interface de usuário de decodificador.
[00025] Para cada objeto de som transmitido, seu nível relativo e (para prestação não mono) a posição espacial de prestação podem ser ajustados. Isso pode ocorrer em tempo real conforme o usuário muda a posição dos indicadores associados de interface gráfica de usuário (GUI) (por exemplo: nível de objeto = +5dB, posição de objeto = -30deg).
[00026] Entretanto, foi averiguado que a escolha do lado do decodificador dos parâmetros para a provisão da representação de sinal upmix (p.ex., os sinais de canal upmix y1 a yM) provoca as degradações audíveis em alguns casos.
[00027] Considerando essa situação, é o objetivo da presente invenção criar um conceito que permite reduzir ou ainda evitar a distorção audível ao fornecer uma representação de sinal upmix (por exemplo, na forma de sinais de canal upmix y1 a yM).
Sumário da Invenção
[00028] Esse problema é resolvido por um mecanismo para fornecer um ou mais parâmetros adaptados para uma provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada à representação de sinal downmix. O mecanismo compreende um ajustador de parâmetro configurado para receber um ou mais parâmetros (que podem ser parâmetros de entrada em algumas realizações) e para fornecer, com base nisso, um ou mais parâmetros ajustados. O ajustador de parâmetro é configurado para fornecer um ou mais parâmetros ajustados em dependência de um valor médio de uma pluralidade de valores de parâmetro (que podem ser valores de parâmetro de entrada em algumas realizações), de modo que a distorção da representação de sinal upmix causada pelo uso de parâmetros não ideais é reduzida pelo menos para os parâmetros (ou parâmetros de entrada) desviando dos parâmetros ideais em mais do que um desvio pré-determinado.
[00029] Esta realização de acordo com a invenção é com base na ideia de que um valor médio de uma pluralidade de valores de parâmetro de entrada constitui uma quantidade significativa que permite um ajuste de parâmetros, que são usados para uma provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada à representação de sinal downmix, pois as distorções são frequentemente causadas por desvios excessivos de tal valor médio. O uso de um valor médio permite um ajuste de um ou mais parâmetros, para evitar tais desvios excessivos do valor médio (também, por vezes, designados como um valor mediano), consequentemente provocando a possibilidade de evitar uma qualidade de áudio excessivamente degradada.
[00030] A realização acima discutida fornece um conceito para a proteção da qualidade subjetiva do som da cena SAOC prestada para a qual todo o processamento pode ser conduzido totalmente dentro de um decodificador/transcodificador SAOC, pois o decodificador/transcodificador SAOC compreende toda a informação exigida para o ajuste dos parâmetros. Da mesma forma, a realização acima descrita não envolve o cálculo explícito de medidas sofisticadas da qualidade percebida de áudio da cena prestada, pois foi averiguado que uma limitação de um desvio entre um valor de parâmetro e um valor médio tipicamente resulta em uma boa impressão de audição enquanto grandes desvios entre um valor de parâmetro e um valor médio tipicamente resulta em distorções audíveis. Dessa forma, a realização acima discutida fornece um mecanismo especificamente eficiente, isto é, o uso do valor médio, para adequadamente ajustar os parâmetros que são considerados para a provisão da representação de sinal upmix.
[00031] Em uma realização preferida, o ajustador de parâmetro do mecanismo é configurado para fornecer um ou mais parâmetros ajustados em dependência de um valor médio que é uma média ponderada de uma pluralidade de valores de parâmetro. O uso de uma média ponderada fornece um alto grau de liberdade, pois é possível alocar diferentes pesos para diferentes dos valores de parâmetro. Entretanto, a alocação dos pesos idênticos aos valores de parâmetro também é possível.
[00032] Em uma realização preferida, o ajustador de parâmetro do mecanismo é configurado para fornecer um ou mais parâmetros ajustados, de modo que um ou mais parâmetros ajustados desviam do valor médio menos do que os parâmetros recebidos correspondentes. Ao trazer os parâmetros ajustados próximos ao valor médio, ou ao ainda definir os parâmetros ajustados para serem iguais ao valor médio, uma redução significativa de distorções pode ser atingida.
[00033] Em uma realização preferida, o mecanismo é configurado para receber um ou mais coeficientes de prestação (também designados como parâmetros de prestação) descrevendo as contribuições dos objetos de áudio a um ou mais canais da representação de sinal upmix. Neste caso, o mecanismo é preferivelmente configurado para fornecer um ou mais coeficientes ajustados de prestação como os parâmetros ajustados. Foi averiguado que o ajuste dos parâmetros de prestação em dependência de um valor médio de uma pluralidade de parâmetros de prestação, que servem como valores de parâmetro de entrada, provoca a possibilidade de obter parâmetros ajustados de prestação bem adequados, que evitam distorções audíveis excessivas.
[00034] Em uma realização preferida, o ajustador de parâmetro é configurado para receber, como os parâmetros de entrada, uma pluralidade de coeficientes de prestação. Neste caso, o ajustador de parâmetro é configurado para computar uma média sobre os coeficientes de prestação associados a uma pluralidade de objetos de áudio. Da mesma forma, o ajustador de parâmetro é configurado para fornecer os coeficientes ajustados de prestação, de modo que tal desvio de um coeficiente ajustado de prestação a partir da média sobre os coeficientes de prestação associados a uma pluralidade de objetos de áudio é restrito. Esta realização de acordo com a invenção é com base no achado de que uma distorção da representação de sinal upmix causada pelo uso dos parâmetros não ideais de prestação é tipicamente reduzida, pelo menos para os parâmetros de prestação desviando dos parâmetros ideais de prestação por mais do que um desvio pré-determinado, se um desvio de um coeficiente ajustado de prestação a partir da média sobre os coeficientes de prestação associados a uma pluralidade de objetos de áudio for restrito. Dessa forma, um simples mecanismo, isto é, o ajuste dos coeficientes de prestação de modo que o desvio dos coeficientes ajustados de prestação a partir da média sobre os coeficientes de prestação associados a uma pluralidade de objetos de áudio é restrito, permite evitar distorções audíveis excessivas.
[00035] Em uma realização preferida, o ajustador de parâmetro é configurado para deixar um coeficiente de prestação, que está dentro de um intervalo de tolerância determinado em dependência da média sobre os coeficientes de prestação, inalterados, e para seletivamente definir um coeficiente de prestação, que é maior do que um valor superior de limite do intervalo de tolerância a um valor que é menor do que ou igual ao valor superior de limite, e seletivamente definir um coeficiente de prestação, que é menor do que um valor inferior de limite do intervalo de tolerância a um valor que é maior do que ou igual ao valor inferior de limite. De forma correspondente, um mecanismo muito simples é estabelecido para ajustar os coeficientes de prestação, caracterizado pelo fato de que esse simples mecanismo ainda permite obter coeficientes ajustados de prestação, que evita uma distorção excessiva da representação de sinal upmix que seria causada pelo uso dos parâmetros não ideais de prestação que são fortemente diferentes do valor médio.
[00036] Em uma realização preferida, o ajustador de parâmetro é configurado para iterativamente selecionar um respectivo dos coeficientes de prestação, que compreende um desvio máximo a partir da média sobre os coeficientes de prestação na respectiva iteração, e para trazer aquele de um dos coeficientes de prestação mais próximos à média sobre os coeficientes de prestação. De forma correspondente, os parâmetros de prestação que estão fora de um intervalo de tolerância determinado em dependência da média sobre os coeficientes de prestação são iterativamente trazidos ao intervalo de tolerância. Dessa forma, os parâmetros de prestação são ajustados em dependência do valor médio de modo que uma distorção da representação de sinal upmix causada pelo uso dos parâmetros não ideais de prestação é tipicamente reduzida (pelo menos para os parâmetros de prestação de entrada desviando dos parâmetros ideais de prestação em mais de um desvio pré-determinado).
[00037] Em uma realização preferida, o ajustador de parâmetro é configurado para repetir a seleção iterativa de um respectivo dos coeficientes de prestação e a modificação iterativa daquele de um dos coeficientes de prestação até todos os parâmetros de prestação serem ajustados para estarem dentro dos intervalos aplicáveis de tolerância. De forma correspondente, é garantido que as distorções audíveis na representação de sinal upmix sejam mantidas suficientemente pequenas.
[00038] Em uma realização preferida, o mecanismo é configurado para receber um ou mais coeficientes de transcodificação descrevendo um mapeamento de um ou mais canais da representação de sinal downmix em um ou mais canais da representação de sinal upmix. Neste caso, o mecanismo é configurado para fornecer um ou mais coeficientes ajustados de transcodificação como os parâmetros ajustados. Esta realização de acordo com a invenção é com base no achado de que os parâmetros de transcodificação também são bem adequados para um ajuste em dependência de um valor médio, pois grandes desvios dos coeficientes de transcodificação do valor médio tipicamente causam distorções audíveis. De forma correspondente, é possível reduzir as distorções da representação de sinal upmix causadas pelo uso dos parâmetros não ideais de transcodificação (pelo menos para parâmetros de transcodificação de entrada desviando-se dos parâmetros ideais de transcodificação em mais de um desvio pré- determinado) por um ajuste ou uma limitação dos parâmetros de transcodificação em dependência do valor médio.
[00039] Em uma realização preferida, o ajustador de parâmetro é configurado para receber, como o parâmetros de entrada, uma sequência temporal dos coeficientes de transcodificação (também designados como parâmetros de transcodificação). Neste caso, o ajustador de parâmetro é configurado para computar uma mediana temporal (também designada como uma média temporal) em dependência de uma pluralidade de coeficientes de transcodificação. Da mesma forma, o ajustador de parâmetro é configurado para fornecer os coeficientes ajustados de transcodificação de modo que um desvio dos coeficientes ajustados de transcodificação a partir da mediana temporal é restrito. Novamente, um simples mecanismo para evitar distorções audíveis excessivas de uma representação de sinal upmix causadas pelo uso de coeficientes não ideais de transcodificação é criado.
[00040] Em uma realização preferida, o ajustador de parâmetro é configurado para deixar um coeficiente de transcodificação, que está dentro de um intervalo de tolerância determinado em dependência da mediana temporal (que constitui o valor médio) inalterado. Da mesma forma, o ajustador de parâmetro é configurado para seletivamente definir um coeficiente de transcodificação, que é maior do que um valor superior de limite do intervalo de tolerância, a um valor que é menor do que ou igual ao valor superior de limite do intervalo de tolerância, e para seletivamente definir um coeficiente de transcodificação, que é menor do que um valor inferior de limite do intervalo de tolerância, a um valor que é maior do que ou igual ao valor inferior de limite. De forma correspondente, os coeficientes de transcodificação podem ser trazidos em um intervalo de tolerância bem definido, que permite reduzir distorções de uma representação de sinal upmix causadas pelo uso de coeficientes não ideais de transcodificação pelo menos para coeficientes de transcodificação desviando-se dos coeficientes ideais de transcodificação em mais do que um desvio pré-determinado. O intervalo de tolerância é escolhido de uma forma adaptável, conforme a mediana temporal é usada. Esse conceito é com base no achado de que fortes alterações temporais dos coeficientes de transcodificação tipicamente trazem as distorções audíveis e devem, portanto, ser limitadas em algum grau.
[00041] Em uma realização preferida, o ajustador de parâmetro é configurado para calcular a mediana temporal usando uma filtragem de passagem baixa recursiva da sequência de coeficientes de transcodificação. Esse conceito foi mostrado por trazer uma mediana temporal muito bem definida, que considera uma evolução de longo prazo dos coeficientes de transcodificação. Da mesma forma, foi averiguado que tal filtragem de passagem baixa recursiva da sequência de coeficientes de transcodificação pode ser efetuado com pouco esforço computacional e esforço de memória, que auxilia a reduzir as exigências de memória. Especificamente, é possível obter uma mediana temporal significativa sem armazenar o histórico de coeficiente de transcodificação por um período estendido de tempo.
[00042] Em uma realização preferida, o ajustador de parâmetro é configurado para fornecer determinado um de um ou mais parâmetros ajustados de modo que determinado um dos parâmetros ajustados está dentro de um intervalo de tolerância, cujos limites são definidos em dependência do valor médio da pluralidade dos valores de parâmetro de entrada e um ou mais parâmetros de tolerância, e de modo que um desvio entre um parâmetro de entrada e um parâmetro ajustado correspondente é minimizado ou mantido dentro de uma variação permissível máxima pré-determinada. Foi averiguado que os parâmetros ajustados trazendo uma boa impressão de audição podem ser obtidos ao restringir os parâmetros ajustados em um intervalo de tolerância enquanto também considera o objetivo para evitar diferenças excessivamente grandes entre um parâmetro de entrada e um parâmetro ajustado correspondente. De forma correspondente, uma distorção da representação de sinal upmix causada pelo uso dos parâmetros não ideais pode ser reduzida sem comprometer desnecessariamente as configurações auditivas desejadas definidas pelos parâmetros de entrada.
[00043] Em uma realização preferida, o ajustador de parâmetro é configurado para seletivamente definir um parâmetro de entrada, que é averiguado como fora do intervalo de tolerância, cujos limites do intervalo de tolerância são definidos em dependência do valor médio da pluralidade dos valores de parâmetro de entrada, a um valor superior de limite ou um valor inferior de limite do intervalo de tolerância, com a finalidade de obter uma versão ajustada do parâmetro de entrada.
[00044] Em outra realização preferida, o ajustador de parâmetro é configurado para iterativamente selecionar um respectivo dos parâmetros de entrada, que compreende um desvio máximo a partir do valor médio em uma respectiva iteração, e trazer um selecionado dos parâmetros de entrada mais próximos ao valor médio, com a finalidade de iterativamente trazer os parâmetros de entrada, que estão fora de um intervalo de tolerância (cujos limites são definidos em dependência do valor médio) no intervalo de tolerância.
[00045] Em uma realização preferida, o ajustador de parâmetro é configurado para escolher um tamanho de etapa usado para trazer um selecionado dos parâmetros de entrada mais próximo ao valor médio para ser uma fração pré-determinada de uma diferença entre um selecionado dos parâmetros de entrada e o valor médio.
[00046] Outra realização de acordo com a invenção cria um mecanismo para fornecer uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica. O referido mecanismo compreende um mecanismo para fornecer um ou mais parâmetros ajustados com base em um ou mais parâmetros de entrada, conforme acima discutido. O mecanismo para fornecer uma representação de sinal upmix também compreende um processador de sinal configurado para obter a representação de sinal upmix com base na representação de sinal downmix e uma informação lateral paramétrica. O mecanismo para fornecer um ou mais parâmetros ajustados é configurado para fornecer as versões ajustadas de um ou mais parâmetros de processamento do processador de sinal, por exemplo, da entrada dos parâmetros de prestação ao processador de sinal ou dos parâmetros de transcodificação computados no processador de sinal e aplicados pelo processador de sinal para obter a representação de sinal upmix.
[00047] Esta realização é com base no achado de que existe um grande número de parâmetros, que são aplicados pelo processador de sinal e inseridos no processador de sinal ou ainda calculados no processador de sinal, e que podem se beneficiar do ajuste de parâmetro acima discutido com base no valor médio. Foi averiguado que o processador de sinal tipicamente uma representação de sinal upmix de boa qualidade, com pequenas distorções, se um conjunto de parâmetros (por exemplo, um conjunto de coeficientes de prestação associados com diferentes objetos de áudio, ou um conjunto de valores de parâmetro de transcodificação associados às diferentes instâncias no tempo) for bem equilibrado, de modo que os valores individuais de tal conjunto de valores não compreendem desvios excessivamente grandes de um valor médio. Dessa forma, ao aplicar o mecanismo para fornecer um ou mais parâmetros ajustados em combinação com um mecanismo para fornecer uma representação de sinal upmix, os benefícios do conceito inventivo podem ser realizados.
[00048] Em uma realização preferida, o processador de sinal é configurado para fornecer a representação de sinal upmix em dependência de coeficientes ajustados de prestação descrevendo contribuições dos objetos de áudio a um ou mais canais da representação de sinal upmix. O mecanismo para fornecer um ou mais parâmetros ajustados é configurado para receber uma pluralidade de parâmetros de prestação especificados do usuário como parâmetros de entrada e para fornecer, com base nisso, um ou mais parâmetros ajustados de prestação para uso pelo processador de sinal (preferivelmente ao processador de sinal). Foi averiguado que os parâmetros de prestação bem equilibrados, que podem ser obtidos usando o mecanismo para fornecer um ou mais parâmetros ajustados, tipicamente resultam em uma boa impressão de audição.
[00049] Em outra realização, o mecanismo para fornecer um ou mais parâmetros ajustados é configurado para receber um ou mais elementos de matriz de mistura de uma matriz de mistura como um ou mais parâmetros de entrada, e para fornecer, com base nisso, um ou mais elementos ajustados de matriz de mistura da matriz de mistura para uso pelo processador de sinal. Neste caso, o processador de sinal é configurado para fornecer a representação de sinal upmix em dependência dos elementos ajustados de matriz de mistura da matriz de mistura, caracterizada pelo fato de que a matriz de mistura descreve um mapeamento de um ou mais sinais de canal de áudio da representação de sinal downmix (representada, por exemplo, na forma de uma representação de domínio de tempo ou na forma de uma representação de domínio de frequência de tempo) em um ou mais sinais de canal de áudio da representação de sinal upmix. Foi averiguado que os elementos de matriz de mistura também devem ser bem adaptados ao valor médio, por exemplo, de modo que as alterações temporais dos elementos de matriz de mistura são limitadas.
[00050] Em outra realização de acordo com a invenção, o processador de áudio é configurado para obter um Valor de ganho - downmix - arbitrário MPEG surround. Neste caso, o mecanismo para fornecer um ou mais parâmetros ajustados é configurado para receber uma pluralidade de valores de ganho - downmix - arbitrário como parâmetros de entrada, e para fornecer uma pluralidade de valores ajustados de ganho - downmix - arbitrário. Foi averiguado que uma aplicação do mecanismo para fornecer os parâmetros ajustados aos valores de ganho - downmix - arbitrário também resulta em uma boa impressão de audição e permite limitar as distorções audíveis.
[00051] As realizações adicionais de acordo com a invenção criam um método e um programa de computador para fornecer um ou mais parâmetros ajustados. As referidas realizações são com base nos mesmos achados que o mecanismo acima discutido e podem ser estendidas por quaisquer dos recursos e funcionalidades aqui discutidos com relação ao mecanismo inventivo.
Breve Descrição das Figuras
[00052] Fig. 1 mostra um diagrama esquemático de bloco de um mecanismo para fornecer um ou mais parâmetros ajustados, de acordo com uma realização da invenção;
[00053] Fig. 2 mostra um diagrama esquemático de bloco de um mecanismo para fornecer uma representação de sinal upmix, de acordo com uma realização da invenção;
[00054] Fig. 3 mostra um diagrama esquemático de bloco de um mecanismo para fornecer uma representação de sinal upmix, de acordo com outra realização da invenção;
[00055] Fig. 4 mostra uma representação esquemática dos esquemas de limitação de parâmetro usando um controle indireto e um controle direto;
[00056] Fig. 5a mostra uma tabela representando as condições de teste de audição;
[00057] Fig. 5b mostra uma tabela representando os itens de áudio do teste de audição;
[00058] Fig. 6 mostra uma tabela representando as condições de prestação extremas testadas;
[00059] Fig. 7 mostra uma representação gráfica dos resultados de teste de audição MUSHRA para diferentes esquemas de limitação de parâmetro (PLS);
[00060] Fig. 8 mostra um diagrama esquemático de bloco de um sistema MPEG SAOC de
[00061] Fig. 9a referência mostra um ; diagrama esquemático de bloco de um sistema SAOC de referência usando um decodificador e misturador separados;
[00062] Fig. 9b mostra um diagrama esquemático de bloco de um sistema SAOC de referência usando um decodificador e misturador integrados;
[00063] Fig. 9c mostra um diagrama esquemático de bloco de um sistema SAOC de referência usando um transcodificador SAOC para MPEG; e
[00064] Fig. 10 mostra uma tabela descrevendo quais coeficientes de transcodificação podem ser modificados pelo esquema proposto de limitação de parâmetro.
Descrição Detalhada das Realizações 1. Mecanismo para fornecer um ou mais parâmetros ajustados, de acordo com a Fig. 1
[00065] A seguir, um mecanismo para fornecer um ou mais parâmetros ajustados para uma provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada à representação de sinal downmix será descrito. A Fig. 1 mostra um diagrama esquemático de bloco de tal mecanismo 100.
[00066] O mecanismo 100 é configurado para receber um ou mais parâmetros de entrada 110 e para fornecer, com base nisso, um ou mais parâmetros ajustados 120. O mecanismo 100 compreende um ajustador de parâmetro 130 que é configurado para receber um ou mais parâmetros de entrada 110 e para fornecer, com base nisso, um ou mais parâmetros ajustados 120. O ajustador de parâmetro 130 é configurado para fornecer um ou mais parâmetros ajustados 120 em dependência de um valor médio 132 de uma pluralidade de valores de parâmetro de entrada, de modo que uma distorção de uma representação de sinal upmix causada pelo uso dos parâmetros não ideais (por exemplo, um ou mais parâmetros de entrada 110) é reduzida pelo menos para os parâmetros de entrada (por exemplo, parâmetros de entrada 110) desviando-se dos parâmetros ideais em mais do que um desvio pré-determinado. Por exemplo, o ajustador de parâmetro 130 pode ter o efeito de que um ou mais parâmetros ajustados 120 são "mais próximos" (no sentido de causar distorções menores) aos parâmetros ideais (que resultaria em uma representação de sinal upmix sem distorção) de um ou mais parâmetros de entrada 110.
[00067] Para essa finalidade, o ajustador de parâmetro 130 implanta uma computação de valor médio, para obter o valor médio 132 (por exemplo, como uma média temporal ou uma média entre objeto) de um conjunto dos parâmetros relacionados de entrada 110 (por exemplo, parâmetros de entrada associados a um intervalo de tempo comum, ou parâmetros de entrada do mesmo tipo de parâmetro associado às diferentes instâncias de tempo). Referente à operação do mecanismo 100, deve ser observado que a provisão de um ou mais parâmetros ajustados 120 com base em um ou mais parâmetros de entrada 110 é feita em dependência do valor médio 132, pois foi averiguado que o valor médio 132 é uma quantidade significativa para ajustar os parâmetros. Especificamente, foi averiguado que os parâmetros moderados (com relação ao valor médio) tipicamente trazem distorções moderadas.
[00068] Os detalhes adicionais serão descritos subsequentemente.
2. Mecanismo para fornecer uma representação de sinal upmix, de acordo com a Fig. 2
[00069] A seguir, um mecanismo para fornecer uma representação de sinal upmix de acordo com a Fig. 2 será descrito. A Fig. 2 mostra um diagrama esquemático de bloco de tal mecanismo 200, que pode ser considerado como um decodificador de sinal de áudio. Por exemplo, o mecanismo 200 pode compreender a funcionalidade de um decodificador SAOC ou um transcodificador SAOC.
[00070] O mecanismo 200 é configurado para receber uma representação de sinal downmix 210 e uma informação lateral paramétrica 212. Da mesma forma, o mecanismo 200 é configurado para receber os parâmetros de prestação especificados do usuário 214. O mecanismo é configurado para fornecer uma representação de sinal upmix 220.
[00071] A representação de sinal downmix 210 pode, por exemplo, ser uma representação do sinal de áudio de um canal ou de um sinal de áudio de dois canais. A representação de sinal downmix 210 pode, por exemplo, ser uma representação de domínio de tempo ou uma representação codificada. Em algumas realizações, a representação de sinal downmix 210 pode ser uma representação de domínio de frequência de tempo, em que um ou mais canais da representação de sinal downmix 210 são representados por conjuntos subsequentes de valores espectrais.
[00072] A representação de sinal upmix 220 pode, por exemplo, ser uma representação dos canais individuais de áudio, por exemplo, na forma de uma representação de domínio de tempo ou uma representação de domínio de frequência de tempo. Alternativamente, a representação de sinal upmix 220 pode ser uma representação codificada, compreendendo ambas uma representação de sinal downmix e uma informação lateral relacionada ao canal, por exemplo, uma informação lateral MPEG Surround.
[00073] Os parâmetros de prestação especificados do usuário 214 podem ser fornecidos na forma de entradas de matriz de prestação descrevendo as contribuições desejadas de uma pluralidade de objetos de áudio a um ou mais canais da representação de sinal upmix 220. Alternativamente, os parâmetros de prestação especificados do usuário 214 podem ser fornecidos em qualquer outra forma adequada, por exemplo, especificando uma posição de prestação desejada e volume de prestação dos objetos de áudio.
[00074] O mecanismo 200 compreende um processador de sinal 230, que é configurado para fornecer a representação de sinal upmix 220 com base na representação de sinal downmix 210 e a informação lateral paramétrica 212. O processador de sinal 230 compreende uma funcionalidade de nova mistura 232 com a finalidade de fornecer a representação de sinal upmix 220 com base na representação de sinal downmix 210. Por exemplo, a funcionalidade de nova mistura 232 pode ser configurada para linearmente combinar uma pluralidade de canais da representação de sinal downmix 212 com a finalidade de obter um ou mais canais da representação de sinal upmix 220. Nessa nova mistura, as contribuições dos canais da representação de sinal downmix 210 aos canais da representação de sinal upmix 220 podem ser determinadas por elementos de matriz de mistura de uma matriz de mistura G, caracterizada pelo fato de que uma primeira dimensão (por exemplo, um número de fileiras) da matriz de mistura G pode ser determinada pelo número de canais da representação de sinal upmix 220, e caracterizada pelo fato de que uma segunda dimensão (por exemplo, um número de colunas) da matriz de mistura G pode ser determinada por um número de canais da representação de sinal downmix 210.
[00075] Por exemplo, o processo de nova mistura 232 pode ser usado para fornecer um ou mais vetores compreendendo os valores espectrais associados a um ou mais canais da representação de sinal upmix 220 ao multiplicar um ou mais vetores compreendendo os valores espectrais de um ou mais canais da representação de sinal downmix 210 com a matriz de mistura G.
[00076] O processador de sinal 230 também pode compreender uma computação de parâmetro de mistura 236 que fornece a matriz de mistura G (ou, de forma equivalente, seus elementos). Os elementos de matriz de mistura são determinados em dependência da informação lateral paramétrica 212 e parâmetros modificados de prestação 252 pela computação de parâmetro de mistura 236. Os elementos de matriz de mistura da matriz de mistura G são, por exemplo, fornecidos de modo que um ou mais canais da representação de sinal upmix 220 descrevem os objetos de áudio, que são representados por um ou mais canais da representação de sinal downmix 210, em conformidade com os parâmetros modificados de prestação 252. Para essa finalidade, a informação lateral paramétrica 212 é avaliada pela computação de parâmetro de mistura 236, caracterizada pelo fato de que a informação lateral paramétrica 212 compreende, por exemplo, uma informação de diferença de nível de objeto OLD, uma informação de correlação entre objeto IOC, uma informação de ganho downmix DMG e (opcionalmente) uma informação de diferença de nível de canal downmix DCLD. A informação de diferença de nível de objeto pode descrever, por exemplo, de uma forma de faixa de frequência, diferenças de nível entre uma pluralidade dos objetos de áudio. De forma semelhante, a informação de correlação entre objeto pode descrever, por exemplo, de forma de faixa de frequência, correlações entre uma pluralidade de objetos de áudio. A informação de ganho downmix e a informação de diferença de nível de canal downmix (opcional) podem descrever o downmix, que é realizado para combinar os sinais de objeto de áudio a partir de uma pluralidade de objetos de áudio em um ou mais canais da representação de sinal downmix, caracterizada pelo fato de que existem tipicamente mais objetos de áudio do que canais da representação de sinal downmix 210.
[00077] De forma correspondente, a computação de parâmetro de mistura 236 pode avaliar como os elementos de matriz de mistura devem ser escolhidos com a finalidade de obter uma representação de sinal upmix 220 compreendendo as propriedades estatísticas esperadas com base na informação lateral paramétrica 212 e parâmetros modificados de prestação 252.
[00078] O processador de sinal 230 pode opcionalmente compreende uma modificação de informação lateral ou transformação de informação lateral 240, que é configurado para receber a informação lateral paramétrica 212 e para fornecer uma informação lateral modificada (por exemplo, uma informação lateral MPEG Surround), de modo que a informação lateral modificada e a representação de sinal downmix novamente misturada associada fornecidas pelo processo de nova mistura 232 descrevem uma cena desejada de áudio.
[00079] Para resumir, o processador de sinal 230 pode, por exemplo, cumprir a funcionalidade do decodificador SAOC 820, caracterizado pelo fato de que a representação de sinal downmix 210 tem o papel de um ou mais sinais downmix 812, caracterizada pelo fato de que a informação lateral paramétrica 212 tem o papel da informação lateral 814, e caracterizada pelo fato de que a representação de sinal upmix 220 é equivalente aos sinais de canal de saída y1 a yM.
[00080] Alternativamente, o processador de sinal 230 pode compreender a funcionalidade do decodificador e misturador separados 920, caracterizada pelo fato de que a representação de sinal downmix 210 pode ter o papel de um ou mais sinais downmix, caracterizada pelo fato de que a informação lateral paramétrica 212 pode ter o papel de metadados de objeto, e caracterizada pelo fato de que a representação de sinal upmix 220 pode ter o papel de um ou mais sinais de canal de saída 928.
[00081] Alternativamente, o processador de sinal 230 pode compreender a funcionalidade do decodificador e misturador integrados 950, caracterizada pelo fato de que a representação de sinal downmix 210 pode ter o papel de um ou mais sinais downmix, caracterizada pelo fato de que a informação lateral paramétrica 212 pode ter o papel de metadados de objeto, e caracterizada pelo fato de que a representação de sinal upmix 220 pode ter o papel de um ou mais sinais de canal de saída 958.
[00082] Alternativamente, o processador de sinal 230 pode compreender a funcionalidade do transcodificador SAOC para MPEG surround 980, caracterizada pelo fato de que a representação de sinal downmix 210 pode ter o papel de um ou mais sinais downmix, caracterizada pelo fato de que a informação lateral paramétrica 212 pode ter o papel de metadados de objeto, e caracterizada pelo fato de que a representação de sinal upmix pode ser equivalente a um ou mais sinais downmix 988 quando obtidos em combinação com a corrente de bit MPEG surround 984.
[00083] Em qualquer caso, os parâmetros modificados de prestação 252 podem ter o papel da informação de controle/interação de usuário 822 ou da informação de prestação.
[00084] O mecanismo 200 também compreende um mecanismo 250 para fornecer os parâmetros ajustados de prestação. O mecanismo 250 para fornecer os parâmetros ajustados de prestação recebe os parâmetros de prestação especificados do usuário 214 e fornece, com base nisso, os parâmetros modificados de prestação 252. O mecanismo 250 é tipicamente configurado para calcular um valor médio sobre uma pluralidade de parâmetros de prestação especificados do usuário associados a diferentes objetos de áudio, para obter um valor médio. Da mesma forma, o mecanismo 250 é configurado para realizar uma limitação de parâmetro de prestação em dependência do valor médio, para obter os parâmetros modificados de prestação 252 ao limitar os parâmetros de prestação especificados do usuário 214. Um intervalo de tolerância, ao qual os parâmetros modificados de prestação 252 são limitados, é tipicamente determinado em dependência do valor médio, de modo que fortes desvios dos parâmetros modificados de prestação 252 do valor médio são evitados, mesmo se um ou mais dos parâmetros de prestação especificados do usuário 214 compreenderem tal forte desvio do valor médio. Dessa forma, as distorções excessivas dentro da representação de sinal upmix 220 são tipicamente evitadas, pois os parâmetros modificados de prestação 252, que compreendem o desvio entre objeto limitado, resultarão em uma representação de sinal upmix com baixas distorções, enquanto uma grande diferença entre os parâmetros de prestação associados aos diferentes objetos de áudio tipicamente resultaria em artefatos audíveis.
[00085] Deve ser observado aqui que o mecanismo 250 para fornecer os coeficientes ajustados de prestação pode compreender a mesma funcionalidade geral que o mecanismo 100 para fornecer um ou mais parâmetros ajustados, caracterizados pelo fato de que os parâmetros de prestação especificados do usuário 214 podem ter o papel de um ou mais parâmetros de entrada 110, e caracterizados pelo fato de que os parâmetros ajustados de prestação 252 podem ter o papel de um ou mais parâmetros ajustados 120.
[00086] Os detalhes referentes à provisão dos parâmetros modificados de prestação 252 serão abaixo discutidos, com referência à Fig. 4.
3. Mecanismo para fornecer uma representação de sinal upmix, de acordo com a Fig. 3
[00087] A seguir, um mecanismo para fornecer uma representação de sinal upmix de acordo com outra realização da invenção será descrito com referência à Fig. 3, que mostra um diagrama esquemático de bloco de tal mecanismo 300.
[00088] O mecanismo 300 tipicamente recebe o mesmo tipo de sinais de entrada e fornece o mesmo tipo de sinais de saída que o mecanismo 200, de modo que os numerais idênticos de referência são aqui usados para descrever sinais idênticos ou equivalentes. Para resumir, o mecanismo 300 recebe uma representação de sinal downmix 210, informação lateral paramétrica 212 e parâmetros de prestação especificados do usuário 214, e o mecanismo 300 fornece, com base nisso, uma representação de sinal upmix 220.
[00089] O mecanismo 300 compreende um processador de sinal 330, que pode ser substancialmente equivalente na funcionalidade ao processador de sinal 230. O processador de sinal 330 compreende uma funcionalidade de nova mistura 332, que é idêntica à funcionalidade de nova mistura 232 do processador de sinal 230 de modo que fornece os sinais de canal de áudio novamente misturados com base na representação de sinal downmix. Entretanto, a nova mistura 332 usa uma matriz de mistura ajustada, ao invés de uma matriz de mistura obtida diretamente de uma computação de parâmetro de mistura.
[00090] O processador de sinal 330 também compreende uma computação de parâmetro de mistura 336, que pode ser idêntica em função da computação de parâmetro de mistura 236 do processador de sinal 230. De forma correspondente, a computação de parâmetro de mistura 336 recebe a informação lateral paramétrica 212 e os parâmetros de prestação especificados do usuário 214, e fornece, com base nisso, uma matriz de mistura G (ou de forma equivalente,elementos de matriz de mistura da matriz de mistura G, que também são designado s com 337).
[00091] O processador de sinal 330 opcionalmente também compreende uma modificação de informação lateral 338, cuja funcionalidade é idêntica à modificação de informação lateral 240.
[00092] Além disso, o mecanismo 300 compreende um mecanismo 350 para fornecer os elementos ajustados de matriz de mistura. O mecanismo 350 pode ser parte ou não do processador de sinal 330. O mecanismo 350 é configurado para receber a matriz de mistura 337, G (ou, de forma equivalente, seus elementos de matriz de mistura), que são fornecidas pela computação de parâmetro de mistura 336, e para fornecer, com base nisso, uma matriz de mistura ajustada 352 G' (ou, de forma equivalente, seus elementos ajustados de matriz de mistura). Por exemplo, um conjunto de elementos de matriz de mistura e um conjunto de elementos ajustados de matriz de mistura podem ser fornecidos por faixa de frequência e por estrutura de áudio. Em outras palavras, a matriz de mistura G e a matriz de mistura modificada G' podem ser atualizadas uma vez por estrutura de áudio da representação de sinal downmix 210, se um processamento de forma de estrutura for escolhido. Entretanto, o intervalo atualizado pode ser diferente em alguns casos. Da mesma forma, não é necessário que existam múltiplas matrizes de mistura e matrizes de mistura ajustadas G, G' para diferentes faixas de frequência.
[00093] Entretanto, o mecanismo 350 é configurado para fornecer os elementos ajustados de matriz de mistura da matriz de mistura ajustada 352 com base nos elementos de matriz de mistura da matriz de mistura 337 fornecidos pela computação de parâmetro de mistura 336. Por exemplo, o processamento pode ser realizado individualmente por posição da matriz de mistura (ou matriz de mistura ajustada), de modo que uma sequência de elementos ajustados de matriz de mistura de determinada posição de matriz de mistura pode ser dependente de uma sequência de elementos de matriz de mistura da matriz de mistura 337 na mesma posição de matriz de mistura, porém independente dos elementos de matriz de mistura em diferentes posições de matriz de mistura.
[00094] O mecanismo 350 para fornecer um elemento ajustado matriz de mistura é configurado para fornecer um ou mais elementos ajustados de matriz de mistura da matriz de mistura ajustada 352 em dependência de um ou mais valores médios (por exemplo, um ou mais valores médios individuais de posição de matriz) computados com base na matriz de mistura 337. O mecanismo 350 para fornecer os elementos ajustados de matriz de mistura da matriz de mistura ajustada 352 é preferivelmente configurado para calcular um valor médio dos elementos de matriz de mistura em determinada posição de matriz de mistura com o tempo. Dessa forma, para determinada posição de matriz de mistura, um valor médio (preferivelmente, porém não necessariamente, um valor médio temporal, como, por exemplo, uma média flutuante ou um valor médio de resposta de impulso quase infinito ou um valor médio obtido por uma filtragem de passagem baixa recursiva ou operações matemáticas semelhantes bem conhecidas para o cálculo de média do tempo) pode ser computado com base em uma sequência de elementos de matriz de mistura de determinada posição de matriz de mistura. Por exemplo, uma sequência de elementos de matriz de mistura descrevendo uma contribuição de determinado canal da representação de sinal downmix 210 em determinado canal da representação de sinal upmix 220, cujos elementos de matriz de mistura são associados com uma pluralidade de estruturas de áudio, podem ser usados com a finalidade de obter tal valor médio (também designa como valor mediano), cujo valor médio pode ser um valor médio de resposta de impulso finito ou um valor médio de resposta de impulso (quase) infinito (obtido, por exemplo, usando uma filtragem de passagem baixa recursiva ou operações matemáticas semelhantes bem conhecidas para o cálculo de média do tempo). Um elemento ajustado matriz de mistura atual de determinada posição de matriz de mistura (descrevendo a contribuição de determinado canal da representação de sinal downmix 210 em determinado canal da representação de sinal upmix 220) pode ser limitado pelo mecanismo 350 em um intervalo de tolerância que é definido em dependência do valor médio associado em determinada posição de matriz de mistura.
[00095] De forma correspondente, as flutuações temporais excessivas dos elementos de matriz de mistura são evitadas, pois os elementos ajustados de matriz de mistura são restritos a um intervalo de tolerância que é determinado, por exemplo, por uma média (média de resposta de impulso finito ou média de resposta de impulso infinito) de elementos de matriz de mistura anteriores na mesma posição de matriz de mistura. Foi averiguado que tal restrição dos elementos ajustados de matriz de mistura da matriz de mistura ajustada 352 tipicamente provoca uma limitação das distorções do sinal upmix 220 causado pelo uso dos parâmetros não ideais (por exemplo parâmetros não ideais de prestação especificados do usuário) pelo menos se os parâmetros não ideais de prestação especificados do usuário desviam-se dos parâmetros ideais de prestação especificados do usuário em mais do que um desvio pré-determinado.
[00096] Deve ser observado aqui que o mecanismo 350 para fornecer elementos ajustados de matriz de mistura pode compreender a mesma funcionalidade geral que o mecanismo 100 para fornecer um ou mais parâmetros ajustados, caracterizados pelo fato de que os elementos de matriz de mistura da matriz de mistura 337 pode ter o papel de um ou mais parâmetros de entrada 110, e caracterizados pelo fato de que os elementos ajustados de matriz de mistura da matriz de mistura ajustada 352 pode ter o papel de um ou mais parâmetros ajustados 120.
4. Esquemas de limitação de parâmetro de acordo com a Fig. 4
[00097] A seguir, os esquemas de limitação de parâmetro de acordo com a invenção serão descritos com referência à Fig. 4, que mostra uma representação esquemática de tais esquemas de limitação de parâmetro.
[00098] A Fig. 4 mostra a aplicação dos esquemas de limitação de parâmetro em combinação com um decodificador SAOC 410. Entretanto, os esquemas de limitação de parâmetro podem ser aplicados em combinação com diferentes tipos de decodificadores de áudio ou transcodificadores de áudio, como, por exemplo, um transcodificador SAOC.
[00099] O decodificador SAOC 410 recebe um downmix 420 e uma corrente de bit SAOC 422. Da mesma forma, o decodificador SAOC fornece um ou mais canais de saída 430a a 430M.
[000100] Em uma primeira implantação, designada com (a), o esquema de limitação de parâmetro 440 implanta um controle indireto. O esquema de limitação de parâmetro 440 recebe uma matriz de prestação de entrada R, por exemplo, uma matriz de prestação específica de usuário, e fornece, com base nisso, uma matriz de prestação ajustada R ao decodificador SAOC. Neste caso, o decodificador SAOC usa a matriz de prestação ajustada R para uma derivação da matriz de mistura G, conforme acima descrito. O esquema de limitação de parâmetro 440 também pode receber os parâmetros AR-, AR+, que podem determinar os limites de um intervalo de tolerância.
[000101] Alternativamente, ou além disso, um Segundo esquema de limitação de parâmetro 450 pode ser aplicado. O segundo esquema de limitação de parâmetro recebe os parâmetros de transcodificação T e fornece, com base nisso, o parâmetro ajustado de transcodificação T . Os parâmetros de transcodificação T podem ser computados no decodificador SAOC 410, e o parâmetro ajustado de transcodificação T pode ser aplicado pelo decodificador SAOC 410. Por exemplo, os parâmetros de transcodificação T podem ser equivalentes aos elementos de matriz de mistura da matriz de mistura G, conforme acima discutido, e o parâmetro ajustado de transcodificação T pode ser equivalente aos elementos ajustados de matriz de mistura da matriz de mistura ajustada G' .
[000102] O esquema de limitação de parâmetro 450 pode receber um ou mais parâmetros AT-, AT+, cujos parâmetros podem determinar os limites dos intervalos de tolerância.
4.1 Visão geral
[000103] A seguir, uma visão geral será fornecida sobre o esquema de limitação de parâmetro para o controle de distorção.
[000104] O processamento geral SAOC é conduzir de uma forma seletiva de tempo/frequência e será descrito a seguir.
[000105] O codificador SAOC extrai as características psico-acústicas (por exemplo, relações e correlações de potência de objeto) de diversos sinais de entrada de objeto de áudio e então realiza o downmix dos mesmos em um canal combinado mono ou estéreo (que pode ser designado, por exemplo, como uma representação de sinal downmix). Esse sinal downmix e informação lateral extraída são transmitidos (ou armazenados) em formato comprimido usando os dispositivos de codificação de áudio de percepção bem conhecidos. Na extremidade receptora, o decodificador SAOC conceitualmente tenta restaurar o sinal de objeto original (i.e., separar objetos de downmix) usando a informação lateral transmitida (por exemplo, informação de diferença de nível de objeto OLD, informação de correlação entre objeto IOC, informação de ganho downmix DMG e informação de diferença de nível de canal downmix DCLD). Esses sinais de objeto aproximados são então misturados em uma cena alvo usando uma matriz de prestação (caracterizada pelo fato de que a matriz de prestação tipicamente descreve as contribuições de diferentes objetos de áudio para diferentes canais da representação de sinal upmix). A matriz de prestação é composta por coeficientes relativos de prestação RCs (ou ganhos de objeto) especificados para cada objeto de áudio transmitido e alto-falante de configuração upmix. Esses ganhos de objeto determinam a posição espacial de todos os objetos separados/prestados. Efetivamente, a separação dos sinais de objeto é raramente executada (ou ainda nunca executada) já que a separação e mistura são realizadas em uma única etapa combinada de processamento, que resulta em uma enorme redução de complexidade computacional. A etapa única combinada de processamento pode, por exemplo, ser realizada usando os coeficientes de transcodificação, que descrevem a combinação da separação de objeto e mistura dos objetos separados.
[000106] Foi averiguado que esse esquema é tremendamente eficiente, tanto em termos de taxa de bit de transmissão (somente é exigido para transmitir um ou dois canais downmix mais alguma informação lateral, ao invés de um número de sinais individuais de áudio de objeto) e complexidade computacional (a complexidade de processamento relaciona-se principalmente ao número de canais de saída, ao invés do número de objetos de áudio).
[000107] O decodificador SAOC transforma (em um nível paramétrico) os ganhos de objeto e outra informação lateral diretamente nos coeficientes de transcodificação (TCs) que são aplicados ao sinal downmix para criar os sinais correspondentes para a cena de áudio de saída prestada (ou um sinal downmix pré- processado para uma operação adicional de decodificação, i.e., tipicamente prestação multicanal MPEG Surround).
[000108] Foi averiguado que a qualidade subjetivamente percebida de áudio da cena de saída prestada pode ser melhorada pela aplicação das medidas de controle de distorção ou DCMs, conforme descrito em US não pré-publicada 61/173.456. Essa melhoria pode ser atingida para o preço de aceitar uma modificação dinâmica moderada das configurações alvo de prestação. A modificação da informação de prestação tem natureza de variante de tempo e frequência que, sob as circunstâncias específicas, pode resultar em colorações de som não naturais e artefatos de flutuação temporal.
[000109] Em uma alternativa para as medidas de controle de distorção (DCMs) descritas na referência [6], as realizações de acordo com a presente invenção usam um número de esquemas de limitação de parâmetro que enfoca na redução dos artefatos de áudio (colorações de som, flutuações temporais, etc.) e, ao mesmo tempo, preserva uma qualidade de som natural.
[000110] Os conceitos propostos de esquema de limitação de parâmetro aqui descritos não ajustam os coeficientes de prestação (RCs) com base em uma medida de distorção calculada usando algoritmos sofisticados com base em modelos psico-acústicos. Ao invés disso, os conceitos propostos de esquema de limitação de parâmetro mostra uma baixa complexidade computacional e estrutural e são, portanto, atrativos para a integração na tecnologia SAOC. Não obstante, eles também podem ser vantajosamente combinados com esquemas descritos na referência [6] com a finalidade de atingir melhor qualidade de saída geral ao complementar o outro.
[000111] Dentro do sistema SAOC geral, os esquemas de limitação de parâmetro podem ser incorporados na cadeia de processamento do decodificador SAOC de duas formas. Por exemplo, tal esquema de limitação de parâmetro pode ser colocado na extremidade frontal para modificação indireta (externa) da saída SAOC ao controlar os coeficientes de prestação (RCs) R , que é mostrado como alternativa (a) na Fig. 4. Alternativamente, os coeficientes inerentes de transcodificação (TCs) T são diretamente (internamente) modificados na extremidade traseira do decodificador SAOC, antes dos coeficientes serem aplicados ao sinal downmix para render os sinais de canal de saída upmix, que é mostrado como alternativa (b) da Fig. 4.
4.2 . Controle indireto
[000112] A seguir, o conceito de controle indireto será discutido em mais detalhes.
[000113] A hipótese subjacente do método de controle indireto considera uma relação entre o nível de distorção e desvios de RCs de seu valor ponderado de objeto. Isso é com base na observação de que atenuação/regulação mais específica é aplicada pelos RCs a um objeto específico com relação aos outros objetos, a modificação mais agressiva do sinal transmitido downmix deve ser realizada pelo decodificador/transcodificador SAOC. Em outras palavras: quanto maior o desvio dos valores de "ganho de objeto" é relativo ao outro, maior é a chance de que a distorção inaceitável ocorra (presumindo-se coeficientes idênticos downmix). Foi averiguado que isso pode ser testado ao examinar o desvio de RCs da média de RCs através de todos os objetos (p.ex., valor de prestação mediano).
[000114] Sem perda de generalidade, a descrição subsequente é com base na configuração considerando um downmix mono com ganhos unitários downmix para todos os objetos. Para o caso de downmixes não triviais (com ganhos de objeto diferentes e/ou dinâmicos) o algoritmo pode ser adequadamente modificado. Além disso, os RCs são presumidos como sendo invariantes de frequência para simplificar a anotação.
[000115] Com base no cenário de prestação específico de usuário representado pelos coeficientes R(i) com índice de objeto i , o PLS impede os valores extremos de prestação ao produzir os valores RC modificados 7?(z) que são efetivamente usados pelo motor de prestação SAOC. Eles podem ser derivados como a seguinte função
[000116] R)i) = FR(R(i\Á) ,
[000117] em que A é um parâmetro de controle PLS (i.e., valor de limite). O parâmetro de controle PLS pode ser considerado como um parâmetro de tolerância.
[000118] O desvio Rd (i) do coeficiente de prestação R(i) de um valor ponderado de prestação R (p.ex., a mediana aritmética) pode ser obtido como
[000119]
Figure img0001
[000120] em que
[000121]
Figure img0002
[000122] De forma correspondente, Ri é uma razão entre um coeficiente de prestação Rfy e um valor ponderado de prestação R. O valor ponderado de prestação R é um valor médio, calculando a média sobre os objetos de áudio com os índices de objeto de áudio i, dos coeficientes de prestação R(f)
[000123] O desvio limitado Rd(*) é restrito a determinada variação de tolerância A como
[000124]
Figure img0003
[000125]
Figure img0004
[000126] Observe que isso corresponde a uma operação limitante RC que é conduzida relativa a um valor de referência, por exemplo, R que é computado dinamicamente a partir de RCs de entrada, ao invés de um valor pré-definido específico.
[000127] Para a abordagem descrita PLS, a solução ideal pode ser formulada como um problema de minimização para o qual a diferença entre determinado valor RC Rfy e valor modificado (limitado) RO é minimizada
[000128]
Figure img0005
[000129] A seguir, algumas soluções algorítmicas para fornecer os coeficientes ajustados de prestação RO serão descritas, caracterizados pelo fato de que os coeficientes ajustados de prestação RO podem ser considerados como parâmetros ajustados.
[000130] As seguintes duas soluções algorítmicas são com base no desvio de tais valores de prestação que estão fora da variação de tolerância, i.e.,
[000131]
Figure img0006
4.2.1 Solução de uma etapa
[000132] Uma solução simples e rápida de uma etapa pode ser empregada para limitar todos os valores de prestação fora da variação de tolerância por
[000133]
Figure img0007
[000134]
Figure img0008
[000135] Em contraste, os valores de prestação dentro da variação de tolerância podem ser deixados não afetados, de modo que
[000136]
Figure img0009
[000137] para tais valores de prestação RO
4.2.2 Solução iterativa
[000138] Outro método direto pode ser empregado em que os valores de prestação fora da variação com desvios associados Rd out (f) são limitados gradualmente. Em cada iteração desse algoritmo, o desvio de prestação máximo Rd,max é definido como
[000139]
Figure img0010
[000140]
Figure img0011
[000141] O coeficiente de prestação correspondente é restrito, de modo que
[000142]
Figure img0012
[000143] Esse Processamento Pode ser realizado até todos os valores estiverem dentro da região de tolerância ou com um número Pré-determinado de iterações.
[000144] De forma corresPondente, em cada iteração, um coeficiente de Prestação RL.) é selecionado Para o qual o desvio Rdout(imax) (por exemplo, a partir do valor médio R ) obtém o valor máximo Rdmax . Em outras palavras, o coeficiente de prestação R(imax) é selecionado, que compreende um desvio máximo (em termos do valor de desvio Rd out ) a partir da média R sobre os coeficientes de prestação na respectiva iteração. Além disso, o coeficiente de prestação selecionado R(imax) é trazido mais próximo à média sobre os coeficientes de prestação usando a combinação linear acima mencionada de R(Z) e R (que pode ser aplicada seletivamente para i = imax). Em cada etapa do procedimento iterativo, uma nova seleção do coeficiente de prestação tendo o desvio máximo do valor médio pode ser realizada, de modo que diferentes coeficientes de prestação podem ser modificados em diferentes etapas do algoritmo iterativo. Em outras palavras, imax é tipicamente atualizado em cada iteração. Da mesma forma, o valor médio pode opcionalmente ser novamente computado para cada etapa do algoritmo iterativo, considerando um coeficiente de prestação previamente modificado.
4.3 Controle direto
[000145] A hipótese subjacente do método de controle direto considera uma relação entre o nível de distorção e desvios dos TCs de seu valor ponderado de tempo. Isso é com base na observação que a atenuação/regulação mais específica é aplicada a um objeto específico com relação aos outros objetos, a modificação mais agressiva do sinal transmitido downmix pelos TCs deve ser realizada pelo decodificador/transcodificador SAOC. Em outras palavras: se o valor de um TC for excepcionalmente grande, pode ser concluído que o algoritmo SAOC tenta modificar um sinal de objeto com pequena potência em uma saída dominada pelo(s) outro(s) sinal(s) de objeto com uma grande potência ao aplicar um forte impulso. De forma oposta, se um TC for excepcionalmente pequeno, pode ser concluído que o algoritmo SAOC tenta modificar um sinal de objeto com grande potência em uma saída dominada por outro(s) sinal(is) de objeto com uma pequena potência ao aplicar uma forte atenuação. Em ambos os casos, existe um alto risco de produzir uma qualidade de sinal inaceitavelmente baixa na saída SAOC. Dessa forma, a ideia central é a de impedir grandes desvios de TCs de um valor médio.
[000146] Esse PLS pode ser considerado como variante de tempo e frequência, já que inclui todas as dependências dos parâmetros de sinal SAOC (p.ex., OLD, IOC) e elementos heurísticos do processo de transcodificação/decodificação.
[000147] Sem perda de generalidade, a descrição subsequente é com base na configuração considerando um upmix mono.
[000148] Com base na saída SAOC TC T(^) com o índice de frequência k , o PLS impede os valores extremos dos TCs ao substituir os mesmos (p.ex., coeficientes de transcodificação fora de um intervalo de tolerância) com valores modificados TC que são então usados pelo processo real de prestação SAOC. Os valores modificadores de TC podem ser derivados com a seguinte função
[000149]
Figure img0013
[000150] em que A é um parâmetro de controle PLS (i.e. valor de limite). O parâmetro de controle PLS pode ser considerado como um parâmetro de tolerância.
[000151] Já que os TCs são variantes de tempo, um filtro de passagem baixa recursivo é aplicado para calcular a mediana
[000152]
Figure img0014
[000153] A mediana T é considerada como um valor médio, caracterizada pelo fato de que a ponderação dos valores individuais de transcodificação é introduzida pela aplicação da filtragem de passagem baixa recursiva.
[000154] Aqui, n representa o índice de tempo de TCs e μe(0,1] é o parâmetro de ponderação. A variação de tolerância para o valor modificado TC é definida como
[000155]
Figure img0015
[000156] Observe que isso correspondente a uma operação limitante TC que é conduzida relativa a um valor de referência que é computado dinamicamente dos TCs, ao invés, de um valor pré- definido específico.
[000157] Para a abordagem descrita PLS, a solução ideal pode ser formulada como um problema de minimização para o qual a diferença entre determinado valor TC T(^) e valor modificado (limitado) TC é minimizada
[000158]
Figure img0016
[000159] A seguir, um possível algoritmo de solução para esse problema será descrito.
4.3.1 Algoritmo de solução
[000160] O valor modificado TC pode ser obtido como
[000161]
Figure img0017
[000162]
Figure img0018
4.3.2 Exemplos de coeficientes de transcodificação
[000163] O esquema de limitação de parâmetro acima discutido para coeficientes de transcodificação pode ser aplicado em diferentes coeficientes de transcodificação que são usados, por exemplo, nos decodificadores e transcodificadores SAOC acima discutidos.
[000164] Por exemplo, o esquema de limitação de parâmetro para coeficientes de transcodificação pode ser aplicado para limitar os parâmetros da matriz de mistura G, que é usado no processador de sinal 330 do mecanismo 300. Neste caso, um elemento de matriz de mistura em determinada posição de matriz da matriz G pode obter o lugar de um coeficiente de transcodificação Z(£), caracterizado pelo fato de que k é um índice de frequência. Um elemento correspondente de matriz de mistura da matriz de mistura G pode corresponder a um coeficiente ajustado de transcodificação T(£). O esquema de limitação de parâmetro de transcodificação pode ser aplicado, por exemplo, individualmente às diferentes posições de matriz da matriz de mistura. Por exemplo, se a matriz de mistura G compreender os elementos de matriz de mistura g11, g12, g21 e g22, e a matriz de mistura ajustada G compreender os elementos correspondentes de matriz g^, g12' , g21' e g22' , o elemento ajustado matriz de mistura g1/ (n0) pode ser derivado a partir de uma sequência g11(1) a g11(n0). As derivações equivalentes podem ser usadas para outros elementos de matriz de mistura g12' , g21' e g22' da matriz de mistura ajustada G' .
[000165] A tabela da Fig. 10 fornece uma lista de coeficientes de transcodificação que podem ser modificados, por exemplo, limitados, pelos esquemas propostos de limitação de parâmetro para todos os modos de operação SAOC. A tabela da Fig. 10 mostra, em uma primeira coluna 1010, diferentes modos SAOC. A tabela da Fig. 10 ainda mostra, em uma segunda coluna 1020, quais parâmetros podem ser modificados (por exemplo, limitados) pelo esquema proposto de limitação de parâmetro. Uma terceira coluna 1030 mostra uma referência às subcláusulas correspondentes do documento de referência MPEG SAOC FCD [8]. Para resumir, a tabela da Fig. 10 mostra uma lista de coeficientes de transcodificação que podem ser modificados (por exemplo, limitados) pelos esquemas propostos de limitação de parâmetro para todos os modos de operação SAOC com referências às subcláusulas correspondentes do documento MPEG SAOC FCD [8].
4.4 Formulação generalizada do esquema de limitação de parâmetro para desvio relativo limitado
[000166] Existe uma formulação generalizada para o PLS acima discutido. Essa formulação pode ser expressa na forma do seguinte problema de minimização para a variável de parâmetro geral X^ como
[000167]
Figure img0019
[000168] Aqui, o valor de Xi é inicialmente fornecido e o valor de "referência" Xi pode ser estimado como uma função da variável modificada X; como
Figure img0020
[000169] Acima, a variável de parâmetro Xi pode, por exemplo, ser idêntica a R(i) ou T(i). De forma semelhante, o parâmetro ajustado variável X. pode ser idêntico ao coeficiente ajustado de prestação 7?(z) ou coeficiente ajustado de transcodificação T(i) • As variáveis Xi , X; também podem, por exemplo, ser equivalentes aos elementos de matriz de mistura gmn(i) e gm/ (i) .
[000170] A seguir, dois algoritmos de solução serão discutidos.
[000171] Geralmente, as abordagens analíticas para obter a solução exata de tais problemas de minimização são demandantes computacionalmente. Não obstante, existem modos alternativos simples e rápidos fornecendo resultados sub-ideais que ainda são adequados para fins de PLS. Duas simples abordagens são aqui descritas.
4.4.1 Solução de uma etapa
[000172] A solução de uma etapa com base na assunção de que Xi ~F'[
[000173] í) limita todos os valores fora da variação de tolerância
[000174]
Figure img0021
[000175]
Figure img0022
[000176] Os valores que por para estarem dentro dela estão dentro da variação de tolerância (que podem ser considerados como um intervalo de tolerância) podem, por exemplo, ser deixados inalterados.
4.4.2 Solução iterativa
[000177] A solução iterativa modificada, em cada etapa, um valor fora de variação selecionado Xi* a
[000178]
Figure img0023
[000179] Por exemplo o índice de processamento ser escolhido usando a condição:
[000180]
Figure img0024
[000181]
Figure img0025
[000182] O número de iterações pode ser definido em determinado valor ou implicitamente derivado do algoritmo.
[000183] Deve-se observar que todos esses métodos podem ser aplicados para limitar RCs e TCs conforme acima descrito.
4.5 Formulação linear generalizada
[000184] Existe uma formulação linear generalizada para o PLS acima discutido. Na seção anterior, o desvio do parâmetro ser definido como Xi—Xi levando ao seguinte problema de minimização para a variável de parâmetro geral AÇ como
[000185]
Figure img0026
[000186] Aqui, o valor de Xi é inicialmente fornecido e o valor de "referência" Xi pode ser estimado como uma função da variável modificada Xi como X F X i i .
[000187] A seguir, dois algoritmos de solução para esse problema serão descritos.
[000188] Geralmente, as abordagens analíticas para obter a solução exata de tais problemas de minimização são geralmente demandantes computacionalmente. Não obstante, existem modos alternativos simples e rápidos fornecendo resultados sub-ideais que ainda são adequados para os fins de PLS. Duas simples abordagens são aqui descritas:
4.5.1 Solução de uma etapa
[000189] A solução de uma etapa com base na assunção de que
Figure img0027
limita todos os valores fora da variação de tolerância para estarem dentro dela por
[000190]
Figure img0028
4.5.2 Solução iterativa
[000191] A solução iterativa modifica em cada etapa um valor selecionado Xi* a X;, se Xi* estiver fora de uma variação de tolerância:
[000192]
Figure img0029
[000193]
Figure img0030
[000194] Por exemplo, o índice de processamento i * pode ser escolhido usando a condição:
Figure img0031
e o valor de tamanho de etapa de modificação como
Figure img0032
com 0 G(0,1) . O número de iterações pode ser definido a determinado valor ou implicitamente derivado do algoritmo.
[000195] Esse algoritmo fornece um modo flexível de usar a variação de tolerância, i.e., está dinamicamente em alteração (dependendo de Xi*).
[000196] Deve-se observar que todos esses métodos podem ser aplicados para RCs e TCs limitantes, conforme acima descrito.
[000197] Alternativamente, o seguinte algoritmo pode ser usado:
[000198]
Figure img0033
[000199]
Figure img0034
[000200] e
[000201]
Figure img0035
[000202]
Figure img0036
[000203] Essa versão do algoritmo usa uma variação de tolerância fixa (estática )
Figure img0037
4.6 Comentários adicionais
[000204] Deve-se observar que todos esses métodos podem ser aplicados para coeficientes limitantes de prestação e coeficientes de transcodificação, conforme acima descrito.
5. Aplicação dos esquemas de limitação de parâmetro para cenários downmix/ upmix multicanal
[000205] O único TC PLS (p.ex., controle direto) de um cenário downmix mono/upmix mono estende-se a uma matriz TC considerando qualquer combinação de canais downmix/upmix. Consequentemente, o controle direto pode ser aplicado em cada TC individualmente. O cenário upmix multicanal para RC PLS (p.ex., controle indireto) pode ser realizado, por exemplo, em uma simples abordagem mono múltipla em que todos os coeficientes individuais de prestação são manuseados independentemente.
6. RESULTADOS DO TESTE DE AUDIÇÃO 6.1 Design e itens de teste
[000206] O teste de audição subjetivo foi conduzido para avaliar o desempenho perceptual dos conceitos propostos de medição de controle de distorção (DCM) e comparar os mesmos ao processamento de decodificação do modelo de referência SAOC regular (SAOC RM).
[000207] O design de teste inclui os casos de aplicação individual das abordagens de controle direto e indireto do esquema proposto de limitação de parâmetro, bem como, sua combinação. O sinal de saída do decodificador SAOC regular (não processado pelo esquema de limitação de parâmetro PLS) é incluído no teste para demonstrar o desempenho basal do SAOC. Além disso, o caso da prestação trivial, que corresponde ao sinal downmix, é usado no teste de audição para fins de comparação.
[000208] A tabela da Fig. 5a descreve as condições de teste de audição.
[000209] Os quatro itens representando os tipos de artefato típicos e mais críticos para as condições extremas de prestação foram escolhidos para o teste de audição atual a partir do material de teste de audição de chamada para propostas (CfP).
[000210] A tabela da Fig. 5b descreve os itens de áudio do teste de audição.
[000211] Os ganhos de objeto de prestação de acordo com a tabela da Fig. 6 foram aplicados para os cenários considerados upmix.
[000212] Já que o PLS proposto opera usando as correntes de bit regulares SAOC e realiza o downmix (nenhuma atividade relacionada PLS no lado do codificador SAOC é necessária) e não transmite informação residual, nenhum dispositivo de codificação principal foi aplicado aos sinais correspondentes downmix SAOC.
[000213] Para todos os itens de teste e condições consideradas de prestação, as configurações globais para o PLS são obtidas como
[000214]
Figure img0038
6.2 Metodologia de teste
[000215] Os testes de audição subjetivos foram conduzidos em uma sala de audição acusticamente isolada que é projetada para permitir audição de alta qualidade. A reprodução foi realizada usando fones de ouvido (STAX SR Lambda Pro com Conversor LakePeople D/A- e Monitor STAX SRM).
[000216] O método de teste seguiu o procedimento usado nos testes de verificação de áudio espacial, com base no método "Estímulo Múltiplo com Referência Oculta e Âncoras" (MUSHRA) para a avaliação subjetiva do áudio de qualidade intermediária [7]. O método de teste foi modificado de acordo com a finalidade de avaliar o desempenho perceptual dos conceitos propostos DCM. Em conformidade com a metodologia adotada de teste, os ouvintes foram instruídos para comparar todas as condições de teste contra a outra de acordo com as seguintes instruções de teste de audição:
[000217] Para cada item de áudio, favor: • Primeiro ler a descrição das misturas desejadas de som que você, como um usuário de sistema, gostaria de atingir: Item "BlackCoffee": Som de seção de buzina fraca dentro da mistura de som Item "Fanta4": Som de tambor forte dentro da mistura de som Item "LovePop": Som de seção de corda fraca dentro da mistura de som Item "Audition": Música fraca e forte som vocal • Então classificar os sinais usando um grau comum para descrever ambos - atingir o objetivo da mistura de som desejada - qualidade geral de som da cena (considerar distorções, artefatos, falta de naturalidade...)
[000218] Um total de 9 ouvintes participou de cada um dos testes realizados. Todos os sujeitos podem ser considerados como ouvintes experientes. As condições de teste foram randomizadas automaticamente para cada item de teste e para cada ouvinte. As respostas subjetivas foram registradas por um programa MUSHRA com base em computador em uma escala variando de 0 a 100. Uma comutação instantânea entre os itens sob o teste foi permitida.
6.3 Resultados do teste de audição
[000219] Uma curta visão geral em termos dos diagramas demonstrando os resultados obtidos de teste de audição pode ser encontrada no apêndice. Esses gráficos mostram a classificação de MUSHRA média por item sobre todos os ouvintes e o valor mediano estatístico sobre todos os itens avaliados, junto com os intervalos de confiança de 95% associados.
[000220] As seguintes observações podem ser feitas com base nos resultados dos testes de audição conduzidos: Para todos os testes de audição conduzidos, os escores obtidos de MUSHRA provam que a funcionalidade proposta de PLS fornece melhor desempenho em comparação com o sistema regular SAOC RM no sentido de valores medianos estatísticos gerais. Deve-se observar que a qualidade de todos os itens produzidos pelo decodificador SAOC regular (mostrando fortes artefatos de áudio para condições consideradas extremas de prestação) é classificada quase levemente superior em comparação à qualidade das configurações de prestação idênticas downmix que não cumprem com o cenário desejado de prestação de nenhum modo. Consequentemente, pode ser concluído que o PLS proposto leva à melhoria considerável da qualidade subjetiva de sinal para todos os cenários considerados de teste de audição. Também pode ser concluído que o sistema limitante mais prometedor consiste em uma combinação de ambos o RC e o TC PLS.
[000221] Os detalhes referentes aos resultados do teste de audição podem ser vistos na representação gráfica da Fig. 7.
7. Alternativas de Implantação
[000222] Embora alguns aspectos tenham sido descritos no contexto de um mecanismo, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente, item ou recurso de um mecanismo correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou usando) um mecanismo de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas realizações, algumas ou mais das etapas mais importantes do método podem ser executadas por tal mecanismo.
[000223] O sinal de áudio codificado inventivo pode ser armazenado em uma mídia de armazenamento digital ou pode ser transmitido em uma mídia de transmissão, tal como, uma mídia de transmissão sem fio ou uma mídia de transmissão sem fio, tal como, Internet.
[000224] Dependendo de determinadas exigências de implantação, as realizações da invenção podem ser implantadas em hardware ou em software. A implantação pode ser realizada usando uma mídia de armazenamento digital, por exemplo, um disco flexível, um DVD, um Blue-Ray, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória FLASH, tendo sinais de controle eletronicamente legíveis lá armazenados, que cooperam (ou são capazes de cooperar) com um sistema de computador programável de modo o respectivo método é realizado. Portanto, a mídia de armazenamento digital pode ser legível por computador.
[000225] Algumas realizações de acordo com a invenção compreendem um portador de dados com sinais de controle eletronicamente legíveis, que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos aqui descritos é realizado.
[000226] Geralmente, as realizações da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, o código de programa sendo operativo para realizar um dos métodos quando o produto de programa de computador opera em um computador. O código de programa pode, por exemplo, ser armazenado em um portador legível por máquina.
[000227] Outras realizações compreendem o programa de computador para realizar um dos métodos aqui descritos, armazenados em um portador legível por máquina.
[000228] Em outras palavras, uma realização do método inventivo é, portanto, um programa de computador com um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador opera em um computador.
[000229] Uma realização adicional do método inventivo é, portanto, um portador de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) compreendendo, lá gravado, o programa de computador para realizar um dos métodos aqui descritos. O portador de dados, a mídia de armazenamento digital ou a mídia gravada são tipicamente tangíveis e/ou não transitórios.
[000230] Uma realização adicional do método inventivo é, portanto, uma corrente de dados ou uma sequência dos sinais representando o programa de computador para realizar um dos métodos aqui descritos. A corrente de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferida via uma conexão de comunicação de dados, por exemplo, via a Internet.
[000231] Uma realização adicional compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos aqui descritos.
[000232] Uma realização adicional compreende um computador tendo lá instalado o programa de computador para realizar um dos métodos aqui descritos.
[000233] Em algumas realizações, um dispositivo lógico programável (por exemplo, um arranjo de porta programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos aqui descritos. Em algumas realizações, um arranjo de porta programável em campo pode cooperar com um microprocessador com a finalidade de realizar um dos métodos aqui descritos. Geralmente, os métodos são preferivelmente realizados por qualquer mecanismo de hardware.
[000234] As realizações acima descritas são meramente ilustrativas para os princípios da presente invenção. É entendido que as modificações e variações dos arranjos e detalhes aqui descritos serão aparentes para aqueles com habilidade na técnica. É a intenção, portanto, de ser limitada somente pelo escopo das reivindicações de patente a seguir e não pelos detalhes específicos apresentados por meio de descrição e explicação das realizações aqui.
8. Conclusões
[000235] As realizações de acordo com a invenção criam os esquemas de limitação de parâmetro para o controle de distorção nos decodificadores de áudio. Algumas realizações de acordo com a invenção são enfocadas na codificação de objeto de áudio espacial (SAOC), que fornece meio para uma interface de usuário para uma seleção da configuração de reprodução desejada (por exemplo, mono, estéreo, 5.1, etc.) e modificação interativa em tempo real da cena de prestação de saída desejada ao controlar a matriz de prestação de acordo com uma preferência pessoal ou outros critérios. Entretanto, é uma tarefa direta adaptar o método proposto para as técnicas paramétricas de modo geral.
[000236] Devido à abordagem paramétrica downmix/separação/com base em mistura, a qualidade subjetiva da saída de áudio prestada depende das configurações do parâmetro de prestação. A liberdade de selecionar as configurações de prestação de escolha dos usuários acarreta no risco do usuário selecionar opções inapropriadas de prestação de objeto, tais como, manipulações extremas de ganhos de um objeto dentro da cena geral de som.
[000237] Para um produto comercial, por todos os meios, é inaceitável produzir má qualidade de som e/ou artefatos de áudio para quaisquer configurações na interface de usuário. Com a finalidade de controlar a deterioração excessiva da saída produzida de áudio SAOC, diversas medidas computacionais foram descritas que são com base na ideia de computar uma medida da qualidade perceptual da cena prestada, e dependendo dessa medida (e outra informação), modificar os coeficientes de prestação efetivamente aplicados (vide, por exemplo, a referência [6]).
[000238] A presente invenção cria ideias alternativas para proteger a qualidade subjetiva do som da cena SAOC prestada • Para a qual todo o processamento é conduzido totalmente dentro do decodificador/transcodificador SAOC, e • Que não envolve o cálculo explícito de medidas sofisticadas de qualidade percebida de áudio da cena de som prestada.
[000239] Essas ideias podem, dessa forma, ser implantadas de uma forma estruturalmente simples e extremamente eficientes dentro da estrutura do decodificador/transcodificador SAOC. Já que os mecanismos propostos de controle de distorção (DCMs) têm o objetivo de limitar parâmetros inerentes ao decodificador SAOC, isto é, os coeficientes de prestação (RCs) e os coeficientes de transcodificação (TCs), eles são denominados como esquemas de limitação de parâmetro (PLS) por toda a presente descrição.
[000240] Entretanto, os esquemas de limitação de parâmetro também podem ser aplicados em quaisquer diferentes decodificadores de áudio.
Referências
[000241] [1] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[000242] [2] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752.
[000243] [3] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[000244] [4] J. Engdegârd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377.
[000245] [5] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2.
[000246] [6] Pedido de patente norte-americana 61/173.456, MÉTODOS, MECANISMO E PROGRAMAS DE COMPUTADOR PARA DISTORÇÃO EVITANDO PROCESSAMENTO DE SINAL DE ÁUDIO
[000247] [7] EBU Technical recommendation: "MUSHRA-EBU Method for Subjective Listening Tests of Intermediate Audio Quality", Doc. B/AIM022, October 1999.
[000248] [8] ISO/IEC JTC1/SC29/WG11 (MPEG), Document N10843, -2:u0y 02 IS2/20C 22003-X:200x Spatial Audio Object Coding (SAOC)", 89th MPEG Meeting, London, UK, July 2009.

Claims (22)

1. Um mecanismo (100; 250; 350; 440; 450) para fornecer um ou mais parâmetros ajustados (120; 252; 352; R ; T ) para uma provisão de uma representação de sinal upmix (220; 430a- 430M) com base em uma representação de sinal downmix (210; 420) e uma informação lateral paramétrica (212; 422) associadas à representação de sinal downmix, o mecanismo compreendendo: um ajustador de parâmetro configurado para receber uma pluralidade de parâmetros (110; 214; 337) e para fornecer, com base nisso, um ou mais parâmetros ajustados (120; 252; 352), caracterizado pelo fato de que o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros ajustados em dependência de um valor médio (132; ( R ; T ) da pluralidade de parâmetros (110; 214; 337; R; T).
2. O mecanismo (100; 250; 350; 440; 450) de acordo com a reivindicação 1, caracterizado pelo fato de que o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros ajustados em dependência de um valor médio que é uma média ponderada de uma pluralidade de valores de parâmetro.
3. O mecanismo (100; 250; 350; 440; 450) de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que o ajustador de parâmetro é configurado para fornecer um ou mais parâmetros ajustados de modo que um ou mais parâmetros ajustados desviam-se do valor médio menos do que os parâmetros recebidos correspondentes.
4. O mecanismo (100; 250; 440) de acordo com uma das reivindicações 1 a 3, caracterizado pelo fato de que o mecanismo é configurado para receber um ou mais coeficientes de prestação (214; R) descrevendo as contribuições desejadas dos objetos de áudio para um ou mais canais da representação de sinal upmix (220; 430a-430M), e caracterizado pelo fato de que o mecanismo é configurado para fornecer um ou mais coeficientes ajustados de prestação (252; R ) como os parâmetros ajustados.
5. O mecanismo (100; 250; 440) de acordo com a reivindicação 4, caracterizado pelo fato de que o ajustador de parâmetro é configurado para receber, como os parâmetros de entrada, uma pluralidade de coeficientes de prestação (214; R); e caracterizado pelo fato de que o ajustador de parâmetro é configurado para computar uma média ( R ) sobre os coeficientes de prestação associados a uma pluralidade de objetos de áudio; e caracterizado pelo fato de que o ajustador de parâmetro é configurado para fornecer os coeficientes ajustados de prestação (252; R ) de modo que um desvio de um coeficiente ajustado de prestação a partir da média sobre os coeficientes de prestação associados a uma pluralidade de objetos de áudio é restrito.
6. O mecanismo (100; 250; 440) de acordo com a reivindicação 5, caracterizado pelo fato de que o ajustador de parâmetro é configurado para deixar um coeficiente de prestação (214; R), que está dentro de um intervalo de tolerância determinado em dependência da média ( R ) sobre os coeficientes de prestação, inalterados, e para seletivamente definir um coeficiente de prestação (214; R), que é maior do que um valor superior de limite (AR ) do intervalo de tolerância, a um valor que é menor do que ou igual ao valor superior de limite, e para seletivamente definir um coeficiente de prestação (214; R), que é menor do que um valor inferior de limite ,1õ . , , . , (—R ) do intervalo de tolerância a um valor que é maior do que ou A igual ao valor inferior de limite.
7. O mecanismo (100; 250; 440) de acordo com a reivindicação 5, caracterizado pelo fato de que o ajustador de parâmetro é configurado para iterativamente selecionar um respectivo (R(imax)) dos coeficientes de prestação, que compreendem um desvio máximo (Rd,max) da média ( R ) sobre os coeficientes de prestação na respectiva iteração, e trazer aquele selecionado (R(imax)) dos coeficientes de prestação mais próximo à média ( R ) sobre os coeficientes de prestação, com a finalidade de iterativamente trazer os coeficientes de prestação, que estão fora de um intervalo de tolerância determinado em dependência da média sobre os coeficientes de prestação, ao intervalo de tolerância.
8. O mecanismo (100; 250; 440) de acordo com a reivindicação 7, caracterizado pelo fato de que o ajustador de parâmetro é configurado para repetir a seleção iterativa de um respectivo (R(imax)) dos coeficientes de prestação e modificação iterativa daquele de um dos coeficientes de prestação até todos os coeficientes de prestação serem ajustados para estarem dentro dos intervalos aplicáveis de tolerância.
9. O mecanismo (100; 350; 450) de acordo com uma das reivindicações 1 a 3, caracterizado pelo fato de que o mecanismo é configurado para receber um ou mais coeficientes de transcodificação (337; T) descrevendo um mapeamento de um ou mais canais da representação de sinal downmix (210; 420) em um ou mais canais da representação de sinal upmix (220; 430a-430M), e Em que, o mecanismo é configurado para fornecer ~ um ou mais coeficientes ajustados de transcodificação (352; T ) como os parâmetros ajustados.
10. O mecanismo (100; 350; 450) de acordo com a reivindicação 9, caracterizado pelo fato de que o ajustador de parâmetro é configurado para receber, como os parâmetros de entrada, uma sequência temporal dos coeficientes de transcodificação (337; T); e em que o ajustador de parâmetro é configurado para computar uma mediana temporal ( T ) em dependência de uma pluralidade de coeficientes de transcodificação; e em que o ajustador de parâmetro é configurado para fornecer os coeficientes ajustados de transcodificação (352; ~ T ) de modo que um desvio dos coeficientes ajustados de transcodificação da mediana temporal é restrito.
11. O mecanismo (100; 350; 450) de acordo com a reivindicação 10, caracterizado pelo fato de que o ajustador de parâmetro é configurado para deixar um coeficiente de transcodificação (337; T), que está dentro de um intervalo de tolerância determinado em dependência da mediana temporal ( T ), inalterado, e para seletivamente definir um coeficiente de transcodificação, que é maior do que um valor superior de limite (AT ) do intervalo de tolerância, a um valor que é menor do que ou igual ao valor superior de limite do intervalo de tolerância, e para seletivamente definir um coeficiente de transcodificação, que é menor do que um valor inferior de limite (1/AT ) do intervalo de tolerância, a um valor que é maior do que ou igual ao valor inferior de limite.
12. O mecanismo (100; 350; 450) de acordo com a reivindicação 10 ou reivindicação 11, caracterizado pelo fato de que o ajustador de parâmetro é configurado para calcular a mediana temporal ( T ) usando uma filtragem de passagem baixa recursiva da sequência dos coeficientes de transcodificação (337; T).
13. O mecanismo (100; 250; 350; 440; 450) de acordo com uma das reivindicações 1 a 12, caracterizado pelo fato de que o ajustador de parâmetro é configurado para fornecer determinado um de um ou mais parâmetros ajustados de modo que determinado um dos parâmetros ajustados está dentro de um intervalo de tolerância, cujos limites são definidos em dependência do valor médio (132; R ; T ; X ) da pluralidade dos valores de parâmetro de entrada e um ou mais parâmetros de tolerância (AR-;AR+; AT-; AT+; AX-; AX+), e de modo que um desvio entre um parâmetro de entrada e um parâmetro ajustado correspondente é minimizado ou mantido dentro de uma variação permissível máxima pré-determinada.
14. O mecanismo (100; 250; 350; 440; 450) de acordo com a reivindicação 13, caracterizado pelo fato de que o ajustador de parâmetro é configurado para seletivamente definir um parâmetro de entrada, que é averiguado como fora do intervalo de tolerância, cujos limites são definidos em dependência do valor médio (132; R ; T ; X ) da pluralidade dos valores de parâmetro de entrada, a um valor superior de limite
Figure img0039
ou um valor inferior de limite
Figure img0040
do intervalo de tolerância, com a finalidade de obter uma versão ajustada ( R ; T ; X ) do parâmetro de entrada.
15. O mecanismo (100; 250; 350; 440; 450) de acordo com a reivindicação 13, caracterizado pelo fato de que o ajustador de parâmetro é configurado para iterativamente selecionar um respectivo (R(imax); Xi*) dos parâmetros de entrada, que compreende um desvio máximo do valor médio (132; R ; T ; X ) em uma respectiva iteração, e trazer um selecionado dos parâmetros de entrada mais próximo à média, com a finalidade de iterativamente trazer os parâmetros de entrada, que são determinados como fora de um intervalo de tolerância, cujos limites são definidos em dependência do valor médio, no intervalo de tolerância.
16. O mecanismo (100; 350; 450) de acordo com a reivindicação 15, caracterizado pelo fato de que o ajustador de parâmetro é configurado para escolher um tamanho de etapa de modificação usado para trazer um selecionado (R(imax); Xi*) dos parâmetros de entrada mais próximos ao valor médio para ser uma fração pré-determinada de uma diferença entre um selecionado dos parâmetros de entrada e do valor médio.
17. Um mecanismo (200; 300; 410) para fornecer uma representação de sinal upmix (220; 430a-430M) com base em uma representação de sinal downmix (210; 420) e uma informação lateral paramétrica (212; 422), o mecanismo compreendendo: um mecanismo (100; 250; 350; 440; 450) para fornecer um ou mais parâmetros ajustados (120; 252; 352; R ; T ) com base em um ou mais parâmetros recebidos (110; 214; 337; R; T), de acordo com uma das reivindicações 1 a 16; um processador de sinal (230; 330) configurado para obter a representação de sinal upmix com base na representação de sinal downmix e informação lateral paramétrica, caracterizado pelo fato de que o mecanismo para fornecer um ou mais parâmetros ajustados é configurado para ajustar um ou mais parâmetros de processamento (252; 352; R; T) do processador de sinal.
18. O mecanismo (200; 300; 410) de acordo com a reivindicação 17, caracterizado pelo fato de que o processador de sinal (230) é configurado para fornecer a representação de sinal upmix (220; 430a-430M) em dependência de coeficientes ajustados de ~ prestação (252; R ) descrevendo as contribuições dos objetos de áudio para um ou mais canais da representação de sinal upmix; e caracterizado pelo fato de que o mecanismo (100; 250; 440) para fornecer um ou mais parâmetros ajustados é configurado para receber uma pluralidade de parâmetros de prestação especificados do usuário (214; R) como parâmetros de entrada e para fornecer, com base nisso, um ou mais parâmetros ajustados de prestação (252; R ) para uso pelo processador de sinal.
19. O mecanismo (300; 410) de acordo com a reivindicação 17, caracterizado pelo fato de que o mecanismo (100; 350; 450) para fornecer um ou mais parâmetros ajustados é configurado para receber um ou mais elementos de matriz de mistura (337; T) de uma matriz de mistura como um ou mais parâmetros de entrada, e para fornecer, com base nisso, um ou mais elementos ~ ajustados de matriz de mistura (352; T ) da matriz de mistura para uso pelo processador de sinal (330); e Em que o processador de sinal (330) é configurado para fornecer a representação de sinal upmix (220; 430a-430M) em ~ dependência dos elementos ajustados de matriz de mistura (352; T ) da matriz de mistura, em que a matriz de mistura descreve um mapeamento de um ou mais sinais de canal de áudio da representação de sinal downmix em um ou mais sinais de canal de áudio da representação de sinal upmix.
20. O mecanismo (200; 300; 410) de acordo com a reivindicação 17, caracterizado pelo fato de que o processador de sinal é configurado para obter um valor de ganho - downmix - arbitrário MPEG surround, e quando o mecanismo para fornecer um ou mais parâmetros ajustados é configurado para receber uma pluralidade de valores de ganho - downmix - arbitrário como parâmetros de entrada e para fornecer uma pluralidade de valores ajustados de ganho - downmix - arbitrário.
21. Um método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associadas à representação de sinal downmix, o método compreendendo: receber uma pluralidade de parâmetros; e fornecer, com base nisso, um ou mais parâmetros ajustados, caracterizado pelo fato de que um ou mais parâmetros ajustados são fornecidos em dependência de um valor médio da pluralidade de parâmetros.
22. Mídia de armazenamento não transitória tendo gravada instruções lida por um computador caracterizada por compreender instruções que quando executadas realizam o método da reivindicação 21.
BR122021008665-6A 2009-10-16 2010-10-15 Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio BR122021008665B1 (pt)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US25229809P 2009-10-16 2009-10-16
US61/252,298 2009-10-16
US36925610P 2010-07-30 2010-07-30
EP10171459 2010-07-30
US61/369,256 2010-07-30
EP10171459.0 2010-07-30
PCT/EP2010/065503 WO2011045409A1 (en) 2009-10-16 2010-10-15 Apparatus, method and computer program for providing one or more adjusted parameters for provision of an upmix signal representation on the basis of a downmix signal representation and a parametric side information associated with the downmix signal representation, using an average value
BR112012008921-8A BR112012008921B1 (pt) 2009-10-16 2010-10-15 Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio

Publications (1)

Publication Number Publication Date
BR122021008665B1 true BR122021008665B1 (pt) 2022-01-18

Family

ID=43645868

Family Applications (2)

Application Number Title Priority Date Filing Date
BR122021008665-6A BR122021008665B1 (pt) 2009-10-16 2010-10-15 Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio
BR122021008670-2A BR122021008670B1 (pt) 2009-10-16 2010-10-15 Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio

Family Applications After (1)

Application Number Title Priority Date Filing Date
BR122021008670-2A BR122021008670B1 (pt) 2009-10-16 2010-10-15 Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio

Country Status (18)

Country Link
US (1) US9245530B2 (pt)
EP (2) EP2489037B1 (pt)
JP (1) JP5758902B2 (pt)
KR (1) KR101426625B1 (pt)
CN (1) CN102714035B (pt)
AR (1) AR078668A1 (pt)
AU (1) AU2010305717B2 (pt)
BR (2) BR122021008665B1 (pt)
CA (3) CA2777665C (pt)
ES (1) ES2900516T3 (pt)
MX (1) MX2012004261A (pt)
MY (1) MY165327A (pt)
PL (1) PL2489037T3 (pt)
PT (1) PT2489037T (pt)
RU (1) RU2607266C2 (pt)
TW (1) TWI478149B (pt)
WO (1) WO2011045409A1 (pt)
ZA (1) ZA201203484B (pt)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
CN104246873B (zh) 2012-02-17 2017-02-01 华为技术有限公司 用于编码多声道音频信号的参数编码器
RU2609097C2 (ru) * 2012-08-10 2017-01-30 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способы для адаптации аудиоинформации при пространственном кодировании аудиообъектов
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
SG11201505925SA (en) 2013-01-29 2015-09-29 Fraunhofer Ges Forschung Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
CN105229731B (zh) 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
ES2636808T3 (es) 2013-05-24 2017-10-09 Dolby International Ab Codificación de escenas de audio
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
KR102381216B1 (ko) * 2013-10-21 2022-04-08 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
TWI607655B (zh) * 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
KR20170031392A (ko) * 2015-09-11 2017-03-21 삼성전자주식회사 전자 장치, 음향 시스템 및 오디오 출력 방법
EP3570566B1 (en) * 2018-05-14 2022-12-28 Nokia Technologies Oy Previewing spatial audio scenes comprising multiple sound sources
IL276619B2 (en) * 2018-07-02 2024-03-01 Dolby Laboratories Licensing Corp Methods and devices for encoding and/or decoding embedded audio signals
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
JP4875142B2 (ja) * 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
MY145497A (en) * 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
BRPI0715312B1 (pt) 2006-10-16 2021-05-04 Koninklijke Philips Electrnics N. V. Aparelhagem e método para transformação de parâmetros multicanais
KR101111520B1 (ko) * 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
KR101443568B1 (ko) * 2007-01-10 2014-09-23 코닌클리케 필립스 엔.브이. 오디오 디코더
WO2008100068A1 (en) * 2007-02-13 2008-08-21 Lg Electronics Inc. A method and an apparatus for processing an audio signal
ES2452348T3 (es) * 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
US7923948B2 (en) * 2008-01-09 2011-04-12 Somfy Sas Method for adjusting the residual light gap between slats of a motorized venetian blind

Also Published As

Publication number Publication date
JP5758902B2 (ja) 2015-08-05
JP2013507664A (ja) 2013-03-04
PL2489037T3 (pl) 2022-03-07
ZA201203484B (en) 2013-03-27
TW201131551A (en) 2011-09-16
BR122021008670B1 (pt) 2022-01-18
WO2011045409A1 (en) 2011-04-21
PT2489037T (pt) 2022-01-07
AU2010305717A1 (en) 2012-05-17
RU2607266C2 (ru) 2017-01-10
KR101426625B1 (ko) 2014-08-05
KR20120068033A (ko) 2012-06-26
TWI478149B (zh) 2015-03-21
AU2010305717B2 (en) 2014-06-26
CA2777665C (en) 2017-08-29
CN102714035B (zh) 2015-12-16
MY165327A (en) 2018-03-21
CA2777665A1 (en) 2011-04-21
EP2489037B1 (en) 2021-11-10
CA2938537C (en) 2017-11-28
US20120263308A1 (en) 2012-10-18
CN102714035A (zh) 2012-10-03
AR078668A1 (es) 2011-11-23
EP3996089A1 (en) 2022-05-11
CA2938535C (en) 2017-12-19
RU2012119292A (ru) 2013-11-10
ES2900516T3 (es) 2022-03-17
CA2938535A1 (en) 2011-04-21
CA2938537A1 (en) 2011-04-21
EP2489037A1 (en) 2012-08-22
MX2012004261A (es) 2012-05-29
US9245530B2 (en) 2016-01-26

Similar Documents

Publication Publication Date Title
BR122021008665B1 (pt) Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio
JP5645951B2 (ja) ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム
JP5719372B2 (ja) アップミックス信号表現を生成する装置及び方法、ビットストリームを生成する装置及び方法、並びにコンピュータプログラム
PT2483887T (pt) Descodificador de sinal de áudio mpeg-saoc, método para fornecer uma representação de sinal de mistura ascendente usando descodificação mpeg-saoc e programa de comutador usando um valor comum de parâmetros de correlação inter-objetos dependente de tempo/frequência
BR122020017207B1 (pt) Método, sistema de processamento de mídia, aparelho e meio de armazenamento legível por computador não transitório
BR112012008921B1 (pt) Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio
BR112012009127B1 (pt) Mecanismo para fornecer uma representação de sinal upmix com base em uma representação de sinal downmix, mecanismo para fornecer uma corrente de bit representando um sinal de áudio multicanal, métodos, programa de computador e corrente de bit usando uma sinalização de controle de distorção

Legal Events

Date Code Title Description
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 15/10/2010, OBSERVADAS AS CONDICOES LEGAIS. PATENTE CONCEDIDA CONFORME ADI 5.529/DF, QUE DETERMINA A ALTERACAO DO PRAZO DE CONCESSAO.