BR112014003663B1 - Matrizes de mixagem ideal e uso de descorrelacionadores no processamento de áudio espacial - Google Patents

Matrizes de mixagem ideal e uso de descorrelacionadores no processamento de áudio espacial Download PDF

Info

Publication number
BR112014003663B1
BR112014003663B1 BR112014003663-2A BR112014003663A BR112014003663B1 BR 112014003663 B1 BR112014003663 B1 BR 112014003663B1 BR 112014003663 A BR112014003663 A BR 112014003663A BR 112014003663 B1 BR112014003663 B1 BR 112014003663B1
Authority
BR
Brazil
Prior art keywords
matrix
covariance
signal
properties
mixing
Prior art date
Application number
BR112014003663-2A
Other languages
English (en)
Other versions
BR112014003663A2 (pt
Inventor
Juha Vilkamo
Tom BAECKSTROEM
Fabian Kuch
Achim Kuntz
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V.
Publication of BR112014003663A2 publication Critical patent/BR112014003663A2/pt
Publication of BR112014003663B1 publication Critical patent/BR112014003663B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/18Selecting circuits
    • G10H1/183Channel-assigning means for polyphonic instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Amplifiers (AREA)

Abstract

matrizes de mixagem ideal e uso de descorrelacionadores no processamento de áudio espacial um aparelho para gerar um sinal de saída de áudio com dois ou mais canais de saída de áudio de um sinal de entrada de áudio com dois canais de entrada de áudio ou mais é fornecido. o aparelho compreende um provedor (110) e um processador de sinal ( 120) . o provedor ( 110) é adaptado para fornecer as primeiras propriedades de covariância do sinal de entrada de áudio. o processador de sinal (120) é adaptado para gerar o sinal de saída de áudio aplicando uma regra de mixagem em, pelo menos, dois de dois canais de entrada de áudio ou mais. o processador de sinal ( 120) é configurado para determinar a regra de mixagem com base nas primeiras propriedades de covariância do sinal de entrada de áudio e com base nas segundas propriedades de covariância do sinal de saída de áudio, as segundas propriedades de covariância diferentes das primeiras propriedades de covariância

Description

DESCRIÇÃO
A presente invenção refere-se ao processamento do sinal de áudio e, em particular, a um aparelho e um método que emprega matrizes de mixagem ideal e, além disso, ao uso de descorrelacionadores no processamento de áudio espacial.
O processamento de áudio se torna mais e mais importante. No processamento perceptual de áudio espacial, uma suposição tipica é a de que o aspecto espacial de um som reproduzido por um alto-falante é determinado especialmente pelas energias e as dependências alinhadas pelo tempo entre os canais de áudio nas faixas de frequência perceptuais. Isso é encontrado na observação que estas características, quando reproduzidas nos alto-falantes, transferem em diferenças de nivel interaural, diferenças de tempo interaural e coerências interaurais, que são os sinais binaurais da percepção espacial. A partir deste conceito, vários métodos de processamento espaciais surgiram, incluindo upmixing, vide[1] C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals", Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006,e microfonia espacial, vide, por exemplo,[2] V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007; e[3] C. Tournery, C. Faller, F. Küch, J. Herre,
Converting Stereo Microphone Signals Directly to MPEG Surround", tipicamente sinais do microfone de primeira ordem, que são por meios da mixagem, posição da amplitude e decorrelação processada para perceptualmente aproximar um campo de som medido. No upmixing (vide [1]), os canais de entrada estéreo são, novamente, como função de tempo e frequência distribuídos de forma adaptativa a uma configuração surround.
É um objetivo da presente invenção fornecer conceitos melhorados para gerar a partir de um conjunto de canaisde entrada um conjunto de canais de saida com propriedadesdefinidas. O objetivo da presente invenção é solucionado por um aparelho de acordo com a reivindicação 1, por um método, de acordocom a reivindicação 25 e por um programa de computador, de acordocom a reivindicação 26.
Um aparelho para gerar um sinal de saida de áudio com dois ou mais canais de saida de áudio a partir um sinal de entrada de áudio com dois ou mais canais de entrada de áudio é fornecido. O aparelho compreende um provedor e um processador de sinal. O provedor é adaptado para fornecer primeiras propriedades de covariância do sinal de entrada de áudio. O processador de sinal é adaptado para gerar o sinal de saida de áudio aplicando uma regra de mixagem em, pelo menos, dois dos dois canais de entrada de áudio ou mais. O processador de sinal é configurado para determinar a regra de mixagem com base nas primeiras propriedades de covariância do sinal de entrada de áudio e com base nas segundas propriedades de covariância do sinal de saida de áudio, as segundas propriedades de covariância diferentes das primeiras propriedades de covariância.
Por exemplo, as energias do canal e as dependências alinhadas pelo tempo podem ser expressas pela parte real da matriz de covariância do sinal, por exemplo, nas faixas de frequência perceptuais. A seguir, um conceito geralmente aplicável para processar o som espacial neste dominio é apresentado. O conceito compreende uma solução de mixagem adaptativa para atingir dadas propriedades de covariância alvo (as segundas propriedades de covariância), por exemplo, uma dada matriz de covariância alvo, pelo melhor uso dos componentes independentes nos canais de entrada. Em uma aplicação, meios podem ser fornecidos para injetar a quantidade necessária da energia de som descorrelacionada, quando o alvo não é obtido de outra forma. Este conceito é robusto em sua função e pode ser aplicado em vários casos de uso. As propriedades de covariância alvo podem, por exemplo, ser fornecidas por um usuário. Por exemplo, um aparelho de acordo com uma utilização pode ter meios de modo que um usuário possa inserir as propriedades de covariância.
De acordo com uma aplicação, o provedor pode ser adaptado para fornecer as primeiras propriedades de covariância, caracterizado pelas primeiras propriedades de covariância terem um primeiro estado para uma primeira posição de tempo-frequência e, em que as primeiras propriedades de covariância têm um segundo estado, diferente do primeiro estado, para uma segunda posição de tempo-frequência, diferente da primeira posição de tempo- frequência. O provedor não necessariamente precisa realizar a análise para obter as propriedades de covariância, mas pode fornecer estes dados de um armazenamento, uma entrada do usuário ou de fontes semelhantes. ser adaptado para determinar a regra de mixagem com base nas segundas propriedades de covariância, em que as segundas propriedades de covariância têm um terceiro estado para uma terceira posição de tempo-frequência e, em que as segundas propriedades de covariância têm um quarto estado, diferente do terceiro estado para uma quarta posição de tempo-frequência, diferente da terceira posição de tempo-frequência.
De acordo com outra aplicação, o processador de sinal é adaptado para gerar o sinal de saida de áudio aplicando a regra de mixagem de modo que cada um de dois ou mais canais de saida de áudio depende de cada um de dois ou mais canais de entrada de áudio.
Em outra aplicação, o processador de sinal pode ser adaptado para determinar a regra de mixagem de modo que uma medição de erro seja reduzida. Uma medição de erro pode, por exemplo, ser um sinal de diferença absoluta entre um sinal de saida de referência e um sinal de saida real.
Em uma aplicação, uma medição de erro pode, por exemplo, ser uma medição dependendo de
Figure img0001
caracterizado por y ser o sinal de saida de áudio, em que
Figure img0002
em que x especifica o sinal de entrada de áudio e em que Q é uma matriz de mapeamento, que pode ser especifica da aplicação, de modo que yref especifica um sinal de saida de áudio alvo de referência. sinal pode ser adaptado para determinar a regra de mixagem de modo que
Figure img0003
seja reduzido, caracterizado por E ser um 5 operador de expectativa, em que yref é um ponto de referência definido e em que y é o sinal de saida de áudio.
De acordo com outra aplicação, o processador de sinal pode ser configurado para determinar a regra de mixagem determinando as segundas propriedades de covariância, 10 caracterizado pelo processador de sinal poder ser configurado para determinar as segundas propriedades de covariância com base nas primeiras propriedades de covariância.
De acordo com outra aplicação, o processador de sinal pode ser adaptado para determinar uma matriz de mixagem como 15 a regra de mixagem, caracterizado pelo processador de sinal poder ser adaptado para determinar a matriz de mixagem com base nas primeiras propriedades de covariância e com base nas segundas propriedades de covariância.
Em outra aplicação, o provedor pode ser adaptado 20 para analisar as primeiras propriedades de covariância determinando uma primeira matriz de covariância do sinal de entrada de áudio e caracterizado pelo processador de sinal poder ser configurado para determinar a regra de mixagem com base em uma segunda matriz de covariância do sinal de saida de áudio como as 25 segundas propriedades de covariância.
De acordo com outra aplicação, o provedor pode ser adaptado para determinar a primeira matriz de covariância demodo que cada valor da diagonal da primeira matriz de covariância possa indicar uma energia de um dos canais de entrada de áudio e de modo que cada valor da primeira matriz de covariância que não é um valor da diagonal possa indicar uma correlação intercanal entre um primeiro canal de entrada de áudio e um segundo canal de entrada de áudio diferente.
De acordo com outra aplicação, o processador de sinal pode ser configurado para determinar a regra de mixagem com base na segunda matriz de covariância, caracterizado por cada valor da diagonal da segunda matriz de covariância poder indicar uma energia de um dos canais de saida de áudio e em que cada valor da segunda matriz de covariância que não é um valor da diagonal possa indicar uma correlação intercanal entre um primeiro canal de saida de áudio e um segundo canal de saida de áudio.
De acordo com outra aplicação, o processador de sinal pode ser adaptado para determinar a matriz de mixagem de modo que:
Figure img0004
caracterizado por M ser a matriz de mixagem, em que Cx é a primeira matriz de covariância, em que Cy é a segunda matriz de covariância, em que Kx é uma primeira matriz transposta de uma primeira matriz decomposta Kx, em que Ky é uma segunda matriz transposta de uma segunda matriz decomposta Ky, em que Kx* é uma matriz inversa da primeira matriz decomposta Kx e em que P é uma primeira matriz unitária.
Em outra aplicação, o processador de sinal podeser adaptado para determinar a matriz de mixagem de modo que
Figure img0005
caracterizado por
Figure img0006
em que U' é uma terceira matriz transposta de uma segunda matriz unitária U, em que V é uma terceira matriz unitária, em que
Figure img0007
em que Q é uma quarta matriz transposta da matriz de downmix Q, em que V é uma quinta matriz transposta da terceira matriz unitária V e, em que S é uma matriz diagonal.
De acordo com outra aplicação, o processador de sinal é adaptado para determinar uma matriz de mixagem como a regra de mixagem, caracterizado pelo processador de sinal ser adaptado para determinar a matriz de mixagem com base nas primeiras propriedades de covariância e com base nas segundas propriedades de covariância, em que o provedor é para fornecer ou analisar as primeiras propriedades de covariância determinando uma primeira matriz de covariância do sinal de entrada de áudio e, em que o processador de sinal é configurado para determinar a regra de mixagem com base em uma segunda matriz de covariância do sinal de saida de áudio como as segundas propriedades de covariância, em que processador de sinal é configurado para modificar, pelo menos, alguns valores da diagonal de uma matriz diagonal Sx quando os valores da matriz diagonal Sx são zero ou menores do que uma valor limite predeterminado, de modo que os valores sejam maiores do que ou iguais ao valor limite, em que o processador de sinal éadaptado para determinar a matriz de mixagem com base na matriz diagonal. Entretanto, o valor limite não precisa ser necessariamente predeterminado, mas pode ainda depender de uma função.
Em outra aplicação, o processador de sinal é configurado para modificar, pelo menos, alguns valores da diagonal da matriz diagonal Sx, caracterizado por Kx=UxSxVxTe, em que Cx = KXKX , em que Cx é a primeira matriz de covariância, em que Sx é a matriz diagonal, em que Ux é uma segunda matriz, Vj é uma terceira matriz transposta e em que Kj é uma quarta matriz transposta da quinta matriz Kx. As matrizes Vx e Ux podem ser matrizes unitárias.
De acordo com outra aplicação, o processador de sinal é adaptado para gerar o sinal de saida de áudio aplicando a regra de mixagem em, pelo menos, dois dos dois canais de entrada de áudio ou mais para obter um sinal intermediário y’=Mx e adicionando um sinal residual r ao sinal intermediário para obter o sinal de saida de áudio.
Em outra aplicação, o processador de sinal é adaptado para determinar a matriz de mixagem com base em uma matriz de ganho diagonal G e uma matriz intermediária M , de modo queM'=GM, caracterizada pela matriz de ganho diagonal ter ovalor
Figure img0008
onde Cv = MCrM r , J •*em que M' é a matriz de mixagem, em que G é a matriz de ganho diagonal e em que M é a matriz intermediária, em que Cy é a segunda matriz de covariância e em que MT é uma quinta matriz transposta da matriz M.
As aplicações preferenciais da presente invenção serão explicadas com referência às figuras em que:
A Figura 1 ilustra um aparelho para gerar um sinal de saida de áudio com dois ou mais canais de saida de áudio de um sinal de entrada de áudio com dois ou mais canais de entrada de áudio de acordo com uma aplicação,A Figura 2 descreve um processador de sinal de acordo com uma aplicação,A Figura 3 mostra um exemplo para aplicar uma combinação linear de vetores L e R para atingir um novo conjunto de vetor R' e L',A Figura 4 ilustra um diagrama em blocos de um aparelho de acordo com outra aplicação,A Figura 5 mostra um diagrama que descreve um sinal de microfone de coincidência estéreo no codificador Surround MPEG de acordo com uma aplicação,A Figura 6 descreve um aparelho de acordo com outra utilização referente ao nivel de correção/ICC downmix para um codificador SAM-para-MPS,A Figura 7 descreve um aparelho de acordo com uma utilização para uma melhoria para pequenas matrizes de microfone espaçadas,A Figura 8 ilustra um aparelho de acordo com outra utilização para melhoria cega da qualidade do som espacial na reprodução estéreo ou multicanal,A Figura 9 ilustra a melhoria das configuraçõesestreitas do alto-falante, A Figura 10 descreve um a utilização que fornece a interpretação da Codificação de Áudio Direcional com base em um sinal de microfone em formato B,A Figura 11 ilustra a tabela 1 que mostra exemplos numéricos de uma aplicação, eA Figura 12 descreve a lista 1 que mostra uma implementação Matlab de um método de acordo com uma aplicação.
A Figura 1 ilustra um aparelho para gerar um sinal de saida de áudio com dois ou mais canais de saida de áudio de um sinal de entrada de áudio com dois ou mais canais de entrada de áudio de acordo com uma aplicação. O aparelho compreende um provedor 110 e um processador de sinal 120. O provedor 110 é adaptado para receber o sinal de entrada de áudio com dois ou mais canais de entrada de áudio. Além disso, o provedor 110 é adaptado para analisar as primeiras propriedades de covariância do sinal de entrada de áudio. O provedor 110 é ainda adaptado para fornecer as primeiras propriedades de covariância ao processador de sinal 120. O processador de sinal 120 é ainda adaptado para receber o sinal de entrada de áudio. O processador de sinal 120 é ainda adaptado para gerar o sinal de saida de áudio aplicando uma regra de mixagem em, pelo menos, dois dos dois canais de entrada ou mais do sinal de entrada de áudio. O processador de sinal 120 é configurado para determinar a regra de mixagem com base nas primeiras propriedades de covariância do sinal de entrada de áudio e com base nas segundas propriedades de covariância do sinal de saida de áudio, as segundas propriedades de covariância diferente das primeiras propriedades de covariância.A Figura 2 ilustra um processador de sinal de acordo com uma aplicação. 0 processador de sinal compreende uma unidade de formulação da matriz de mixagem ideal 210 e uma unidade de mixagem 220. A unidade de formulação da matriz de mixagem ideal 210 formula uma matriz de mixagem ideal. Para isso, a unidade de 5 formulação da matriz de mixagem ideal 210 utiliza as primeiras propriedades de covariância 230 (por exemplo, propriedades de covariância de entrada) de um sinal de entrada de áudio da faixa de frequência estéreo ou multicanal conforme recebido, por exemplo, por um provedor 110 da utilização da Figura 1. Além 10 disso, a unidade de formulação da matriz de mixagem ideal 210 determina a matriz de mixagem com base nas segundas propriedades de covariância 240, por exemplo, uma matriz de covariância alvo, que pode ser dependente do pedido. A matriz de mixagem ideal que é formulada pela unidade de formulação da matriz de mixagem ideal 15 210 pode ser utilizada como uma matriz de mapeamento de canal. Amatriz de mixagem ideal pode então ser fornecida à unidade de mistura 220. A unidade de mistura 220 se aplica à matriz de mixagem ideal na entrada da faixa de frequência estéreo ou multicanal para obter uma saida da faixa de frequência estéreo ou 20 multicanal do sinal de saida de áudio. O sinal de saida de áudiotem as segundas propriedades de covariância desejadas (propriedades de covariância alvo).
Para explicar as aplicações da presente invenção em mais detalhes, as definições são introduzidas. Agora, os sinaisde entrada e saida complexos com média zero Xi(t,f) e yj(t,f) são definidos, caracterizado por t ser o indice de tempo, em que f é o indice de frequência, em que i é o índice do canal de entrada e emque j é o índice do canal de saída. Além disso, os vetores do sinal do sinal de entrada de áudio x e do sinal de saida de áudioy são definidos:
Figure img0009
onde Nx e Ny são o número total de canais deentrada e saida. Além disso, N = max (Ny, Nx) e sinais preenchidospor 0 de dimensão igual são definidos:
Figure img0010
Os sinais preenchidos por zero podem ser utilizados na formulação até quando a solução derivada for estendida a diferentes comprimentos do vetor.
Conforme foi explicado acima, a medição amplamente utilizada para descrever o aspecto espacial de um som multicanal é a combinação das energias do canal e as dependências alinhadas pelo tempo. Estas propriedades são compreendidas na parte real das matrizes de covariância, definido como:
Figure img0011
Na equação (3) e a seguir, E [] é o operador de expectativa, Re{} é o operador da parte real e xH e yri são as transposições conjugadas de x e y. O operador de expectativa E[] é um operador matemático. Nas aplicações práticas é substituído por uma estimativa como uma média sobre um determinado intervalo detempo. Seguindo as seções, o uso do termo matriz de covariância se refere a esta definição de valor real. Cx e Cy são simétricas e semidefinida positiva e, assim, as matrizes reais K.: e Ky podem serdefinidas, de modo que:
Figure img0012
Estas decomposições podem ser obtidas, porexemplo, utilizando a Decomposição de Cholesky ou a Decomposição Eigen, vide, por exemplo,[7] Golub, G.H. and Van Loan, C.F., "Matrix computations", Johns Hopkins Univ Press, 1996.10 Deve ser observado que há um número infinito dedecomposições que realizam a equação (4). Para qualquer matriz ortogonal Px e Py, as matrizes KXPX e KyPy também realizam a condição desde que
Figure img0013
nos casos de estéreo utilizados, a matriz de covariância é geralmente dada na forma das energias do canal e a correlação intercanal (ICC I inter-channel correlation) , por exemplo, em [1, 3, 4] . Os valores da diagonal de Cx são asenergias do canal e o ICC entre os dois canais é
Figure img0014
e correspondentemente para Cy. Os indices nos parênteses denotam a linha e a coluna da matriz.
A definição restante é a matriz de mapeamento 25 determinada pela utilização Q, que compreende a informação, cujoscanais de entrada devem ser utilizados na composição de cada canal de saida. Com Q pode-se definir um sinal de referênciayref=Qx. (7)
A matriz de mapeamento Q pode compreender mudanças na dimensionalidade e escala, combinação e reorganização dos canais. Devido à definição de preenchimento zero dos sinais, Q é aqui uma matriz quadrada N * N que pode compreender zero fileiras e colunas. Alguns exemplos de Q são:- Melhoria espacial: Q = I, nas aplicações, onde a saida deve ser o mais parecida com a entrada.- Downmixing: Q é uma matriz de downmix.- Sintese espacial dos sinais do microfone de primeira ordem: Q pode ser, por exemplo, uma matriz de mixagem do microfone Ambisonic, que significa que yref é um conjunto de sinais de microfone virtual.
A seguir, é formulado como gerar um sinal y a partir de um sinal x, com uma restrição que y tem a matriz de covariância definida pela utilização Cy. A utilização também define uma matriz de mapeamento Q que dá um ponto de referência para a otimização. O sinal de entrada x tem a matriz de covariância medida Cx. Conforme definido, os conceitos propostos para realizar esta transformação estão utilizando principalmente um conceito de apenas mixagem ideal dos canais, pois utilizar os descorrelacionadores tipicamente compreende a qualidade do sinal e depois, pela injeção de energia descorrelacionada quando o objetivo não é de outra forma obtido.
A relação entrada-saida de acordo com estes conceitos pode ser escrita comoy = Mx + r (8)onde M é uma matriz de mixagem real de acordo com o conceito primário e r é um sinal residual de acordo com o conceito secundário.
A seguir, conceitos são propostos para a modificação da matriz de covariância.Primeiro, a tarefa de acordo com o conceito primário é solucionada apenas pela mixagem cruzada dos canais de entrada. A equação (8) então simplifica para
Figure img0015
Das equações (3) e (9) , uma tem
Figure img0016
Das equações (5) e (10) segue que
Figure img0017
do qual um conjunto de soluções para M que realiza a equação (10) segue
Figure img0018
A condição para estas soluções é que Kj existe. AT matriz ortogonal P = Py Px é o parâmetro livre restante.A seguir, é descrito como uma matriz P fornece uma matriz ideal M. De todos M na equação (12), busca-se um que produza uma saida mais próxima ao ponto de referência definido yref, isto é, que reduza
Figure img0019
isto é, que reduza
Figure img0020
Agora, um sinal w é definido, de modo que E[Re{wwH}] =1. w possa ser escolhido de modo que x = Kxw, desde que
Figure img0021
Então, segue-se que
Figure img0022
A equação (13) pode ser escrita como
Figure img0023
De E[Re{wwH}] = I, pode ser prontamente mostradopara uma matri z simétrica real A que E [wH Aw] = tr (A) , que é o traço da matriz. Segueque a equação (16) toma a forma
Figure img0024
Para traços da matriz, pode ser prontamenteconfirmado que
Figure img0025
Utilizando estas propriedades, a equação (17)toma a forma
Figure img0026
Apenas o último termo depende de P. 0 problema deotimização é assim
Figure img0027
Pode ser prontamente mostrado para uma matriz diagonal não negativa S e qualquer matriz ortogonal Ps que
Figure img0028
Assim, definindo a decomposição do valor singular T TUSV1 = KxQrKy, onde S é não negativo e diagonal e U e V são ortogonais, segue que
Figure img0029
para qualquer ortogonal P. A igualdade é válidapara
Figure img0030
pelo qual este P produz o máximo de tr(KYQTKyP) e o minimo da medição de erro na equação (13).
Um aparelho de acordo com uma utilização determina uma matriz de mixagem ideal M, de modo que um erro seja reduzido. Deve-se observar que as propriedades de covariância do sinal de entrada de áudio e do sinal de saida de áudio podem variar para diferentes posições de tempo-frequência. Para isso, um provedor de um aparelho de acordo com uma utilização é adaptada para analisar as propriedades de covariância do canal de entrada de áudio que pode ser diferente para diferentes posições de tempo- frequência. Além disso, o processador de sinal de um aparelho de acordo com uma utilização é adaptada para determinar uma regra de mixagem, por exemplo, uma matriz de mixagem M com base nas segundas propriedades de covariância do sinal de saida de áudio,caracterizado pelas segundas propriedades de covariância poderem ter diferentes valores para diferentes posições de tempo- frequência .
Como a matriz de mixagem determinada M é aplicada em cada um dos canais de entrada de áudio do sinal de entrada de áudio e, como cada um dos canais de saida de áudio resultantes do sinal de saida de áudio pode assim depender de cada um dos canais de entrada de áudio, um processador de sinal de um aparelho de acordo com uma utilização é portanto adaptada para gerar o sinal de saida de áudio aplicando a regra de mixagem de modo que cada um de dois ou mais canais de saida de áudio depende de cada um de dois ou mais canais de entrada de áudio do sinal de entrada de áudio.
De acordo com outra aplicação, é proposto utilizar a decorrelação quando Kj não existe ou é instável. Nas aplicações descritas acima, uma solução foi fornecida para determinar uma matriz de mixagem ideal onde foi suposto que K~* existe. Entretanto, Kx' pode nem sempre existir ou seu inverso pode implicar multiplicadores muito grandes se alguns dos componentes principais em x forem muito pequenos. Uma forma efetiva para regularizar o inverso é empregar a decomposição do Tvalor singular Kx = UXSXVX . Consequentemente, o inverso é
Figure img0031
Problemas surgem quando alguns dos valores da diagonal da matriz diagonal não negativa Sx são zero ou muito pequenos. Um conceito que robustamente regulariza o inverso é então substituir estes valores por valores maiores. O resultado deste procedimento é Sx e o inverso correspondente Krl=VvSv1Uj e a matriz de mixagem correspondente M = KVPKX'.
Esta regularização efetivamente significa que dentro do processo de mixagem, a amplificação de alguns dos pequenos componentes principais em x é reduzida e, consequentemente, sua integridade para o sinal de saida y também é reduzido e a covariância alvo Cy não é atingida no geral.
Dessa forma, de acordo com uma aplicação, o processador de sinal pode ser configurado para modificar, pelo menos, alguns valores da diagonal de uma matriz diagonal Sx, caracterizado pelos valores da matriz diagonal Sx serem zero ou menores do que um valor limite (o valor limite pode ser predeterminado ou pode depender de uma função) , de modo que os valores sejam maiores ou iguais ao valor limite, em que o processador de sinal pode ser adaptado para determinar a matriz de mixagem com base na matriz diagonal.
De acordo com uma aplicação, o processador de sinal pode ser configurado para modificar, pelo menos, alguns valores da diagonal da matriz diagonal Sx, caracterizado por Kx = UXSXVXT, e em que Cx = KxKxem que Cx é a primeira matriz de covariância, em que Sx é a matriz diagonal, em que Ux é uma segunda matriz, Vr é uma terceira matriz transposta e em que Kx é uma quarta matriz transposta da quinta matriz Kx.
A perda acima de um componente do sinal pode ser completamente compensada com um sinal residual r. A relação original entrada-saida será elaborada com o inverso regularizado.
Figure img0032
Agora, um componente aditivo c é definido de modo A —1 T A —1 Tque ao invés de Sx Ux x , um tenha Sx Uxx + c. Além disso, um sinal independente w' é definido, de modo que í^e{w wH}] ~e
Figure img0033
Pode ser prontamente mostrado que um sinal
Figure img0034
tenha covariância Cy. 0 sinal residual paracompensar a regularização é então
Figure img0035
Como c foi definido como um sinal estocástico,segue que a propriedade relevante de r é sua matriz de covariância. Assim, qualquer sinal que for independente com relação a x que é processado para ter a covariância Cr serve como um sinal residual que idealmente reconstrói a matriz de 15 covariância alvo Cy em situações quando a regularização conforme descrito foi utilizada. Tal sinal residual pode ser prontamente gerado utilizando os descorrelacionadores e o método de mixagem do canal proposto.
Encontrar analiticamente o equilibrio ótimo entre 20 a quantidade de energia descorrelacionada e a amplificação de pequenos componentes de sinal não é simples. Isso é porque depene dos fatores específicos da utilização como a estabilidade das propriedades estatísticas do sinal de entrada, janela de análise aplicada e o SNR do sinal de entrada. Entretanto, é bastante 25 simples ajustar uma função heurística para realizar este equilibrio sem desvantagens óbvias, como foi feito no exemplo de código fornecido abaixo.
De acordo com isso, o processador de sinal de um aparelho de acordo com uma utilização pode ser adaptado para gerar o sinal de saida de áudio aplicando a regra de mixagem em, pelo menos, dois dos dois sinais de entrada de áudio ou mais, para obter um sinal intermediário y' = Mx e adicionando um sinal residual r ao sinal intermediário para obter o sinal de saida de áudio.
Foi mostrado que quando a regularização do inverso de Kx é aplicada, os componentes do sinal ausentes na saida geral podem ser completamente complementados com um sinal residual r com covariância Cr. Por estes meios, pode-se garantir que a covariância alvo Cy seja sempre obtida. A seguir, uma forma de gerar um sinal residual correspondente r é apresentada. Este compreende as etapas a seguir:1. Gerar um conjunto de sinais tanto quanto canais de saida. O sinal yref = Qx pode ser empregado, pois tem tantos canais quanto sinal de saida e cada sinal de saida contém um sinal apropriado para este canal particular.2. Descorrelacionar este sinal. Há várias formas de descorrelacionar, incluindo filtros passa tudo, circunvoluções com rajadas de ruido e atraso pseudoaleatório nas faixas de frequência.3. Medir (ou supor) a matriz de covariância do sinal descorrelacionado. A medição é mais simples e mais robusta, mas desde que os sinais são de descorrelacionadores, eles poderiam ser supostos como incoerentes. Então, apenas a medição de energia seria suficiente.4. Aplicar o método proposto para gerar uma matriz de mixagem que, quando aplicada ao sinal descorrelacionado, gera um sinal de saida com a matriz de covariância Cr. Utilize aqui uma matriz de mapeamento Q = I, pois se deseja afetar minimamente o conteúdo do sinal.5 5. Processar o sinal dos descorrelacionadores comesta matriz de mixagem e inseri-lo ao sinal de saida para complementar a falta de componentes do sinal. Desse modo, o alvo Cy é obtido.
Em uma utilização alternativa os canais 10 descorrelacionados são anexos ao sinal de entrada (pelo menos um) antes de formular a matriz de mixagem ideal. Neste caso, a entrada e a saida é da mesma dimensão e desde que o sinal de entrada tenha tantos componentes de sinal independentes quanto canais de entrada, não há necessidade de utilizar um sinal residual r.
Quando os descorrelacionadores são utilizados desta forma, o uso de descorrelacionadores é "invisível" ao conceito proposto, pois os canais descorrelacionados são canais de entrada como qualquer outro.Se o uso de descorrelacionadores for indesejável, 20 pelo menos as energias alvo do canal podem ser obtidas multiplicando-se as fileiras do M de modo que
Figure img0036
onde G é uma matriz de ganho diagonal com valores
Figure img0037
onde Cv = MC^M7".
Em muitas aplicações, o número de canais de entrada e saida é diferente. Conforme descrito na Equação (2), o preenchimento zero do sinal com uma dimensão menor é aplicado para ter a mesma dimensão que o mais alto. 0 preenchimento zero implica na sobrecarga computacional, pois algumas fileiras ou colunas no M resultante correspondem aos canais com energia zero definida.
Matematicamente, equivalente a utilizar o primeiro preenchimento zero e finalmente cortando M na dimensão relevante Ny * Nx, a sobrecarga pode ser reduzida introduzindo a matriz A que é umamatriz de identidade anexa ao zero na dimensão Ny x Nx, porexemplo,
Figure img0038
Quando P é redefinido de modo que
Figure img0039
o M resultante seja uma matriz de mixagem Ny x NX15 que é a mesma que a parte relevante do M do caso de preenchimentozero. Consequentemente, Cx, Cy, Kx e Ky pode ser de dimensão natural e a matriz de mapeamento Q é de dimensão Ny x Nx.
A entrada matriz de covariância é sempre decomponivel em Cx = KXKX pois é uma medição semidefinida positiva20 de um sinal real. É, entretanto, possivel definir tais matrizes de covariância alvo que não são decomponiveis pela razão que representam dependências do canal impossíveis. Há conceitos para garantir a decomposição, como ajustar os valores própriosnegativos a zeros e normalizar a energia, vide, por exemplo,25 [8] R. Rebonato, P. Jâckel, "The most generalmethodology to create a valid correlation matrix for risk management and option pricing purposes", Journal of Risk, Vol. 2, No. 2, pp. 17-28, 2000.
Entretanto, o uso mais significativo do conceito proposto é solicitar apenas as possiveis matrizes de covariância.
Para resumir o que foi mencionado acima, a tarefa comum pode ser reescrita conforme segue. Primeiramente, tem-se um 5 sinal de entrada com uma determinada matriz de covariância.
Depois, a utilização define dois parâmetros: a matriz de covariância alvo e uma regra, cujos canais de entrada devem ser utilizados na composição de cada canal de saida. Para realizar esta transformação, é proposto utilizar os seguintes conceitos: 0conceito primário, conforme ilustrado pela Figura 2, é que a covariância alvo é obtida utilizando uma solução de mixagem ideal dos canais de entrada. Este conceito é considerado primário, pois evita o uso do descorrelacionador, que geralmente compromete a qualidade do sinal. O conceito secundário ocorre quando não hácomponentes suficientes independentes da energia razoável disponível. A energia descorrelacionada é injetada para compensar a falta destes componentes. Juntos, estes dois conceitos fornecem meios para realizar o ajuste robusto da matriz de covariância em qualquer cenário determinado.
A principal utilização esperada do conceitoproposto está no campo da microfonia espacial [2,3], que é o campo onde os problemas relacionados ao sinal covariância sãoparticularmente evidentes devido às limitações fisicas dosmicrofones direcionais. Ainda, os casos do uso esperado incluem25 melhoria estéreo e multicanal, extração de ambiente, upmixing e downmixing.Na descrição acima, as definições foramdeterminadas, seguidas pela derivação do conceito proposto.
Primeiramente, a solução da mixagem cruzada foi fornecida, então o conceito de injeção da energia do som correlacionado foi determinado. Depois disso, uma descrição do conceito com um diferente número de canais de entrada e saida foi fornecida e também considerações na decomposição da matriz de covariância. A seguir, casos de uso prático são fornecidos e um conjunto de exemplos numéricos e a conclusão são apresentados. Além disso, um código de exemplo Matlab com funcionalidade completa de acordo com esta função é fornecido.
A característica espacial percebida de um som estéreo ou som multicanal é amplamente definida pela matriz de covariância do sinal nas faixas de frequência. Um conceito foi fornecido para, de forma ideal e adaptável, mixar um conjunto de canais de entrada com determinadas propriedades de covariância em um conjunto de canais de saida com propriedades de covariância que podem ser definidas de forma arbitrária. Outro conceito foi fornecido para injetar a energia descorrelacionada apenas onde necessário quando componentes de som independentes de energia razoável não estão disponíveis. O conceito tem uma ampla variedade de aplicações no campo de processamento do sinal de áudio espacial.
As energias do canal e as dependências entre os canais (ou a matriz de covariância) de um sinal multicanal podem ser controladas por apenas mixando linearmente e de forma variável por tempo os canais dependendo das características de entrada e as características alvo desejadas. Este conceito pode ser ilustrado com uma representação do fator do sinal onde o ângulo entre osvetores corresponde à dependência do canal e a amplitude do vetor é igual ao nivel do sinal.
A Figura 3 ilustra um exemplo para aplicar uma combinação linear de vetores L e R para atingir um novo conjunto de vetor R' e L' . Semelhantemente, os niveis de canal de áudio e sua dependência podem ser modificados com a combinação linear. A solução geral não inclui vetores, mas uma formulação da matriz que é ideal para qualquer número de canal.
A matriz de mixagem para sinais estéreos pode ser prontamente formulada também de forma trigonométrica, como pode ser visto na Figura 3. Os resultados são os mesmos que com a matemática da matriz, mas a formulação é diferente.
Se os canais de entrada são altamente dependentes, atingir a matriz de covariância alvo é possivel apenas utilizando descorrelacionadores. Um procedimento para injetar os descorrelacionadores apenas onde necessário, por exemplo, de forma ideal, também foi fornecido.
A Figura 4 ilustra um diagrama em blocos de um aparelho de uma utilização aplicando a técnica de mixagem. O aparelho compreende um módulo de análise da matriz de covariância 410 e um processador de sinal (não mostrado), caracterizado pelo processador de sinal compreender um módulo de formulação da matriz de mixagem 420 e um módulo de utilização da matriz de mixagem 430. Propriedades de covariância de entrada de uma entrada da faixa de frequência estéreo ou multicanal são analisadas por um módulo de análise da matriz de covariância 410. O resultado da análise da matriz de covariância é inserido em um módulo de formulação da matriz de mixagem 420.O módulo de formulação da matriz de mixagem 420 formula uma matriz de mixagem com base na análise do resultado da matriz de covariância, com base em uma matriz de covariância alvo e possivelmente também com base em um critério de erro.0 módulo de formulação da matriz de mixagem 420 insere a matriz de mixagem em um módulo de utilização da matriz de mixagem 430. O módulo de utilização da matriz de mixagem 430 aplica a matriz de mixagem na entrada da faixa de frequência estéreo ou multicanal para obter uma saida da faixa de frequência estéreo ou multicanal com, por exemplo, predefinido, propriedades de covariância alvo dependendo da matriz de covariância alvo.
Resumindo o que foi mencionado acima, a finalidade geral do conceito é melhorar, ajustar e/ou sintetizar o som espacial com um grau extremo de otimização em termos de qualidade do som. O alvo, por exemplo, as segundas propriedades de covariância, é definido pela aplicação.
Também aplicável em faixa completa, o conceito é perceptualmente significativo especialmente no processamento da faixa de frequência.
Descorrelacionadores são utilizados a fim de melhorar (reduzir) a correlação intercanal. Eles fazem isso, mas estão propensos a comprometer a qualidade geral do som, especialmente com um componente de som transiente.
O conceito proposto evita, ou em alguma utilização reduz, o uso de descorrelacionadores. O resultado é a mesma característica espacial, mas sem perda da qualidade do som.Entre outros usos, a tecnologia pode ser empregada em um Codificador SAM-para-MPS.
O conceito proposto foi implementado para melhorar uma técnica de microfone que gera o fluxo de dados MPEG Surround (MPEG | Moving Picture Experts Group) fora de um sinal de microfones coincidentes estéreos de primeira ordem, vide, por exemplo, [3]. O processo inclui estimar do sinal estéreo a direção e a difusão do campo do som nas faixas de frequência e criar tal fluxo de dados MPEG Surround que, quando decodificado no receptor final, produza um campo de som que perceptualmente aproxima o campo de som original.
Na Figura 5, um diagrama é ilustrado descrevendo um sinal de microfone de coincidência estéreo ao codificador MPEG Surround de acordo com uma aplicação, que emprega o conceito proposto para criar o sinal de downmix MPEG Surround no determinado sinal do microfone. Todo o processamento é realizado nas faixas de frequência.
Um módulo de determinação de dados espaciais 520 é adaptado para formular os dados de informação da configuração compreendendo dados surround espaciais e ICC downmix e/ou niveis com base na informação de direção e difusão dependendo de um modelo do campo de som 510. 0 modelo do campo de som tem como base uma análise do microfone ICC's e niveis de um sinal de microfone estéreo. O módulo de determinação de dados espaciais 520 então fornece os ICC' s de downmix alvo e niveis a um módulo de formulação da matriz de mixagem 530. Além disso, o módulo de determinação de dados espaciais 520 pode ser adaptado para formular os dados surround espaciais e ICC's downmix e niveis como a informação lateral espacial MPEG Surround. O módulo de formulação da matriz de mixagem 530 então formula uma matriz de fornecidos, por exemplo, ICC's downmix alvo e níveis, e insere a matriz em um módulo de mixagem 540. 0 módulo de mixagem 540 aplica a matriz de mixagem no sinal estéreo do microfone. Desse modo, um sinal é gerado com ICC's e níveis alvo. O sinal com os ICC's e níveis alvo é então fornecido a um codificador de núcleo 550. Em uma aplicação, os módulos 520, 530 e 540 são submódulos de um processador de sinal.
Dentro do processo conduzido por um aparelho de acordo com a Figura 5, um downmix estéreo MPEG Surround deve ser gerado. Isso inclui uma necessidade de ajustar os níveis e os ICC's do sinal estéreo determinado com impacto mínimo na qualidade do som. O conceito proposto de mixagem cruzada foi aplicado para esta finalidade e o benefício perceptual da técnica anterior em [3] foi observado.
A Figura 6 ilustra um aparelho de acordo com outra utilização referente à correção de ICC downmix/niveí para um codificador SAM-para-MPS. Uma análise de ICC e nível é conduzida no módulo 602 e o modelo do campo de som 610 depende da Análise do ICC e nível pelo módulo 602. O módulo 620 corresponde ao módulo 520, o módulo 630 corresponde ao módulo 530 e o módulo 640 corresponde ao módulo 540 da Figura 5, respectivamente. O mesmo se aplica para o codificador de núcleo 650 que corresponde ao codificador de núcleo 550 da Figura 5. O conceito descrito acima pode ser integrado em um codificador SAM-para-MPS para criar a partir dos sinais do microfone o MPS downmix com ICC e níveis exatamente corretos. O conceito descrito acima também é aplicável à interpretação direta SAM-para-multicanal sem MPS para fornecer síntese espacial ideal enquanto reduz a quantidade do uso do descorrelacionador.
Melhorias são esperadas com relação à distância fonte, localização da fonte, estabilidade, conforto e envolvimento da audição.
A Figura 7 descreve um aparelho de acordo com uma utilização para uma melhoria para pequenas matrizes de microfone espaçadas. Um módulo 705 é adaptado para conduzir uma análise da matriz de covariância de um sinal do microfone de entrada para obter uma matriz de covariância do microfone. A matriz de covariância do microfone é inserida em um módulo de formulação da matriz de mixagem 730. Além disso, a matriz de covariância do microfone é utilizada para derivar um modelo do campo de som 710. O modelo do campo de som 710 pode se basear em outras fontes além da matriz de covariância.
Informação de direção e difusão com base no modelo do campo de som é então inserida ao módulo de formulação da matriz de covariância alvo 720 para gerar uma matriz de covariância alvo. O módulo de formulação da matriz de covariância alvo 720 então insere a matriz de covariância alvo ao módulo de formulação da matriz de mixagem 730.
O módulo de formulação da matriz de mixagem730 é adaptado para gerar a matriz de e insere a matriz de mixagem gerada ao módulo de utilização da matriz de mixagem 740. O módulo de utilização da matriz de mixagem 740 é adaptado para aplicar a matriz mixagem no sinal do microfone de entrada para obter um sinal do microfone de saida com as propriedades de covariância alvo. Em uma aplicação, os módulos 720, 730 e 740 são submódulos de um processador de sinal.
Tal aparelho segue o conceito em DirAC e SAM, que é estimar a direção e difusão do campo de som original e para criar esta saida que melhor reproduz a direção e difusão estimada. Este procedimento de processamento de sinal exige grandes ajustes da matriz de covariância para fornecer a imagem espacial correta. O conceito processado é a solução. Pelo conceito proposto, a distância da fonte, a localização da fonte e/ou a separação da fonte, o conforto e envolvimento da audição.
A Figura 8 ilustra um exemplo que mostra uma utilização para melhoria cega da qualidade do som espacial na reprodução estéreo ou multicanal. No módulo 805, uma análise da matriz de covariância, por exemplo, uma Análise de ICC ou nivel de conteúdo estéreo ou multicanal é conduzida. Então, uma regra de melhoria é aplicada no módulo de melhoria 815, por exemplo, para obter as saidas ICC das entradas ICC. Um módulo de formulação da matriz de mixagem 830 gera uma matriz de mixagem com base na análise da matriz de covariância conduzida pelo módulo 805 e com base na informação derivada para aplicar a regra de melhoria que foi conduzida no módulo de melhoria 815. A matriz de mixagem é então aplicada no conteúdo estéreo ou multicanal no módulo 840 para obter o conteúdo estéreo ou multicanal ajustado com as propriedades de covariância alvo.
Referente ao som multicanal, por exemplo, mixagens e gravações, é muito comum encontrar a subotimizaçâo perceptual no som espacial, especialmente em termos de ICC muito alto. Uma consequência tipica tem a qualidade reduzida com relação à largura, envolvimento, distância, separação da fonte, localização da fonte e/ou estabilidade da fonte e conforto da audição. Foi testado informalmente que o conceito pode melhorar estas propriedades com itens que têm ICC's desnecessariamente altos. Melhorias observadas são largura, distância da fonte, localização/separaçâo da fonte, envolvimento e conforto da audição.
A Figura 9 ilustra outra utilização para melhoria das configurações estreitas do alto-falante (por exemplo, tablets, TV) . O conceito proposto é provavelmente útil como uma fermenta para melhorar a qualidade estéreo nas configurações de reprodução onde um angulo do alto-falante é muito estreito (por exemplo, tablets). O conceito proposto fornecerá:- replanejar as fontes dentro do arco determinado para corresponder a uma configuração mais ampla do alto-falante- aumentar o ICC para melhor corresponder ao de uma configuração do alto-falante mais ampla- fornecer um melhor ponto inicial para realizar o cancelamento da diafonia, por exemplo, utilizando o cancelamento da diafonia apenas quando não há forma direta para criar os sinais binaurais desejados.
Melhorias são esperadas com relação à largura e com relação ao cancelamento da diafonia regular, qualidade do som e robustez.
Em outra utilização exemplo ilustrada pela Figura 10, uma utilização é descrita fornecendo renderização da Codificação do Áudio Direcionado (DirAC) ideal com base em um sinal de microfone em formato B.A utilização da Figura 10 é com base na constatação de que a renderização das unidades do estado da
A utilização da Figura 10 é com base na constatação de que a renderização das unidades do estado da técnica DirAC com base nos sinais do microfone coincidentes aplicam a descorrelação na extensão desnecessária, assim, comprometendo a qualidade do áudio. Por exemplo, se o campo de som é analisado como difuso, a correlação total é aplicada em todos os canais, embora um formato B forneça já três componentes de som incoerentes no caso de um campo de som horizontal (W, X, Y) . Este efeito está presente nos graus variantes exceto quando a difusão for zero.
Além disso, os sistemas descritos acima utilizando os microfones virtuais não garantem a matriz de covariância de saida correta (niveis e correlações do canal), pois os microfones virtuais realizam o som de forma diferente dependendo do ângulo da fonte, posicionamento do alto-falante e difusão do campo de som.
O conceito proposto soluciona ambas as questões. Há duas alternativas: fornecer os canais descorrelacionados como canais de entrada extra (como na figura abaixo); ou utilizar um conceito de mixagem do descorrelacionador.
Na Figura 10, um módulo 1005 conduz uma análise da matriz de covariância. Um módulo de formulação da matriz de covariância alvo 1018 não considera apenas um modelo do campo de som, mas também leva em conta uma configuração do alto-falante ao formular uma matriz de covariância alvo. Além disso, um módulo de formulação da matriz de mixagem 1030 gera uma matriz de mixagem não apenas com base em uma análise da matriz de covariância e a matriz de covariância alvo, mas também com base nos critérios de otimização, por exemplo, uma matriz de mixagem em formato B para microfone virtual fornecida por um módulo 1032. O modelo do campo de som 1010 pode corresponder ao modelo do campo de som 710 da Figura 7. O módulo de utilização d a matriz de mixagem 1040 pode corresponder ao módulo de utilização da matriz de mixagem 740 da Figura 7.
Em outra utilização exemplo, uma utilização é fornecida para o ajuste espacial nos métodos de conversão do canal, por exemplo, downmix. A conversão do canal por exemplo, fazendo 5.1 downmix de 22.2 faixas de áudio automática inclui quebrar os canais. Isso pode incluir uma perda ou mudança da imagem espacial que pode ser direcionada com o conceito proposto. Novamente, há duas alternativas: a primeira utiliza o conceito no dominio do número de canais mais altos, mas definindo os canais de energia zero para os canais ausentes do número inferior; a outra formula a solução da matriz diretamente para diferentes números de canal.
A Figura 11 ilustra a tabela 1, que fornece exemplos numéricos dos conceitos descritos acima. Quando um sinal com covariância Cx é processado com uma matriz de mixagem M e complementado com um possivel sinal residual com Cr, o sinal de saida tem covariância Cy. Embora estes exemplos numéricos sejam estáticos, o caso do uso tipico do método proposto é dinâmico. A ordem do canal é suposta L, R, C, Ls, Rs, (Lr, Rr) .
A Tabela 1 mostra um conjunto de exemplos numericamente para ilustrar o comportamento do conceito proposto em alguns casos esperados. As matrizes foram formuladas com o código Matlab fornecido na lista 1. A lista 1 é ilustrada na Figura 12.
A lista 1 de Figura 12 ilustra uma implementação Matlab do conceito proposto. O código Matlab foi utilizado nos exemplos numéricos e fornece a funcionalidade geral do conceito proposto.
Embora as matrizes sejam ilustradas estáticas, em aplicações tipicas elas variam em tempo e frequência. O critério de desenho é por definição cumprido se um sinal com covariância Cx for processado com uma matriz de mixagem M e completada com um possivel sinal residual com Cr o sinal de saida tem a covariância definida Cy.
A primeira e a segunda fileira da tabela ilustram um caso de uso da melhoria estéreo por meios da correlação dos sinais. Na primeira fileira há um pequeno, mas razoável componente incoerente entre os dois canais e assim a saida completamente incoerente é obtida com apenas mixagem do canal. Na segunda fileira, a correlação da entrada é muito alta, por exemplo, o menor componente principal é muito pequeno. A amplificação deste nos graus extremos não é desejável e assim o limitador embutido começa a exigir a injeção da energia correlacionada ao invés, por exemplo, Cr é agora não -zero.
A terceira fileira mostra uma caixa estéreo a 5,0 upmixing. Neste exemplo, a matriz de covariância alvo é definida de modo que o componente incoerente da mixagem estéreo é igualmente e incoerentemente distribuída nos alto-falantes lateral e traseiro e o componente coerente é colocado no alto-falante central. O sinal residual é novamente não-zero desde que a dimensão do sinal seja aumentada.
A quarta fileira mostra uma caixa simples de 5,0 a 7,0 upmixing onde os dois canais traseiros originais fazem upmixing nos quatro novos canais traseiros, incoerentemente. Este exemplo ilustra que o processamento foca nestes canais onde ajustes são solicitados.
A quinta fileira descreve um a caixa de downmixing de sinal 5,0 ao estéreo. Downmixing passivo, como aplicar uma matriz de mixagem de downmix estática Q, amplificaria os componentes coerentes sobre os componentes incoerentes. Aqui a matriz de covariância alvo foi definida para preservar a energia, que é realizada pelo M resultante.
A sexta e a sétima fileiras ilustram a caixa de uso da microfonia espacial coincidente. As matrizes de covariância de entrada Cx são o resultado de colocação dos microfones coincidentes de primeira ordem ideais em um campo difuso ideal. Na sexta fileira os ângulos entre os microfones são iguais e, na sétima fileira os microfones estão voltados aos ângulos de uma configuração de 5,0. Em ambos os casos, os maiores valores da diagonal de Cx ilustram a desvantagem inerente da técnica de microfones coincidente da primeira ordem passiva na caixa ideal, a matriz de covariância que melhor representa um campo difuso é diagonal e este foi então definido como o alvo. Em ambos os casos, a razão do resultado da energia correlacionada sobre toda a energia é exatamente 2/5. Isso acontece porque há três componentes do sinal independentes disponíveis nos sinais do microfone coincidente horizontais de primeira ordem e dois devem ser adicionados para atingir a matriz de covariância alvo diagonal de cinco canais.
A percepção espacial na reprodução estéreo e multicanal foi identificada para depender especialmente da matriz de covariância do sinal nas faixas de frequência perceptualmente relevantes.
Um conceito para controlar a matriz de covariância de um sinal pela mixagem cruzada ideal dos canais foi apresentado. Meios para injetar a energia descorrelacionada onde necessário nos casos quando componentes do sinal independentes suficientes da energia razoável não estão disponíveis foram apresentados.
O conceito foi observado como robusto em sua finalidade e uma ampla variedade das utilizações semelhantes foi identificada.
A seguir, aplicações são apresentadas, como gerar Cy com base em Cx. Como um primeiro exemplo, estéreo a 5.0 upmixing é considerado. Referente ao estéreo-para-5,0 upmixing, no upmixing, Cx é uma matriz 2x2 e Cy é uma matriz 5x5 (neste exemplo, o canal subwoofer não é considerado). As etapas para gerar Cy com base em Cx, em cada parte de tempo-frequência, no contexto de upmixing, pode, por exemplo, ser conforme segue:1. Estimar a energia ambiente e direta no canal esquerdo e direito. O ambiente é caracterizado por um componente incoerente entre os canais que tem energia igual em ambos os canais. A energia direta é a restante quando a parte da energia ambiente é removida da energia total, por exemplo, o componente de energia coerente, possivelmente com diferentes energias nos canais esquerdo e direito.2. Estimar um ângulo do componente direito. Isso é feito utilizando uma lei da posição da amplitude inversamente. Há uma razão de posição da amplitude no componente direito e há apenas um ângulo entre alto-falantes dianteiros que correspondem a ele.3. Gerar uma matriz 5x5 de zeros como Cy.4. Colocar a quantidade de energia direta na diagonal de Cy correspondente a dois alto-falantes mais próximos da direção analisada. A distribuição da energia entre estes pode ser adquirida pelas leis de posição da amplitude. A posição da amplitude é coerente, então adicione à não diagonal correspondente a raiz quadrada do produto das energias dos dois canais.5. Adicione à diagonal de Cy, correspondente aos canais L, R, Ls e Rs, a quantidade de energia que corresponde à energia do componente do ambiente. A distribuição igual é uma boa escolha. Agora se tem o alvo Cy.
Como outro exemplo, a melhoria é considerada. O objetivo é aumentar as qualidades perceptuais como largura ou envolvimento ajustando a coerência intercanal a zero. Aqui, dois diferentes exemplos são determinados, em duas formas de realizar a melhoria. Para a primeira forma, seleciona-se uma melhoria da caixa de uso estéreo, assim Cx e Cy são matrizes 2x2. As etapas são conforme segue:1. Formular ICC (o valor de covariância normalizado entre -1 e 1, por exemplo com a fórmula fornecida).2. Ajustar ICC por uma função. Por exemplo ICCnew = sinal (ICC) * ICC2. Esse é um ajuste leve. Ou ICCnew = sinal (ICC) * max(0, abs(ICC) *10-9). Este é um ajuste maior.3. Formular Cy de modo que os valores da diagonal sejam os mesmos como em Cx, mas o valor não-diagonal é formulado utilizando ICCnewr com a mesma fórmula como na etapa 1, mas inversamente.
No cenário acima, o sinal residual não énecessário, pois o ajuste de ICC é sinalizado de modo que o sistema não solicite grande amplificação de pequenos componentes do sinal.
O segundo tipo de implementação do método nesta caixa de uso, é conforme segue. Tem-se um sinal de entrada docanal N, assim Cx e CY são matrizes NxN.1. Formular Cy de Cx ajustando simplesmente os valores da diagonal em Cy o mesmo como em Cx, e os valores não- diagonais a zero.2. Permitir o método de compensação de ganho nométodo proposto, ao invés de utilizar os residuais. A regularização no inverso de Kx cuida para que o sistema seja estável. A compensação de ganho cuida para que as energias sejam preservadas.
As duas formas descritas para fazer a melhoriafornecem resultados semelhantes. O último é mais fácil de implementar na caixa de uso multicanal.
Finalmente, como um terceiro exemplo, o modelo direto/difusão, por exemplo, a Codificação de Áudio Direcional (DirAC), é considerado
DirAC e também os Microfones de Áudio Espaciais(SAM I Spatial Audio Microphones) , fornecem uma interpretação de um campo de som com direção e difusão dos parâmetros. A direção éo ângulo de chegada do componente de som direto. A difusão é um valor entre 0 e 1, que fornece a informação do tamanho da quantidade da energia de som total difusa, por exemplo, suposto para chegar incoerentemente de todas as direções. Esta é uma aproximação do campo de som, mas quando aplicado nas faixas de frequência perceptuais, uma representação perceptualmente boa do campo de som é fornecida. A direção, difusão e toda a energia do campo de som conhecidos são supostos em um dominio de tempo- frequência. Estes são formulados utilizando a informação na matriz de covariância do microfone Cx. Tem-se uma configuração do alto- falante do canal N. As etapas para gerar Cy são semelhantes ao upmixing, conforme segue:1. Gerar uma matriz NxN de zeros como Cy.2. Colocar a quantidade de energia direta, que é (1 - difusão) * energia total, ao diagonal de Cy correspondente a dois alto-falantes mais próximos da direção analisada. A distribuição da energia entre estas pode ser adquirida pelas leis da posição da amplitude. A posição da amplitude é coerente, então adicione ao não-diagonal correspondente uma raiz quadrada dos produtos das energias dos dois canais.3. Distribuir ao diagonal de Cy a quantidade de energia difusa, que é difusão * energia total. A distribuição pode ser feita, por exemplo, de modo que mais energia é colocada nestas direções onde os alto-falantes são insuficientes. Agora se tem o alvo Cy.
Embora alguns aspectos tenham sido descritos no contexto de um aparelho, fica claro que estes aspectos também representam uma descrição do método correspondente, onde um blocoou dispositivo corresponde a uma etapa do método ou a uma função de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou função de um aparelho correspondente.
Dependendo de certas exigências de implantação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma memória ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controle legiveis eletronicamente armazenados nele, que cooperam (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja realizado.
Algumas aplicações de acordo com a invenção compreendem um suporte de dados tendo sinais de controle eletronicamente legiveis que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.
Geralmente, as aplicações da presente invenção podem ser implementadas como um produto de programa de computador com um código do produto, o código do produto sendo operativo para realizar um dos métodos quando o produto do programa de computador for executado em um computador. O código do produto pode, por exemplo, ser armazenado em um suporte legivel por máquina.
Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos aqui, armazenado em um suporte legivel por máquina ou um meio de armazenamento nãotransitório.
Em outras palavras, uma aplicação do método inventivo é, portanto, um programa de computador tendo um código do produto para realizar um dos métodos descritos aqui, quando o programa de computador é executado em um computador.
Outra aplicação do método inventivo é, portanto, um suporte de dados (ou um meio de armazenamento digital, ou um meio legivel por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos aqui.
Outra aplicação do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para realizar um dos métodos descritos aqui. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
Uma aplicação adicional compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos descritos aqui.
Uma aplicação adicional compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos aqui.
Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas lógicas programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas aplicações, um arranjo de portas lógicas programáveis pode cooperar com ummicroprocessador para realizar um dos métodos descritos aqui.
Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.
As aplicações acima descritas são meramente ilustrativas para os princípios da presente invenção. Deve ser entendido que modificações e variações das disposições e detalhes descritos aqui serão evidentes a outros especialistas na técnica. É a intenção, portanto, serem limitadas apenas pelo escopo das reivindicações de patente pendente e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações aqui contidas.LITERATURA:[1] C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals", Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006.[2] V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007.[3] C. Tournery, C. Faller, F. Küch, J. Herre, "Converting Stereo Microphone Signals Directly to MPEG Surround", 128th AES Convention, May 2010.[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, "Parametric Coding of Stereo Audio," EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305- 1322, 2005.[5] J. Herre, K. Kjõrling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rõdén, W. Oomen, K. Linzmeier and K. S. Chong, "MPEG Surround - TheISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008.[6] J. Vilkamo, V. Pulkki, "Directional AudioCoding: Virtual Microphone-Based Synthesis and Subjective5 Evaluation", Journal of the Audio Engineering Society, Vol. 57,No. 9, pp. 709-724, September 2009.[7] Golub, G.H. and Van Loan, C.F., "Matrixcomputations", Johns Hopkins Univ Press, 1996.[8] R. Rebonato, P. Jâckel, "The most general10 methodology to create a valid correlation matrix for riskmanagement and option pricing purposes", Journal of Risk, Vol. 2, No. 2, pp. 17-28, 2000.

Claims (26)

1. Um aparelho para gerar um sinal de saída de áudio com dois ou mais canais de saída de áudio de um sinal de entrada de áudio com dois ou mais canais de entrada de áudio, compreendendo:um provedor (110) para fornecer as primeiras propriedades de covariância do sinal de entrada de áudio, eum processador de sinal (120) para gerar o sinal de saída de áudio aplicando uma regra de mixagem em, pelo menos, dois de dois canais de entrada de áudio ou mais,caracterizado pelo processador de sinal (120) ser configurado para determinar a regra de mixagem com base nas primeiras propriedades de covariância do sinal de entrada de áudio e com base nas segundas propriedades de covariância do sinal de saída de áudio, as segundas propriedades de covariância diferentes das primeiras propriedades de covariância.
2. Um aparelho de acordo com a reivindicação 1, caracterizado pelo provedor (110) ser adaptado para fornecer as primeiras propriedades de covariância, em que as primeiras propriedades de covariância têm um primeiro estado para uma primeira posição de tempo-frequência e em que as primeiras propriedades de covariância têm um segundo estado, diferente do primeiro estado, para uma segunda posição de tempo-frequência, diferente da primeira posição de tempo-frequência.
3. Um aparelho de acordo com a reivindicação 1 ou 2, caracterizado pelo processador de sinal (120) ser adaptado para determinar a regra de mixagem com base nas segundas propriedades de covariância, em que as segundas propriedades de covariância têm um terceiro estado para uma terceira posição de tempo-frequência e, em que as segundas propriedades de covariância têm um quarto estado, diferente do terceiro estado para uma quarta posição de tempo-frequência, diferente da terceira posição de tempo-frequência.
4. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo processador de sinal (120) ser adaptado para gerar o sinal de saída de áudio aplicando a regra de mixagem de modo que cada um dos dois canais de saída de áudio ou mais depende de cada um dos dois canais de entrada de áudio ou mais.
5. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo processador de sinal (120) ser adaptado para determinar a regra de mixagem de modo que uma medição de erro seja reduzida.
6. Um aparelho de acordo com a reivindicação 5, caracterizado pelo processador de sinal (120) ser adaptado para determinar a regra de mixagem de modo que a regra de mixagem depende de
Figure img0040
em que x é o sinal de entrada de áudio, em que Q é uma matriz de mapeamento e em que y é o sinal de saída de áudio.
7. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo processador de sinal (120) ser configurado para determinar a regra de mixagem determinando as segundas propriedades de covariância, em que o processador de sinal (120) é configurado para determinar as segundas propriedades de covariância com base nas primeiras propriedades de covariância.
8. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo processador de sinal (120) ser adaptado para determinar uma matriz de mixagem como a regra de mixagem, em que o processador de sinal (120) é adaptado para determinar a matriz de mixagem com base nas primeiras propriedades de covariância e com base nas segundas propriedades de covariância.
9. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo provedor (110) ser adaptado para fornecer as primeiras propriedades de covariância determinando uma primeira matriz de covariância do sinal de entrada de áudio e em que o processador de sinal (120) é configurado para determinar a regra de mixagem com base em uma segunda matriz de covariância do sinal de saída de áudio como as segundas propriedades de covariância.
10. Um aparelho de acordo com a reivindicação 9, caracterizado pelo provedor (110) ser adaptado para determinar a primeira matriz de covariância, de modo que cada valor da diagonal da primeira matriz de covariância indique uma energia de um dos canais de entrada de áudio e de modo que cada valor da primeira matriz de covariância, que não é um valor da diagonal indique uma correlação intercanal entre um primeiro canal de entrada de áudio e um diferente segundo canal de entrada de áudio.
11. Um aparelho de acordo com a reivindicação 9 ou 10, caracterizado pelo processador de sinal (120) ser configurado para determinar a regra de mixagem com base na segunda matriz de covariância, em que cada valor da diagonal da segunda matriz de covariância indica uma energia de um dos canais de saída de áudio e em que cada valor da segunda matriz de covariância, que não é um valor da diagonal, indica uma correlação intercanal entre um primeiro canal de saída de áudio e um segundo canal de saída de áudio.
12. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo processador de sinal (120) ser adaptado para determinar uma matriz de mixagem como aregra de mixagem, em que o processador de sinal (120) é adaptado para determinar a matriz de mixagem com base nas primeiraspropriedades de covariância e com base nas segundas propriedades de covariância, em que o provedor (110) é adaptado para fornecer as primeiras propriedades de covariância determinando uma primeira matriz de covariância do sinal de entrada de áudio e em que oprocessador de sinal (120) é configurado para determinar a regrade mixagem com base em uma segunda matriz de covariância do sinal de saída de áudio como as segundas propriedades de covariância, em que o processador de sinal (120) é adaptado para determinar amatriz de mixagem de modo que:
Figure img0041
em que M é a matriz de mixagem, em que Cx é aprimeira matriz de covariância, em que Cy é a segunda matriz decovariância, em que K T x é uma primeira matriz transposta de umaprimeira matriz de covariância, em que Cy é a segunda matriz de covariância, em que KT é uma primeira matriz transposta de uma primeira matriz decomposta Kx, em que KT é uma segunda matriztransposta de uma segunda matriz decomposta Ky, em que K -1 é uma matriz inversa da primeira matriz decomposta Kx e em que P é uma primeira matriz unitária.
13. Um aparelho de acordo com a reivindicação 12, caracterizado pelo processador de sinal (120) ser adaptado para determinar a matriz de mixagem de modo que
Figure img0042
em que
Figure img0043
em que UT é uma terceira matriz transposta de uma segunda matriz unitária U, em que V é uma terceira matriz unitária, em que A é uma matriz de identidade anexada com zeros, em que
Figure img0044
em que QT é uma quarta matriz transposta damatriz de mapeamento Q,em que VT é uma quinta matriz transposta daterceira matriz unitária V e em que S é uma matriz diagonal.
14. Um aparelho de acordo com a reivindicação 1, caracterizado pelo processador de sinal (120) ser adaptado para determinar uma matriz de mixagem como a regra de mixagem, em que o processador de sinal (120) é adaptado para determinar a matriz de mixagem com base nas primeiras propriedades de covariância e com base nas segundas propriedades de covariância,em que o provedor (110) é adaptado para fornecer as primeiras propriedades de covariância determinando uma primeira matriz de covariância do sinal de entrada de áudio e, em que o processador de sinal (120) é configurado para determinar a regra de mixagem com base em uma segunda matriz de covariância do sinal de saída de áudio como as segundas propriedades de covariância,em que o processador de sinal (120) é adaptado para determinar a regra de mixagem modificando pelo menos alguns valores da diagonal de uma matriz diagonal Sx quando os valores da matriz diagonal Sx são zero ou menores do que um valor limite, de modo que os valores sejam maiores do que ou iguais ao valor limite,em que a matriz diagonal depende da primeira matriz de covariância.
15. Um aparelho de acordo com a reivindicação 14, caracterizado pelo processador de sinal (120) ser configurado para modificar, pelo menos, alguns valores diagonais da matriz diagonal Sx, em que Kx = UxSx VxT , e em que C x = K x K T , em que Cx é a primeira matriz de covariância, em que Sx é a matriz diagonal, em que Ux é uma segunda matriz, VT é uma terceira matriz transposta e em que KTx é uma quarta matriz transposta da quinta matriz Kx, e em que V e Ux são matrizes unitárias.
16. Um aparelho de acordo com a reivindicação 14 ou 15, caracterizado pelo processador de sinal (120) ser adaptado para gerar o sinal de saída de áudio aplicando a matriz de mixagem em, pelo menos, dois dos dois canais de entrada de áudio ou mais para obter um sinal intermediário e adicionando um sinal residual r ao sinal intermediário para obter o sinal de saída de áudio.
17. Um aparelho de acordo com a reivindicação 14 ou 15, caracterizado pelo processador de sinal (120) ser adaptado para determinar a matriz de mixagem com base em uma matriz de ganho diagonal G e uma matriz intermediária M , de modo que M' = GM, em que a matriz de ganho diagonal tem o valor
Figure img0045
em que M’ é a matriz de mixagem, em que G é amatriz de ganho diagonal, em que Cy é a segunda matriz deTcovariância e em que M é uma quinta matriz transposta da matriz intermediária M .
18. Um aparelho de acordo com a reivindicação 1, caracterizado pelo processador de sinal (120) compreender:um módulo de formulação da matriz de mixagem(420; 530; 630; 730; 830; 1030) para gerar uma matriz de mixagemcomo a regra de mixagem com base nas primeiras propriedades de covariância e,um módulo de utilização da matriz de mixagem(430; 540; 640; 740; 840; 1040) para aplicar a matriz de mixagemno sinal de entrada de áudio para gerar o sinal de saída de áudio.
19. Um aparelho de acordo com a reivindicação 18, caracterizado pelo provedor (110) compreender ummódulo de análise da matriz de covariância (410; 705; 805; 1005)para fornecer a entrada das propriedades de covariância do sinal de entrada de áudio de entrada para obter um resultado de análise como as primeiras propriedades de covariância e,em que o módulo de formulação da matriz de mixagem (420; 530; 630; 730; 830; 1030) é adaptado para gerar a matriz de mixagem com base no resultado de análise.
20. Um aparelho de acordo com a reivindicação 18 ou 19, caracterizado pelo módulo de formulação da matriz de mixagem (420; 530; 630; 730; 830; 1030) ser adaptado para gerar a matriz de mixagem com base em um critério de erro.
21. Um aparelho de acordo com qualquer uma das reivindicações 18 a 20,caracterizado pelo processador de sinal (120) compreender, ainda, um módulo de determinação de dados espaciais (520; 620) para determinar os dados de informação da configuração compreendendo os dados espaciais surround, dados de correlação intercanal ou dados do nível de sinal de áudio e,em que o módulo de formulação da matriz de mixagem (420; 530; 630; 730; 830; 1030) é adaptado para gerar a matriz de mixagem com base nos dados de informação da configuração.
22. Um aparelho de acordo com qualquer uma das reivindicações 18 a 20,caracterizado pelo processador de sinal (120) compreender, além disso, um módulo de formulação da matriz de covariância alvo (730; 1018) para gerar uma matriz de covariância alvo com base no resultado de análise e,em que o módulo de formulação da matriz de mixagem (420; 530; 630; 730; 830; 1030) é adaptado para gerar uma matriz de mixagem com base na matriz de covariância alvo.
23. Um aparelho de acordo com a reivindicação 22, caracterizado pelo módulo de formulação da matriz de covariância alvo (1018) ser configurado para gerar a matriz de covariância alvo com base em uma configuração do alto-falante.
24. Um aparelho de acordo com a reivindicação 18 a 19, caracterizado pelo processador de sinal (120) compreender, ainda, um módulo de melhoria (815) para obter os dados de correlação intercanal de saída com base nos dados de correlação intercanal de entrada, diferentes dos dados de correlação intercanal de entrada e,em que o módulo de formulação da matriz de mixagem (420; 530; 630; 730; 830; 1030) é adaptado para gerar a matriz de mixagem com base nos dados de correlação intercanal de saída.
25. Um método para gerar um sinal de saída de áudio com dois canais de saída de áudio ou mais de um sinal de entrada de áudio com dois canais de entrada de áudio ou mais, compreendendo:fornecer as primeiras propriedades de covariância do sinal de entrada de áudio e,gerar o sinal de saída de áudio aplicando uma regra de mixagem em, pelo menos, dois de dois canais de entrada de áudio ou mais,caracterizado pela regra de mixagem ser determinada com base nas primeiras propriedades de covariância do sinal de entrada de áudio e com base nas segundas propriedades de covariância do sinal de saída de áudio diferentes das primeiras propriedades de covariância.
26. Memória lida por computador caracterizada por compreender instruções que quando executadas realiza o método da reivindicação 25.
BR112014003663-2A 2011-08-17 2012-08-14 Matrizes de mixagem ideal e uso de descorrelacionadores no processamento de áudio espacial BR112014003663B1 (pt)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201161524647P 2011-08-17 2011-08-17
US61/524.647 2011-08-17
US61/524,647 2011-08-17
EP12156351A EP2560161A1 (en) 2011-08-17 2012-02-21 Optimal mixing matrices and usage of decorrelators in spatial audio processing
EP12156351.4 2012-02-21
PCT/EP2012/065861 WO2013024085A1 (en) 2011-08-17 2012-08-14 Optimal mixing matrices and usage of decorrelators in spatial audio processing

Publications (2)

Publication Number Publication Date
BR112014003663A2 BR112014003663A2 (pt) 2020-10-27
BR112014003663B1 true BR112014003663B1 (pt) 2021-12-21

Family

ID=45656296

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112014003663-2A BR112014003663B1 (pt) 2011-08-17 2012-08-14 Matrizes de mixagem ideal e uso de descorrelacionadores no processamento de áudio espacial

Country Status (16)

Country Link
US (3) US10339908B2 (pt)
EP (2) EP2560161A1 (pt)
JP (1) JP5846460B2 (pt)
KR (1) KR101633441B1 (pt)
CN (1) CN103765507B (pt)
AR (1) AR087564A1 (pt)
AU (1) AU2012296895B2 (pt)
BR (1) BR112014003663B1 (pt)
CA (1) CA2843820C (pt)
ES (1) ES2499640T3 (pt)
HK (1) HK1187731A1 (pt)
MX (1) MX2014001731A (pt)
PL (1) PL2617031T3 (pt)
RU (1) RU2631023C2 (pt)
TW (1) TWI489447B (pt)
WO (1) WO2013024085A1 (pt)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
JP5930441B2 (ja) * 2012-02-14 2016-06-08 ホアウェイ・テクノロジーズ・カンパニー・リミテッド マルチチャネルオーディオ信号の適応ダウン及びアップミキシングを実行するための方法及び装置
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9769586B2 (en) 2013-05-29 2017-09-19 Qualcomm Incorporated Performing order reduction with respect to higher order ambisonic coefficients
KR102161169B1 (ko) * 2013-07-05 2020-09-29 한국전자통신연구원 오디오 신호 처리 방법 및 장치
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830335A3 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, and computer program for mapping first and second input channels to at least one output channel
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9883308B2 (en) * 2014-07-01 2018-01-30 Electronics And Telecommunications Research Institute Multichannel audio signal processing method and device
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US20160173808A1 (en) * 2014-12-16 2016-06-16 Psyx Research, Inc. System and method for level control at a receiver
US9712936B2 (en) 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
EP3611727B1 (en) 2015-03-03 2022-05-04 Dolby Laboratories Licensing Corporation Enhancement of spatial audio signals by modulated decorrelation
US10129661B2 (en) * 2015-03-04 2018-11-13 Starkey Laboratories, Inc. Techniques for increasing processing capability in hear aids
EP3357259B1 (en) 2015-09-30 2020-09-23 Dolby International AB Method and apparatus for generating 3d audio content from two-channel stereo content
EP3780653A1 (en) * 2016-01-18 2021-02-17 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reproduction
US10225657B2 (en) 2016-01-18 2019-03-05 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reproduction
CN108781331B (zh) * 2016-01-19 2020-11-06 云加速360公司 用于头戴式扬声器的音频增强
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
WO2017143003A1 (en) * 2016-02-18 2017-08-24 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
US10979844B2 (en) * 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US10313820B2 (en) 2017-07-11 2019-06-04 Boomcloud 360, Inc. Sub-band spatial audio enhancement
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10764704B2 (en) 2018-03-22 2020-09-01 Boomcloud 360, Inc. Multi-channel subband spatial processing for loudspeakers
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
CN110782911A (zh) * 2018-07-30 2020-02-11 阿里巴巴集团控股有限公司 音频信号处理方法、装置、设备和存储介质
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
KR20220025107A (ko) * 2019-06-14 2022-03-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 매개변수 인코딩 및 디코딩
BR112022000806A2 (pt) * 2019-08-01 2022-03-08 Dolby Laboratories Licensing Corp Sistemas e métodos para atenuação de covariância
GB2587357A (en) * 2019-09-24 2021-03-31 Nokia Technologies Oy Audio processing
US10841728B1 (en) 2019-10-10 2020-11-17 Boomcloud 360, Inc. Multi-channel crosstalk processing
CN112653985B (zh) 2019-10-10 2022-09-27 高迪奥实验室公司 使用2声道立体声扬声器处理音频信号的方法和设备
GB2589321A (en) 2019-11-25 2021-06-02 Nokia Technologies Oy Converting binaural signals to stereo audio signals
GB2594265A (en) * 2020-04-20 2021-10-27 Nokia Technologies Oy Apparatus, methods and computer programs for enabling rendering of spatial audio signals
US11373662B2 (en) * 2020-11-03 2022-06-28 Bose Corporation Audio system height channel up-mixing
WO2023147864A1 (en) * 2022-02-03 2023-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method to transform an audio stream

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4298466B2 (ja) * 2003-10-30 2009-07-22 日本電信電話株式会社 収音方法、装置、プログラム、および記録媒体
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
ATE473502T1 (de) * 2005-03-30 2010-07-15 Koninkl Philips Electronics Nv Mehrkanal-audiocodierung
JP4875142B2 (ja) * 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
KR101111520B1 (ko) * 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
WO2008100100A1 (en) 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN101542596B (zh) * 2007-02-14 2016-05-18 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
ES2452348T3 (es) 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
WO2009049895A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
EP2327072B1 (en) * 2008-08-14 2013-03-20 Dolby Laboratories Licensing Corporation Audio signal transformatting
KR20100111499A (ko) * 2009-04-07 2010-10-15 삼성전자주식회사 목적음 추출 장치 및 방법
TWI463485B (zh) 2009-09-29 2014-12-01 Fraunhofer Ges Forschung 音訊信號解碼器或編碼器、用以提供上混信號表示型態或位元串流表示型態之方法、電腦程式及機器可存取媒體
TWI396186B (zh) * 2009-11-12 2013-05-11 Nat Cheng Kong University 基於盲訊號分離語音增強技術之遠距離雜訊語音辨識
US9344813B2 (en) * 2010-05-04 2016-05-17 Sonova Ag Methods for operating a hearing device as well as hearing devices

Also Published As

Publication number Publication date
KR20140047731A (ko) 2014-04-22
JP5846460B2 (ja) 2016-01-20
TW201320059A (zh) 2013-05-16
US10339908B2 (en) 2019-07-02
PL2617031T3 (pl) 2015-01-30
MX2014001731A (es) 2014-03-27
HK1187731A1 (en) 2014-04-11
AR087564A1 (es) 2014-04-03
CN103765507B (zh) 2016-01-20
US11282485B2 (en) 2022-03-22
EP2617031A1 (en) 2013-07-24
RU2631023C2 (ru) 2017-09-15
JP2014526065A (ja) 2014-10-02
US10748516B2 (en) 2020-08-18
WO2013024085A1 (en) 2013-02-21
EP2617031B1 (en) 2014-07-23
ES2499640T3 (es) 2014-09-29
US20140233762A1 (en) 2014-08-21
TWI489447B (zh) 2015-06-21
CA2843820C (en) 2016-09-27
KR101633441B1 (ko) 2016-07-08
AU2012296895A1 (en) 2014-02-27
AU2012296895B2 (en) 2015-07-16
US20190251938A1 (en) 2019-08-15
BR112014003663A2 (pt) 2020-10-27
EP2560161A1 (en) 2013-02-20
RU2014110030A (ru) 2015-09-27
US20200372884A1 (en) 2020-11-26
CA2843820A1 (en) 2013-02-21
CN103765507A (zh) 2014-04-30

Similar Documents

Publication Publication Date Title
BR112014003663B1 (pt) Matrizes de mixagem ideal e uso de descorrelacionadores no processamento de áudio espacial
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
US8265284B2 (en) Method and apparatus for generating a binaural audio signal
CA2750272C (en) Apparatus, method and computer program for upmixing a downmix audio signal
BRPI0707969B1 (pt) codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador
PT2372701E (pt) Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal
BRPI0809760B1 (pt) aparelho e método para sintetizar um sinal de saída
BRPI0913460B1 (pt) Aparelho e método para prover um conjunto de indicadores espaciais na base de um sinal de microfone e aparelho para prover um sinal de áudio de dois canais e um conjunto de indicadores espaciais
KR102599744B1 (ko) 방향 컴포넌트 보상을 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램
McCormack et al. Rendering of source spread for arbitrary playback setups based on spatial covariance matching
Pihlajamäki et al. Modular architecture for virtual-world parametric spatial audio synthesis
JP2022550803A (ja) マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 14/08/2012, OBSERVADAS AS CONDICOES LEGAIS.