BR112016005956B1 - Método e aparelho para processar um sinal de multimídia - Google Patents

Método e aparelho para processar um sinal de multimídia Download PDF

Info

Publication number
BR112016005956B1
BR112016005956B1 BR112016005956-5A BR112016005956A BR112016005956B1 BR 112016005956 B1 BR112016005956 B1 BR 112016005956B1 BR 112016005956 A BR112016005956 A BR 112016005956A BR 112016005956 B1 BR112016005956 B1 BR 112016005956B1
Authority
BR
Brazil
Prior art keywords
subband
filter coefficients
filter
signals
signal
Prior art date
Application number
BR112016005956-5A
Other languages
English (en)
Other versions
BR112016005956A2 (pt
BR112016005956B8 (pt
Inventor
Hyunoh Ho
Taegyu Lee
Original Assignee
Gcoa Co., Ltd.
Wilus Institute Of Standards And Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gcoa Co., Ltd., Wilus Institute Of Standards And Technology Inc filed Critical Gcoa Co., Ltd.
Publication of BR112016005956A2 publication Critical patent/BR112016005956A2/pt
Publication of BR112016005956B1 publication Critical patent/BR112016005956B1/pt
Publication of BR112016005956B8 publication Critical patent/BR112016005956B8/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0223Computation saving measures; Accelerating measures
    • H03H17/0227Measures concerning the coefficients
    • H03H17/0229Measures concerning the coefficients reducing the number of taps
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0248Filters characterised by a particular frequency response or filtering method
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0248Filters characterised by a particular frequency response or filtering method
    • H03H17/0264Filter sets with mutual related characteristics
    • H03H17/0266Filter banks
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0248Filters characterised by a particular frequency response or filtering method
    • H03H17/0264Filter sets with mutual related characteristics
    • H03H17/0272Quadrature mirror filters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H21/00Adaptive networks
    • H03H21/0012Digital adaptive filters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Stereophonic System (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

MÉTODO E APARELHO PARA PROCESSAMENTO DE SINAIS DE MULTIMÍDIA. A presente invenção refere-se a um método e a um aparelho destinados ao processamento de um sinal, que são usados para reproduzir efetivamente um sinal de multimídia, e, mais particularmente, a um método e a um aparelho destinados ao processamento de um sinal, que são usados para implementar filtragem para sinais de multimídia tendo uma pluralidade de sub-bandas com uma baixa quantidade de cálculos. Nesse sentido, proporcionam-se um método para processamento de um sinal de multimídia que inclui: receber um sinal de multimídia tendo uma pluralidade de sub-bandas; receber pelo menos um dos coeficientes de filtro de protótipo para filtrar cada sinal de sub-banda do sinal de multimídia; converter os coeficientes de filtro de protótipo em uma pluralidade de coeficientes de filtro de sub-banda; truncar cada um dos coeficientes de filtro de sub-banda com base nas informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas a partir dos coeficientes de filtro de sub-banda correspondentes, sendo que o comprimento de pelo menos um dos coeficientes de filtro de sub-banda truncados é diferente do comprimento de coeficientes de filtro (...).

Description

REFERÊNCIA REMISSIVA AOS PEDIDOS DE DEPÓSITO CORRELATOS
[001]Este pedido reivindica prioridade e o benefício ao Pedido Provisório no U.S. 61/878.638 depositado no Escritório de Marcas e Patentes dos Estados Unidos em 17 de setembro de 2013, ao Pedido de Patente no KR 10-2013-0125936 depositado no Escritório de Propriedade Intelectual Coreano em 22 de outubro de 2013 e ao Pedido Provisório no U.S. 61/894.442 depositado no Escritório de Marcas e Patentes dos Estados Unidos em 23 de outubro de 2013, estando os conteúdos das mesmas aqui incorporados em suas totalidades a título de referência.
CAMPO DA TÉCNICA
[002]A presente invenção refere-se a um método e a um aparelho destinados ao processamento de um sinal, que são usados para reproduzir efetivamente um sinal de multimídia, e, mais particularmente, a um método e a um aparelho destinados ao processamento de um sinal, que são usados para implementar filtragem para sinais de multimídia tendo uma pluralidade de sub-bandas com uma baixa quantidade de cálculos.
FUNDAMENTOS DA TÉCNICA
[003]Há um problema em que uma renderização binaural para escutar sinais de múltiplos canais em estéreo requer uma alta complexidade computacional à medida que o comprimento de um filtro alvo aumenta. Em particular, quando um filtro de resposta de impulso em ambiente binaural (BRIR) refletido com características de um ambiente de gravação for usado, o comprimento do filtro de BRIR pode alcançar 48.000 a 96.000 amostras. No presente documento, quando o número de canais de entrada aumentar como um formato de canal 22.2, a complexidade computacional é enorme.
[004]Quando um sinal de entrada de um i-ésimo canal for representado por
Figure img0001
, filtros de BRIR esquerdo e direito do canal correspondente são representados por
Figure img0002
respectivamente, e os sinais de saída são representados por
Figure img0003
uma filtragem binaural pode ser expressa por uma equação dada abaixo. [Equação 1]
Figure img0004
[005]No presente documento, * representa uma convolução. A convolução de domínio de tempo acima é geralmente realizada utilizando-se uma convolução rápida com base em uma Transformada Rápida de Fourier (FFT). Quando a renderização binaural for realizada utilizando-se a convolução rápida, a FFT precisa ser realizada pelo número de vezes correspondente ao número de canais de entrada, e a FFT inversa precisa ser realizada pelo número de vezes correspondente ao número de canais de saída. Ademais, visto que um retardo precisa ser considerado sob um ambiente de reprodução em tempo real, como um codec de áudio de múltiplos canais, uma convolução rápida em blocos precisa ser realizada, e pode-se consumir uma complexidade computacional maior que um caso em que a convolução rápida é realizada somente em relação a um comprimento total.
[006]No entanto, a maioria dos esquemas de codificação é obtida em um domínio de frequência, e em alguns esquemas de codificação (por exemplo, HE- AAC, USAC, e similares), uma última etapa de um processo de decodificação é realizada em um domínio de QMF. De modo correspondente, quando a filtragem binaural for realizada no domínio de tempo conforme mostrado na Equação 1 dada acima, uma operação para síntese de QMF é adicionalmente requerida tanto quando o número de canais, que é bastante ineficaz. Portanto, é vantajoso que a renderização binaural seja diretamente realizada no domínio de QMF.
REVELAÇÃO PROBLEMA DA TÉCNICA
[007]A presente invenção tem um objetivo, em relação à reprodução de sinais de múltiplos canais ou múltiplos objetos em estéreo, para implementar um processo de filtragem, que requer uma alta complexidade computacional, de renderização binaural para reservar uma percepção imersiva de sinais originais com complexidade muito baixa enquanto minimiza a perda de qualidade sonora.
[008]Adicionalmente, a presente invenção tem por objetivo minimizar a dispersão de distorção utilizando-se um filtro de alta qualidade quando uma distorção estiver contida no sinal de entrada.
[009]Adicionalmente, a presente invenção tem por objetivo implementar um filtro de resposta de impulso finito (FIR) que tenha um comprimento longo com um filtro que tenha um comprimento mais curto.
[010]Adicionalmente, a presente invenção tem por objetivo minimizar as distorções de porções destruídas por coeficientes de filtro descartados, ao realizar a filtragem utilizando-se o filtro de FIR truncado.
SOLUÇÃO TÉCNICA
[011]Com o intuito de alcançar os objetivos, a presente invenção proporciona um método e um aparelho para processar um sinal de áudio conforme abaixo.
[012]Uma modalidade exemplificadora da presente invenção proporciona um método para processar um sinal de áudio que inclui: receber sinais de múltiplos áudios incluindo sinais de múltiplos canais ou múltiplos objetos; receber coeficientes de filtro de sub-banda truncados para filtrar os sinais de múltiplos áudios, sendo que os coeficientes de filtro de sub-banda truncados são pelo menos uma porção de coeficientes de filtro de sub-banda obtidos a partir de coeficientes de filtro de resposta de impulso em ambiente binaural (BRIR) para filtragem binaural dos sinais de múltiplos áudios, sendo que os comprimentos dos coeficientes de filtro de subbanda truncados são determinados com base nas informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas a partir dos coeficientes de filtro de sub-banda correspondentes, e o comprimento de pelo menos um coeficiente de filtro de sub-banda truncado é diferente do comprimento de coeficientes de filtro de sub-banda truncados de outra sub-banda; e filtrar o sinal de sub-banda utilizando-se os coeficientes de filtro de sub-banda truncados correspondentes a cada sinal de sub-banda dos sinais de múltiplos áudios.
[013]Outra modalidade exemplificadora da presente invenção proporciona um aparelho para processar um sinal de áudio, que é usado para realizar uma renderização binaural para sinais de múltiplos áudios incluindo sinais de múltiplos canais ou múltiplos objetos, sendo que os sinais de múltiplos áudios incluem uma pluralidade de sinais de sub-banda, incluindo: uma unidade de convolução rápida configurada para realizar uma renderização de parte sonora direta e parte sonora de reflexões precoces para cada sinal de sub-banda; e uma unidade de geração de reverberação tardia configurada para realizar uma renderização de uma parte de reverberação tardia para cada sinal de sub-banda, em que a unidade de convolução rápida recebe coeficientes de filtro de sub-banda truncados para filtrar os sinais de múltiplos áudios, sendo que os coeficientes de filtro de sub-banda truncados são pelo menos uma parte dos coeficientes de filtro de sub-banda obtidos a partir de coeficientes de filtro de resposta de impulso em ambiente binaural (BRIR) para filtragem binaural dos sinais de múltiplos áudios, sendo que os comprimentos dos coeficientes de filtro de sub-banda truncados são determinados com base nas informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas a partir dos coeficientes de filtro de sub-banda correspondentes, e o comprimento de pelo menos um dos coeficientes de filtro de sub-banda truncados é diferente do comprimento de coeficientes de filtro de subbanda truncados de outra sub-banda, e filtra o sinal de sub-banda utilizando-se os coeficientes de filtro de sub-banda truncados correspondentes a cada sinal de subbanda dos sinais de múltiplos áudios.
[014]As informações características podem incluir primeiras informações de tempo de reverberação dos coeficientes de filtro de sub-banda correspondentes, e as informações de ordem de filtro podem ter um valor para cada sub-banda.
[015]O comprimento do filtro de sub-banda truncado pode ter um valor de um múltiplo da potência de 2.
[016]A pluralidade de coeficientes de filtro de sub-banda e a pluralidade de sinais de sub-banda podem incluir um primeiro grupo de sub-banda tendo baixas frequências de um segundo grupo de sub-banda tendo altas frequências com base em uma banda de frequência predeterminada, respectivamente, e a filtragem é realizada em relação aos coeficientes de filtro de sub-banda truncados e aos sinais de sub-banda do primeiro grupo de sub-banda.
[017]A filtragem é realizada utilizando-se coeficientes de filtro de sub-banda dianteiro truncados com base pelo menos em parte nas primeiras informações de tempo de reverberação dos coeficientes de filtro de sub-banda correspondentes, e o método pode incluir, ainda, processar a reverberação do sinal de sub-banda correspondente a uma zona que segue os coeficientes de filtro de sub-banda dianteiro dentre os coeficientes de filtro de sub-banda.
[018]O processamento da reverberação pode incluir: receber coeficientes de filtro de sub-banda de mixagem descendente para cada sub-banda, sendo que os coeficientes de filtro de sub-banda de mixagem descendente são gerados combinando-se os respectivos coeficientes de filtro de sub-banda traseiro para cada canal ou cada objeto da sub-banda correspondente, e os coeficientes de filtro de sub-banda traseiro são obtidos a partir da zona que segue os coeficientes de filtro de sub-banda dianteiro dentre os coeficientes de filtro de sub-banda correspondentes; gerar a sinal de sub-banda de mixagem descendente para cada sub-banda, sendo que o sinal de sub-banda de mixagem descendente é gerado mixando-se descendentemente os respectivos sinais de sub-banda para cada canal de cada objeto da sub-banda correspondente; e gerar sinais de reverberação de sub-banda esquerda e direita de 2 canais utilizando-se o sinal de sub-banda de mixagem descendente e os coeficientes de filtro de sub-banda de mixagem descendente correspondentes ao mesmo.
[019]O método pode incluir, ainda, em que o sinal de sub-banda de mixagem descendente é um sinal de sub-banda mono, e os coeficientes de filtro de sub-banda de mixagem descendente refletir uma característica de recaimento de energia de uma parte de reverberação para o sinal de sub-banda correspondente, gerar um sinal de descorrelação para o sinal de sub-banda mono filtrado; e gerar sinais de 2 canais esquerdos e direitos realizando-se uma soma ponderada entre o sinal de sub-banda mono filtrado e o sinal de descorrelação.
[020]Ainda outra modalidade exemplificadora da presente invenção proporciona um método para processar um sinal de áudio, que inclui: receber sinais de múltiplos áudios incluindo sinais de múltiplos canais ou múltiplos objetos, sendo que cada um dos sinais de múltiplos áudios inclui uma pluralidade de sinais de subbanda, e a pluralidade de sinais de sub-banda inclui um sinal de um primeiro grupo de sub-banda tendo baixas frequências e um sinal de um segundo grupo de subbanda tendo altas frequências com base em uma banda de frequência predeterminada; receber pelo menos um parâmetro correspondente a cada sinal de sub-banda do segundo grupo de sub-banda, sendo que o pelo menos um parâmetro é extraído a partir dos coeficientes de filtro de sub-banda de resposta de impulso em ambiente binaural (BRIR) correspondentes a cada sinal de sub-banda do segundo grupo de sub-banda; e realizar uma filtragem de linha de retardo com derivações do sinal de sub-banda do segundo grupo de sub-banda utilizando-se o parâmetro recebido.
[021]Ainda outra modalidade exemplificadora da presente invenção proporciona um aparelho para processar um sinal de áudio, que é usado para realizar uma renderização binaural para sinais de múltiplos áudios incluindo sinais de múltiplos canais ou múltiplos objetos, sendo que cada um dos sinais de múltiplos áudios inclui uma pluralidade de sinais de sub-banda, e a pluralidade de sinais de sub-banda inclui um sinal de um primeiro grupo de sub-banda tendo baixas frequências e um sinal de um segundo grupo de sub-banda tendo altas frequências com base em uma banda de frequência predeterminada, incluindo: uma unidade de convolução rápida configurada para realizar uma renderização de cada sinal de subbanda do primeiro grupo de sub-banda; e uma unidade de processamento de linha de retardo com derivações configurada para realizar a renderização de cada sinal de sub-banda do segundo grupo de sub-banda, em que a unidade de processamento de linha de retardo com derivações recebe pelo menos um parâmetro correspondente a cada sinal de sub-banda do segundo grupo de sub-banda, sendo que o pelo menos um parâmetro é extraído a partir dos coeficientes de filtro de subbanda de resposta de impulso em ambiente binaural (BRIR) correspondentes a cada sinal de sub-banda do segundo grupo de sub-banda, e realiza uma filtragem de linha de retardo com derivações do sinal de sub-banda do segundo grupo de sub-banda utilizando-se o parâmetro recebido.
[022]O parâmetro pode incluir informações de retardo para os coeficientes de filtro de sub-banda de BRIR correspondentes e informações de ganho correspondentes às informações de retardo.
[023]A filtragem de linha de retardo com derivações pode ser uma filtragem de linha de retardo de derivação única usando o parâmetro.
[024]As informações de retardo podem incluir informações posicionais para um pico máximo nos coeficientes de filtro de sub-banda de BRIR.
[025]As informações de retardo podem ter um valor inteiro baseado em amostra em um domínio de QMF. As informações de ganho podem ter um valor complexo.
[026]O método pode incluir, ainda: somar os sinais de múltiplos áudios filtrados aos sinais de sub-banda esquerdo e direito de 2 canais para cada sub-banda; acoplar os sinais de sub-banda esquerdo e direito somados com sinais de sub-banda esquerdo e direito gerados a partir dos sinais de múltiplos áudios do primeiro grupo de sub-banda; e sintetizar por QMF os respectivos sinais de sub-banda esquerdo e direito acoplados.
[027]Ainda outra modalidade exemplificadora da presente invenção proporciona um método para processar um sinal de multimídia, que inclui: receber um sinal de multimídia tendo uma pluralidade de sub-bandas; receber pelo menos um coeficiente de filtro de protótipo para filtrar cada sinal de sub-banda do sinal de multimídia; converter os coeficientes de filtro de protótipo em uma pluralidade de coeficientes de filtro de sub-banda; truncar cada um dos coeficientes de filtro de subbanda com base nas informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas dos coeficientes de filtro de sub-banda correspondentes, sendo que o comprimento de pelo menos um dos coeficientes de filtro de sub-banda truncados é diferente do comprimento de coeficientes de filtro de sub-banda truncados de outra sub-banda; e filtrar o sinal de multimídia utilizando-se os coeficientes de filtro de sub-banda truncados correspondente a cada sinal de sub-banda.
[028]Ainda outra modalidade exemplificadora da presente invenção proporciona um aparelho para processar um sinal de multimídia tendo uma pluralidade de sub-bandas, que inclui: uma unidade de parametrização configurada para receber pelo menos um coeficiente de filtro de protótipo para filtrar cada sinal de sub-banda do sinal de multimídia, converter os coeficientes de filtro de protótipo em uma pluralidade de coeficientes de filtro de sub-banda, e truncar cada um dos coeficientes de filtro de sub-banda com base em informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas a partir dos coeficientes de filtro de sub-banda correspondentes, sendo que o comprimento de pelo menos um dos coeficientes de filtro de sub-banda truncados é diferente do comprimento de coeficientes de filtro de sub-banda truncados de outra sub-banda; e uma unidade de renderização configurada para receber o sinal de multimídia e filtrar o sinal de multimídia utilizando-se os coeficientes de filtro de subbanda truncados correspondentes a cada sinal de sub-banda.
[029]O sinal de multimídia pode incluir sinais de múltiplos canais ou múltiplos objetos, e os coeficientes de filtro de protótipo podem ser coeficientes de filtro de BRIR de um domínio de tempo.
[030]As informações características podem incluir informações de tempo de decaimento de energia dos coeficientes de filtro de sub-banda correspondentes, e as informações de ordem de filtro podem ter um valor para cada sub-banda.
[031]Ainda outra modalidade exemplificadora da presente invenção proporciona um método para processar um sinal de áudio, que inclui: receber sinais de múltiplos áudios incluindo sinais de múltiplos canais ou múltiplos objetos, sendo que cada um dos sinais de múltiplos áudios inclui uma pluralidade de sinais de subbanda e a pluralidade de sinais de sub-banda inclui sinais de um primeiro grupo de sub-banda tendo baixas frequências e sinais de um segundo grupo de sub-banda tendo altas frequências com base em uma banda de frequência predeterminada; receber coeficientes de filtro de sub-banda truncados para filtrar os sinais de múltiplos áudios do primeiro grupo de sub-banda, sendo que os coeficientes de filtro de sub-banda truncados são pelo menos uma porção de coeficientes de filtro de sub-banda do primeiro grupo de sub-banda obtidos a partir dos coeficientes de filtro de resposta de impulso em ambiente binaural (BRIR) para filtragem binaural dos sinais de múltiplos áudios e os comprimentos dos coeficientes de filtro de sub-banda truncados são determinados com base em informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas a partir dos coeficientes de filtro de sub-banda correspondentes; filtrar sinais de sub-banda do primeiro grupo de sub-banda usando os coeficientes de filtro de sub-banda truncados; receber pelo menos um parâmetro correspondente a cada sinal de subbanda do segundo grupo de sub-banda, sendo que o pelo menos um parâmetro é extraído dos coeficientes de filtro de sub-banda correspondentes a cada sinal de sub-banda do segundo grupo de sub-banda; e realizar uma filtragem de linha de retardo com derivações dos sinais de sub-banda do segundo grupo de sub-banda utilizando-se o parâmetro recebido.
[032]Ainda outra modalidade exemplificadora da presente invenção proporciona um aparelho para processar um sinal de áudio, que é usado para realizar uma renderização binaural para sinais de múltiplos áudios incluindo sinais de múltiplos canais ou múltiplos objetos, sendo que os sinais de múltiplos áudios incluem uma pluralidade de sinais de sub-banda e a pluralidade de sinais de sub-banda inclui sinais de um primeiro grupo de sub-banda tendo baixas frequências e sinais de um segundo grupo de sub-banda tendo altas frequências com base em uma banda de frequência predeterminada, que inclui: uma unidade de convolução rápida que realiza uma renderização de cada sinal de sub-banda do primeiro grupo de sub-banda; e uma unidade de processamento de linha de retardo com derivações que realiza uma renderização de cada sinal de sub-banda do segundo grupo de subbanda, em que a unidade de convolução rápida recebe coeficientes de filtro de subbanda truncados para filtrar os sinais de múltiplos áudios do primeiro grupo de subbanda, sendo que os coeficientes de filtro de sub-banda truncados são pelo menos uma porção de coeficientes de filtro de sub-banda obtidos a partir de coeficientes de filtro de resposta de impulso em ambiente binaural (BRIR) para filtragem binaural dos sinais de múltiplos áudios do primeiro grupo de sub-banda, sendo que os comprimentos dos coeficientes de filtro de sub-banda truncados são determinados com base em informações de ordem de filtro obtidas pelo menos parcialmente utilizando-se informações características extraídas a partir dos coeficientes de filtro de sub-banda correspondentes, e filtra o sinal de sub-banda do primeiro grupo de sub-banda utilizando-se os coeficientes de filtro de sub-banda truncados, e a unidade de processamento de linha de retardo com derivações recebe pelo menos um parâmetro correspondente a cada sinal de sub-banda do segundo grupo de subbanda, sendo que o pelo menos um parâmetro é extraído a partir dos coeficientes de filtro de sub-banda correspondente a cada sinal de sub-banda do segundo grupo de sub-banda, e realiza uma filtragem de linha de retardo com derivações dos sinais de sub-banda do segundo grupo de sub-banda utilizando-se o parâmetro recebido.
[033]O método pode incluir, ainda, acoplar sinais de sub-banda esquerdo e direito de 2 canais gerados filtrando-se os sinais de sub-banda do primeiro grupo de sub-banda e os sinais de sub-banda esquerdo e direito de 2 canais gerados por filtragem de linha de retardo com derivações dos sinais de sub-banda do segundo grupo de sub-banda; e sintetizar por QMF os respectivos sinais de sub-banda esquerdo e direito acoplados.
EFEITOS VANTAJOSOS
[034]De acordo com as modalidades exemplificadoras da presente invenção, quando uma renderização binaural para sinais de múltiplos canais ou múltiplos objetos for realizada, é possível reduzir consideravelmente uma complexidade computacional enquanto minimiza a perda de qualidade sonora.
[035]De acordo com as modalidades exemplificadoras da presente invenção, é possível alcançar uma renderização binaural de alta qualidade sonora para sinais de áudio de múltiplos canais ou múltiplos objetos cujo processamento em tempo real se tornou indisponível no dispositivo de potência baixa existente.
DESCRIÇÃO DOS DESENHOS
[036]A Figura 1 é um diagrama de blocos que ilustra um decodificador de sinal de áudio de acordo com uma modalidade exemplificadora da presente invenção.
[037]A Figura 2 é um diagrama de blocos que ilustra cada componente d um renderizador binaural de acordo com uma modalidade exemplificadora da presente invenção.
[038]As Figuras 3 a 7 são diagramas que ilustram várias modalidades exemplificadoras de um aparelho para processamento de um sinal de áudio de acordo com a presente invenção.
[039]As Figuras 8 a 10 são diagramas que ilustram métodos para gerar um filtro de FIR para renderização binaural de acordo com as modalidades exemplificadoras da presente invenção.
[040]As Figuras 11 a 14 são diagramas que ilustram várias modalidades exemplificadoras de uma unidade de renderização de parte P da presente invenção.
[041]As Figuras 15 e 16 são diagramas que ilustram várias modalidades exemplificadoras do processamento de QTDL da presente invenção.
MELHOR MODO
[042]Conforme o uso em questão no relatório descritivo, selecionam-se termos genéricos que são atualmente amplamente usados como possível considerando-se funções na presente invenção, mas podem ser alterados dependendo das intenções dos indivíduos versados na técnica, hábitos, ou a aparência de uma nova tecnologia. Ademais, em um caso específico, os termos arbitrariamente selecionados por um requerente podem ser usados e nesse caso, significados desses são descritos na parte da descrição correspondente da presente invenção. Posteriormente, revelar-se-á que os termos usados nos relatórios descritivos devem ser analisados com base não somente em nomes dos termos, mas significados substanciais dos termos e conteúdos ao longo do relatório descritivo.
[043]A Figura 1 é um diagrama de blocos que ilustra um decodificador de sinal de áudio de acordo com uma modalidade exemplificadora da presente invenção. O decodificador de sinal de áudio de acordo com a presente invenção inclui um decodificador de núcleo 10, uma unidade de renderização 20, um mixador 30 e uma unidade de pós-processamento 40.
[044]Primeiramente, o decodificador de núcleo 10 decodifica sinais de canal de alto-falante, sinais de objeto discreto, sinais de mixagem descendente de objeto e sinais pré-renderizados. De acordo com uma modalidade exemplificadora, no decodificador de núcleo 10, pode-se usar um codec baseado em codificação unificada de diálogo e áudio (USAC). O decodificador de núcleo 10 decodifica um fluxo de bits recebido e transfere o fluxo de bits decodificado à unidade de renderização 20.
[045]A unidade de renderização 20 realiza uma renderização de sinais decodificados pelo decodificador de núcleo 10 utilizando-se informações de layout de reprodução. A unidade de renderização 20 pode incluir um conversor de formato 22, um renderizador de objeto 24, um decodificador de OAM 25, um decodificador de SAOC 26 e um decodificador de HOA 28. A unidade de renderização 20 realiza uma renderização utilizando-se qualquer um dentre os componentes anteriores de acordo com o tipo de sinal decodificado.
[046]O conversor de formato 22 converte sinais de canal transmitidos em sinais de canal de alto-falante de saída. Ou seja, o conversor de formato 22 realiza uma conversão entre uma configuração de canal transmitido e uma configuração de canal de alto-falante a ser reproduzida. Quando o número (por exemplo, 5.1 canais) de canais de alto-falante de saída for menor que o número (por exemplo, 22.2 canais) de canais transmitidos ou quando a configuração de canal transmitido for diferente da configuração de canal a ser reproduzida, o conversor de formato 22 realiza uma mixagem descendente dos sinais de canal transmitidos. O decodificador de sinal de áudio da presente invenção pode gerar uma matriz de mixagem descendente ótima utilizando-se uma combinação dos sinais de canal de entrada e dos sinais de canal de alto-falante de saída e realiza a mixagem descendente utilizando-se a matriz. De acordo com a modalidade exemplificadora da presente invenção, os sinais de canal processados pelo conversor de formato 22 podem incluir sinais de objeto pré-renderizados. De acordo com uma modalidade exemplificadora, pelo menos um sinal de objeto é pré-renderizado antes de codificar o sinal de áudio a ser mixado com os sinais de canal. O sinal de objeto mixado conforme descrito anteriormente pode ser convertido em um sinal de canal de alto- falante de saída pelo conversor de formato 22 junto aos sinais de canal.
[047]O renderizador de objeto 24 e o decodificador de SAOC 26 realizam uma renderização para um sinal de áudio baseado em objeto. O sinal de áudio baseado em objeto pode incluir uma forma de onda discreta de objeto e uma forma de onda paramétrica de objeto. No caso da forma de onda discreta de objeto, cada um dos sinais de objeto é proporcionado a um codificador em uma forma de onda monofônica, e o codificador transmite cada um dos sinais de objeto utilizando-se elementos de canal único (SCEs). No caso da forma de onda paramétrica de objeto, uma pluralidade de sinais de objeto é mixada descendentemente a pelo menos um sinal de canal, e um recurso de cada objeto e a relação entre os objetos são expressos como um parâmetro de codificação de objeto de áudio espacial (SAOC). Os sinais de objeto são mixados descendentemente a serem codificados ao codec de núcleo e as informações paramétricas geradas nesse momento são transmitidas a um decodificador juntas.
[048]Entretanto, quando a forma de onda discreta de objeto ou a forma de onda paramétrica de objeto for transmitida a um decodificador de sinal de áudio, metadados de objeto compactados correspondentes às mesmas podem ser transmitidos juntos. Os metadados de objeto quantizam um atributo de objeto pelas unidades de um tempo e de um espaço para designar uma posição e um valor de ganho de cada objeto em espaço 3D. O decodificador de OAM 25 da unidade de renderização 20 recebe os metadados de objeto compactados e decodifica os metadados de objeto recebidos, e transfere os metadados de objeto decodificados ao renderizador de objeto 24 e/ou ao decodificador de SAOC 26.
[049]O renderizador de objeto 24 realiza uma renderização em cada sinal de objeto de acordo com um dado formato de reprodução utilizando-se os metadados de objeto. Nesse caso, cada sinal de objeto pode ser renderizado aos canais de saída específicos com base nos metadados de objeto. O decodificador de SAOC 26 restaura o sinal de objeto/canal a partir dos canais de transmissão de SAOC decodificados e das informações paramétricas. O decodificador de SAOC 26 pode gerar um sinal de áudio de saída com base nas informações de layout de reprodução e nos metadados de objeto. Como tal, o renderizador de objeto 24 e o decodificador de SAOC 26 podem renderizar o sinal de objeto ao sinal de canal.
[050]O decodificador de HOA 28 recebe sinais de coeficiente de Ambisonics de Ordem Superior (HOA) e informações adicionais de HOA e decodifica os sinais de coeficiente de HOA recebidos e as informações adicionais de HOA. O decodificador de HOA 28 modela os sinais de canal ou os sinais de objeto por uma equação separada para gerar uma cena sonora. Quando uma localização espacial de um alto-falante na cena sonora gerada for selecionada, pode-se realizar a renderização aos sinais de canal de alto-falante.
[051]Entretanto, embora não ilustrado na Figura 1, quando o sinal de áudio for transferido a cada componente da unidade de renderização 20, pode-se realizar um controle de faixa dinâmica (DRC) como um processo de pré-processamento. O DRC limita uma faixa dinâmica do sinal de áudio reproduzido a um nível predeterminado e ajusta um som, que seja menor que um limiar predeterminado, como sendo maior e um som, que seja maior que o limiar predeterminado, como sendo menor.
[052]Um sinal de áudio baseado em canal e o sinal de áudio baseado em objeto, que são processados pela unidade de renderização 20, são transferidos ao mixador 30. O mixador 30 ajusta os retardos de uma forma de onda baseada em canal e uma forma de onda de objeto renderizado, e soma as formas de onda ajustadas pela unidade e uma amostra. Os sinais de áudios somados pelo mixador 30 são transferidos à unidade de pós-processamento 40.
[053]A unidade de pós-processamento 40 inclui um renderizador de alto- falante 100 e um renderizador binaural 200. O renderizador de alto-falante 100 realiza um pós-processamento para emitir os sinais de áudio de múltiplos canais e/ou múltiplos objetos transferidos a partir do mixador 30. O pós-processamento pode incluir o controle de faixa dinâmica (DRC), a normalização de intensidade sonora (LN), um limitador de pico (PL), e similares.
[054]O renderizador binaural 200 gera um sinal de mixagem descendente binaural dos sinais de áudio de múltiplos canais e/ou múltiplos objetos. O sinal de mixagem descendente binaural é um sinal de áudio de 2 canais que permite que cada sinal de canal/objeto de entrada seja expresso por uma fonte sonora virtual posicionada em 3D. O renderizador binaural 200 pode receber o sinal de áudio proporcionado ao renderizador de alto-falante 100 como um sinal de entrada. A renderização binaural pode ser realizada com base em filtros de resposta de impulso em ambiente binaural (BRIR) e realizada em um domínio de tempo ou um domínio de QMF. De acordo com uma modalidade exemplificadora, como um processo de pós-processamento da renderização binaural, o controle de faixa dinâmica (DRC), a normalização de intensidade sonora (LN), o limitador de pico (PL), e similares, podem ser adicionalmente realizados.
[055]A Figura 2 é um diagrama de blocos que ilustra cada componente de um renderizador binaural de acordo com uma modalidade exemplificadora da presente invenção. Conforme ilustrado na Figura 2, o renderizador binaural 200 de acordo com a modalidade exemplificadora da presente invenção pode incluir uma unidade de parametrização de BRIR 210, uma unidade de convolução rápida 230, uma unidade de geração de reverberação tardia 240, uma unidade de processamento de QTDL 250 e um mixador e combinador 260.
[056]O renderizador binaural 200 gera um sinal de fone de ouvido de áudio 3D (ou seja, um sinal de 2 canais de áudio) realizando-se uma renderização binaural de vários tipos de sinais de entrada. Nesse caso, o sinal de entrada pode ser um sinal de áudio incluindo pelo menos um dos sinais de canal (ou seja, os sinais de canal de alto-falante), os sinais de objeto e os sinais de coeficiente de HOA. De acordo com outra modalidade exemplificadora da presente invenção, quando o renderizador binaural 200 incluir um decodificador particular, o sinal de entrada pode ser um fluxo de bits codificado do sinal de áudio supramencionado. A renderização binaural converte o sinal de entrada decodificado no sinal de mixagem descendente binaural de modo a tornar possível experimentar um som surround no momento de escutar o sinal de mixagem descendente binaural correspondente através de um fone de ouvido.
[057]De acordo com a modalidade exemplificadora da presente invenção, o renderizador binaural 200 pode realizar a renderização binaural do sinal de entrada no domínio de QMF. Isto é, o renderizador binaural 200 pode receber sinais de múltiplos canais (N canais) do domínio de QMF e realizar a renderização binaural para os sinais dos múltiplos canais utilizando-se um filtro de sub-banda de BRIR do domínio de QMF. Quando um k-ésimo sinal de sub-banda de um i-ésimo canal, que passou através de um banco de filtro de análise de QMF, for representado por e um índice de tempo em um domínio de sub-banda for representado por l, a renderização binaural no domínio de QMF pode ser expressa por uma equação dada abaixo. [Equação 2]
Figure img0005
[058] No presente documento,
Figure img0006
e
Figure img0007
são obtidos convertendo-se o filtro de BRIR de domínio de tempo em um filtro de sub-banda do domínio de QMF.
[059]Ou seja, a renderização binaural pode ser realizada por um método que divide os sinais de canal ou os sinais de objeto do domínio de QMF em uma pluralidade de sinais de sub-banda e convoluta os respectivos sinais de sub-banda com os filtros de sub-banda de BRIR correspondentes aos mesmos, e, posteriormente, soma os respectivos sinais de sub-banda convolutos com os filtros de sub-banda de BRIR.
[060]A unidade de parametrização de BRIR 210 converte e edita coeficientes de filtro de BRIR para a renderização binaural no domínio de QMF e gera vários parâmetros. Primeiramente, a unidade de parametrização de BRIR 210 recebe os coeficientes de filtro de BRIR de domínio de tempo para múltiplos canais ou múltiplos objetos, e converte os coeficientes de filtro de BRIR de domínio de tempo recebidos em coeficientes de filtro de BRIR de domínio de QMF. Nesse caso, os coeficientes de filtro de BRIR de domínio de QMF incluem uma pluralidade de coeficientes de filtro de sub-banda correspondentes a uma pluralidade de bandas de frequência, respectivamente. Na presente invenção, os coeficientes de filtro de subbanda indicam cada um dos coeficientes de filtro de BRIR de um domínio de subbanda convertido por QMF. Neste relatório descritivo, os coeficientes de filtro de subbanda podem ser designados como os coeficientes de filtro de sub-banda de BRIR. A unidade de parametrização de BRIR 210 pode editar cada um dentre a pluralidade de coeficientes de filtro de sub-banda de BRIR do domínio de QMF e transferir os coeficientes de filtro de sub-banda editados à unidade de convolução rápida 230, e similares. De acordo com a modalidade exemplificadora da presente invenção, a unidade de parametrização de BRIR 210 pode ser incluída como um componente do renderizador binaural 200 e, proporcionado de outro modo como um aparelho separado. De acordo com uma modalidade exemplificadora, um componente incluindo a unidade de convolução rápida 230, a unidade de geração de reverberação tardia 240, a unidade de processamento de QTDL 250 e o mixador e combinador 260, exceto pela unidade de parametrização de BRIR 210, podem ser classificadas em uma unidade de renderização binaural 220.
[061]De acordo com uma modalidade exemplificadora, a unidade de parametrização de BRIR 210 pode receber coeficientes de filtro de BRIR correspondentes a pelo menos uma localização de um espaço de reprodução virtual como uma entrada. Cada localização do espaço de reprodução virtual pode corresponder a cada localização de alto-falante de um sistema de múltiplos canais. De acordo com uma modalidade exemplificadora, cada um dos coeficientes de filtro de BRIR recebidos pela unidade de parametrização de BRIR 210 pode corresponder diretamente a cada canal ou cada objeto do sinal de entrada do renderizador binaural 200. Em contrapartida, de acordo com outra modalidade exemplificadora da presente invenção, cada um dos coeficientes de filtro de BRIR recebidos pode ter uma configuração independente do sinal de entrada do renderizador binaural 200. Ou seja, pelo menos parte dos coeficientes de filtro de BRIR recebidos pela unidade de parametrização de BRIR 210 pode não corresponder diretamente ao sinal de entrada do renderizador binaural 200, e o número de coeficientes de filtro de BRIR recebidos pode ser menor ou maior que o número total de canais e/ou objetos do sinal de entrada.
[062]De acordo com a modalidade exemplificadora da presente invenção, a unidade de parametrização de BRIR 210 converte e edita os coeficientes de filtro de BRIR correspondentes a cada canal ou cada objeto do sinal de entrada do renderizador binaural 200 para transferir os coeficientes de filtro de BRIR convertidos e editados à unidade de renderização binaural 220. Os coeficientes de filtro de BRIR correspondentes podem ser um BRIR de correspondência ou um BRIR de fallback para cada canal ou cada objeto. O BRIR de correspondência pode ser determinado se os coeficientes de filtro de BRIR almejando a localização de cada canal ou cada objeto estiverem presentes no espaço de reprodução virtual. Quando os coeficientes de filtro de BRIR almejando pelo menos uma das localizações dos respectivos canais ou respectivos objetos do sinal de entrada estiverem presentes, os coeficientes de filtro de BRIR podem ser o BRIR de correspondência do sinal de entrada. No entanto, quando os coeficientes de filtro de BRIR almejando a localização de um canal ou objeto específico não estiverem presentes, a unidade de renderização binaural 220 pode proporcionar os coeficientes de filtro de BRIR, que almejam uma localização mais similar ao canal ou objeto correspondente, como o BRIR de fallback para o canal ou objeto correspondente.
[063]Entretanto, de acordo com outra modalidade exemplificadora da presente invenção, a unidade de parametrização de BRIR 210 converte e edita todos os coeficientes de filtro de BRIR recebidos para transferir os coeficientes de filtro de BRIR convertidos e editados à unidade de renderização binaural 220. Nesse caso, um procedimento de seleção dos coeficientes de filtro de BRIR (alternativamente, os coeficientes de filtro de BRIR editados) correspondentes a cada canal ou cada objeto do sinal de entrada pode ser realizado pela unidade de renderização binaural 220.
[064]A unidade de renderização binaural 220 inclui uma unidade de convolução rápida 230, uma unidade de geração de reverberação tardia 240 e uma unidade de processamento de QTDL 250 e recebe sinais de múltiplos áudios incluindo sinais de múltiplos canais e/ou múltiplos objetos. Neste relatório descritivo, o sinal de entrada incluindo os sinais de múltiplos canais e/ou múltiplos objetos serão referidos como os sinais de múltiplos áudios. A Figura 2 ilustra que a unidade de renderização binaural 220 recebe sinais de múltiplos canais do domínio de QMF de acordo com uma modalidade exemplificadora, mas o sinal de entrada da unidade de renderização binaural 220 pode incluir, ainda, sinais de múltiplos canais de domínio de tempo e sinais de múltiplos objetos de domínio de tempo. Ademais, quando a unidade de renderização binaural 220 incluir adicionalmente um decodificador particular, o sinal de entrada pode ser um fluxo de bits codificado dos sinais de múltiplos áudios. Ademais, neste relatório descritivo, a presente invenção é descrita com base em um caso de realizar uma renderização de BRIR dos sinais de múltiplos áudios, mas a presente invenção não se limita a isso. Ou seja, os recursos proporcionados pela presente invenção podem ser aplicados não somente a BRIR, mas também a outros tipos de filtros de renderização e aplicados não somente a sinais de múltiplos áudios, mas também a um sinal de áudio de um canal único ou objeto único.
[065]A unidade de convolução rápida 230 realiza uma convolução rápida entre o sinal de entrada e o filtro de BRIR para processar um som direto e um som de reflexões precoces para o sinal de entrada. Nesse sentido, a unidade de convolução rápida 230 pode realizar a convolução rápida utilizando-se um BRIR truncado. O BRIR truncado inclui uma pluralidade de coeficientes de filtro de subbanda truncados dependendo de cada frequência de sub-banda e é gerado pela unidade de parametrização de BRIR 210. Nesse caso, o comprimento de cada um dos coeficientes de filtro de sub-banda truncados é determinado dependendo de uma frequência da sub-banda correspondente. A unidade de convolução rápida 230 pode realizar uma filtragem de ordem variável em um domínio de frequência utilizando-se os coeficientes de filtro de sub-banda truncados tendo diferentes comprimentos de acordo com a sub-banda. Ou seja, a convolução rápida pode ser realizada entre os sinais de áudio de sub-banda de domínio de QMF e os filtros de sub-banda truncados do domínio de QMF correspondente ao mesmo para cada banda de frequência. No relatório descritivo, uma parte de som direto e reflexões precoces (D&E) pode ser referida como uma parte frontal (F).
[066]A unidade de geração de reverberação tardia 240 gera um sinal de reverberação tardia para o sinal de entrada. O sinal de reverberação tardia representa um sinal de saída que segue o som direto e o som de reflexões precoces gerados pela unidade de convolução rápida 230. A unidade de geração de reverberação tardia 240 pode processar o sinal de entrada com base nas informações de tempo de reverberação determinadas por cada um dos coeficientes de filtro de sub-banda transferidos a partir da unidade de parametrização de BRIR 210. De acordo com a modalidade exemplificadora da presente invenção, a unidade de geração de reverberação tardia 240 pode gerar um sinal de mixagem descendente mono ou estéreo para um sinal de áudio de entrada e realizar um processamento de reverberação tardia do sinal de mixagem descendente gerado. No relatório descritivo, uma parte de reverberação tardia (LR) pode ser referida como uma parte paramétrica (P).
[067]A unidade de processamento de linha de retardo com derivações de domínio de QMF (QTDL) 250 processa sinais em bandas de frequência alta dentre os sinais de áudio de entrada. A unidade de processamento de QTDL 250 recebe pelo menos um parâmetro, que corresponde a cada sinal de sub-banda nas bandas de frequência alta, a partir da unidade de parametrização de BRIR 210 e realiza uma filtragem de linha de retardo com derivações no domínio de QMF utilizando-se o parâmetro recebido. De acordo com a modalidade exemplificadora da presente invenção, o renderizador binaural 200 separa os sinais de áudio de entrada em sinais de banda de frequência baixa e sinais de banda de frequência alta com base em uma constante predeterminada ou em uma banda de frequência predeterminada, e os sinais de banda de frequência baixa podem ser processados pela unidade de convolução rápida 230 e pela unidade de geração de reverberação tardia 240, e os sinais de banda de frequência alta podem ser processados pela unidade de processamento de QTDL 250, respectivamente.
[068]Cada uma dentre a unidade de convolução rápida 230, a unidade de geração de reverberação tardia 240 e a unidade de processamento de QTDL 250 emite o sinal de sub-banda de domínio de QMF de 2 canais. O mixador e combinador 260 combinam e mixam o sinal de saída da unidade de convolução rápida 230, o sinal de saída da unidade de geração de reverberação tardia 240, e o sinal de saída da unidade de processamento de QTDL 250. Nesse caso, a combinação dos sinais de saída é realizada separadamente para cada um dos sinais de saída esquerdo e direito de 2 canais. O renderizador binaural 200 realiza uma síntese de QMF aos sinais de saída combinados para gerar um sinal de áudio de saída final no domínio de tempo.
[069]Doravante, várias modalidades exemplificadoras da unidade de convolução rápida 230, da unidade de geração de reverberação tardia 240 e da unidade de processamento de QTDL 250 que são ilustradas na Figura 2, e uma combinação dessas serão descritas em detalhes com referência a cada um dos desenhos.
[070]As Figuras 3 a 7 ilustram várias modalidades exemplificadoras de um aparelho destinado ao processamento de um sinal de áudio de acordo com a presente invenção. Na presente invenção, o aparelho destinado ao processamento de um sinal de áudio pode indicar o renderizador binaural 200 ou a unidade de renderização binaural 220, que é ilustrada na Figura 2, como um significado restrito. No entanto, na presente invenção, o aparelho destinado ao processamento de um sinal de áudio pode indicar o decodificador de sinal de áudio da Figura 1, que inclui o renderizador binaural, como um significado abrangente. Cada renderizador binaural ilustrado nas Figuras 3 a 7 pode indicar somente alguns componentes do renderizador binaural 200 ilustrado na Figura 2 por motivos de conveniência de descrição. Ademais, doravante, no relatório descritivo, uma modalidade exemplificadora dos sinais de entrada de múltiplos canais será descrita primeiramente, mas, exceto onde descrito em contrário, um canal, múltiplos canais, e os sinais de entrada de múltiplos canais podem ser usados como conceitos incluindo um objeto, múltiplos objetos, e os sinais de entrada de múltiplos objetos, respectivamente. Ademais, os sinais de entrada de múltiplos canais também podem ser usados como um conceito incluindo um sinal decodificado e renderizado por HOA.
[071]A Figura 3 ilustra um renderizador binaural 200A de acordo com uma modalidade exemplificadora da presente invenção. Quando a renderização binaural que usa o BRIR for generalizada, a renderização binaural é um processamento M-a- O para adquirir sinais de saída O para os sinais de entrada de múltiplos canais tendo M canais. A filtragem binaural pode ser considerada como uma filtragem que usa coeficientes de filtro correspondentes a cada canal de entrada e cada canal de saída durante esse processo. Na Figura 3, um conjunto de filtro original H significa transferir funções a localizações dos ouvidos esquerdo e direito a partir de uma localização de alto-falante de cada sinal de canal. Uma função de transferência medida em um ambiente de escuta genérico, ou seja, um espaço reverberante dentre as funções de transferência é referida como a resposta de impulso de ambiente binaural (BRIR). Em contrapartida, uma função de transferência medida em um ambiente anecóico de modo que não seja influenciado pelo espaço de reprodução é referida como uma resposta de impulso relacionada à cabeça (HRIR), e uma função de transferência para a mesma é referida como uma função de transferência relacionada à cabeça (HRTF). De modo correspondente, diferentemente da HRTF, a BRIR contém informações do espaço de reprodução bem como informações direcionais. De acordo com uma modalidade exemplificadora, a BRIR pode ser substituída utilizando-se a HRTF e um reverberador artificial. No relatório descritivo, descreve-se a renderização binaural que usa a BRIR, mas a presente invenção não se limita à mesma, e a presente invenção pode ser similarmente aplicada mesmo à renderização binaural que usa vários tipos de filtros de FIR. Entretanto, a BRIR pode ter um comprimento de amostras de 96K conforme descrito anteriormente, e visto que a renderização binaural de múltiplos canais é realizada utilizando-se diferentes filtros M*O, requer-se um processo de processamento com alta complexidade computacional.
[072]De acordo com a modalidade exemplificadora da presente invenção, a unidade de parametrização de BRIR 210 pode gerar coeficientes de filtro transformados a partir do conjunto de filtro original H para otimizar a complexidade computacional. A unidade de parametrização de BRIR 210 separa os coeficientes de filtro original em coeficientes de parte frontal (F) e em coeficientes de parte paramétrica (P). No presente documento, a parte F representa uma parte de som direto e reflexões precoces (D&E), e a parte P representa uma parte de reverberação tardia (LR). Por exemplo, coeficientes de filtro original tendo um comprimento de amostras de 96K podem ser separados em cada uma dentre a parte F na qual somente amostras de 4K frontais são truncadas e uma parte P que é uma parte correspondente a amostras de 92K residuais.
[073]A unidade de renderização binaural 220 recebe cada um dos coeficientes de parte F e os coeficientes de parte P a partir da unidade de parametrização de BRIR 210 e realiza uma renderização dos sinais de entrada de múltiplos canais utilizando-se os coeficientes recebidos. De acordo com a modalidade exemplificadora da presente invenção, a unidade de convolução rápida 230 ilustrada na Figura 2 pode renderizar os sinais de múltiplos áudios utilizando-se os coeficientes de parte F recebidos a partir da unidade de parametrização de BRIR 210, e a unidade de geração de reverberação tardia 240 pode renderizar os sinais de múltiplos áudios utilizando-se os coeficientes de parte P recebidos a partir da unidade de parametrização de BRIR 210. Ou seja, a unidade de convolução rápida 230 e a unidade de geração de reverberação tardia 240 podem corresponder a uma unidade de renderização de parte F e uma unidade de renderização de parte P da presente invenção, respectivamente. De acordo com uma modalidade exemplificadora, a renderização de parte F (renderização binaural usando os coeficientes de parte F) pode ser implementada por um filtro de resposta de impulso finito geral (FIR), e uma renderização de parte P (renderização binaural usando os coeficientes de parte P) pode ser implementada por um método paramétrico. Entretanto, uma entrada de controle de qualidade de complexidade proporcionada por um usuário ou um sistema de controle pode ser usada para determinar informações geradas à parte F e/ou à parte P.
[074]A Figura 4 ilustra um método mais detalhado que implementa uma renderização de parte F por um renderizador binaural 200B de acordo com outra modalidade exemplificadora da presente invenção. Por motivos de conveniência de descrição, a unidade de renderização de parte P é omitida na Figura 4. Ademais, a Figura 4 ilustra um filtro implementado no domínio de QMF, mas a presente invenção não se limita a esse e pode ser aplicada ao processamento de sub-banda de outros domínios.
[075]Referindo-se à Figura 4, a renderização de parte F pode ser realizada pela unidade de convolução rápida 230 no domínio de QMF. Para renderização no domínio de QMF, uma unidade de análise de QMF 222 converte os sinais de entrada de domínio de tempo x0, x1, ... x_M-1 em sinais de domínio de QMF X0, X1, ... X_M-1. Nesse caso, os sinais de entrada x0, x1, ... x_M-1 podem ser sinais de áudio de múltiplos canais, ou seja, sinais de canal correspondentes aos alto-falantes de canal 22.2. No domínio de QMF, pode-se usar um total de 64 sub-bandas, mas a presente invenção não se limita a isso. Entretanto, de acordo com a modalidade exemplificadora da presente invenção, a unidade de análise de QMF 222 pode ser omitida do renderizador binaural 200B. No caso de HE-AAC ou USAC usando replicação de banda espectral (SBR), visto que o processamento é realizado no domínio de QMF, o renderizador binaural 200B pode receber imediatamente os sinais de domínio de QMF X0, X1, ... X_M-1 como a entrada sem uma análise de QMF. De modo correspondente, quando os sinais de domínio de QMF forem diretamente recebidos como a entrada conforme descrito anteriormente, o QMF usando no renderizador binaural de acordo com a presente invenção é igual ao QMF usado na unidade de processamento prévio (ou seja, o SBR). Uma unidade de síntese de QMF 244 sintetiza por QMF os sinais esquerdos e direitos Y_L e Y_R de 2 canais, cuja renderização binaural é realizada, para gerar sinais de áudio de saída de 2 canais yL e yR do domínio de tempo.
[076]As Figuras 5 a 7 ilustram modalidades exemplificadoras dos renderizadores binaurais 200C, 200D e 200E, que realizam tanto renderização de parte F como renderização de parte P, respectivamente. Nas modalidades exemplificadoras das Figuras 5 a 7, a renderização de parte F é realizada pela unidade de convolução rápida 230 no domínio de QMF, e a renderização de parte P é realizada pela unidade de geração de reverberação tardia 240 no domínio de QMF ou no domínio de tempo. Nas modalidades exemplificadoras das Figuras 5 a 7, a descrição detalhada das partes duplicadas com as modalidades exemplificadoras dos desenhos anteriores será omitida.
[077]Referindo-se à Figura 5, o renderizador binaural 200C pode realizar tanto a renderização de parte F como a renderização de parte P no domínio de QMF. Ou seja, a unidade de análise de QMF 222 do renderizador binaural 200C converte sinais de entrada de domínio de tempo x0, x1, . x_M-1 em sinais de domínio de QMF X0, X1, . X_M-1 para transferir cada um dos sinais de domínio de QMF convertidos X0, X1, . X_M-1 à unidade de convolução rápida 230 e à unidade de geração de reverberação tardia 240. A unidade de convolução rápida 230 e a unidade de geração de reverberação tardia 240 renderizam os sinais de domínio de QMF X0, X1, . X_M-1 para gerar sinais de saída de 2 canais Y_L, Y_R e Y_Lp, Y_Rp, respectivamente. Nesse caso, a unidade de convolução rápida 230 e a unidade de geração de reverberação tardia 240 podem realizar uma renderização utilizando-se os coeficientes de filtro de parte F e os coeficientes de filtro de parte P recebidos pela unidade de parametrização de BRIR 210, respectivamente. Os sinais de saída Y_L e Y_R da renderização de parte F e os sinais de saída Y_Lp e Y_Rp da renderização de parte P são combinados para cada um dos canais esquerdos e direitos no mixador e combinador 260 e transferidos à unidade de síntese de QMF 224. A unidade de síntese de QMF 224 sintetiza por QMF os sinais de entrada esquerdos e direitos de 2 canais para gerar sinais de áudio de saída de 2 canais yL e yR do domínio de tempo.
[078]Referindo-se à Figura 6, o renderizador binaural 200D pode realizar a renderização de parte F no domínio de QMF e a renderização de parte P no domínio de tempo. A unidade de análise de QMF 222 do renderizador binaural 200D converte por QMF os sinais de entrada de domínio de tempo e transfere os sinais de entrada de domínio de tempo convertidos à unidade de convolução rápida 230. A unidade de convolução rápida 230 realiza uma renderização de parte F dos sinais de domínio de QMF para gerar os sinais de saída de 2 canais Y_L e Y_R. A unidade de síntese de QMF 224 converte os sinais de saída da renderização de parte F em sinais de saída de domínio de tempo e transfere os sinais de saída de domínio de tempo convertidos ao mixador e combinador 260. Entretanto, a unidade de geração de reverberação tardia 240 realiza a renderização de parte P recebendo-se diretamente os sinais de entrada de domínio de tempo. os sinais de saída yLp e yRp do renderização de parte P são transferidos ao mixador e combinador 260. O mixador e combinador 260 combinam o sinal de saída de renderização de parte F e o sinal de saída de renderização de parte P no domínio de tempo para gerar os sinais de áudio de saída de 2 canais yL e yR no domínio de tempo.
[079]Nas modalidades exemplificadoras das Figuras 5 e 6, a renderização de parte F e a renderização de parte P são realizadas em paralelo, enquanto de acordo com a modalidade exemplificadora da Figura 7, o renderizador binaural 200E pode realizar sequencialmente a renderização de parte F e a renderização de parte P. Ou seja, a unidade de convolução rápida 230 pode realizar uma renderização de parte F dos sinais de entrada convertidos por QMF, e a unidade de síntese de QMF 224 pode converter os sinais de 2 canais renderizados de parte F Y_L e Y_R em um sinal de domínio de tempo e, posteriormente, transferir o sinal de domínio de tempo convertido à unidade de geração de reverberação tardia 240. A unidade de geração de reverberação tardia 240 realiza uma renderização de parte P dos sinais de 2 canais de entrada para gerar os sinais de áudio de saída de 2 canais yL e yR do domínio de tempo.
[080]As Figuras 5 a 7 ilustram modalidades exemplificadoras para realizar a renderização de parte F e a renderização de parte P, respectivamente, e as modalidades exemplificadoras dos respectivos desenhos são combinadas e modificadas para realizar a renderização binaural. Isto é, em cada modalidade exemplificadora, o renderizador binaural pode mixar descendentemente os sinais de entrada nos sinais de 2 canais esquerdos e direitos ou um sinal mono e, posteriormente, realizar uma renderização de parte P do sinal de mixagem descendente, bem como realizar discretamente a renderização de parte P em cada um dos sinais de entrada de múltiplos áudios.
<Filtragem de ordem variável em domínio de frequência (VOFF)>
[081]As Figuras 8 a 10 ilustram métodos para gerar um filtro de FIR para renderização binaural de acordo com modalidades exemplificadoras da presente invenção. De acordo com as modalidades exemplificadoras da presente invenção, um filtro de FIR, que é convertido na pluralidade de filtros de sub-banda do domínio de QMF, pode ser usado para a renderização binaural no domínio de QMF. Nesse caso, os filtros de sub-banda truncados dependendo de cada sub-banda podem ser usados para a renderização de parte F. Ou seja, a unidade de convolução rápida do renderizador binaural pode realizar uma filtragem de ordem variável no domínio de QMF utilizando-se os filtros de sub-banda truncados tendo diferentes comprimentos de acordo com a sub-banda. Doravante, as modalidades exemplificadoras da geração de filtro nas Figuras 8 a 10, que serão descritas abaixo, podem ser realizadas pela unidade de parametrização de BRIR 210 da Figura 2.
[082]A Figura 8 ilustra uma modalidade exemplificadora de um comprimento de acordo com cada banda de QMF de um filtro de domínio de QMF usado para renderização binaural. Na modalidade exemplificadora da Figura 8, o filtro de FIR é convertido em filtros de sub-banda i de QMF, e Fi representa um filtro de sub-banda truncado de uma sub-banda i de QMF. No domínio de QMF, pode-se usar um total de 64 sub-bandas, mas a presente invenção não se limita a isso. Ademais, N representa o comprimento (o número de derivações) do filtro de sub-banda original, e os comprimentos dos filtros de sub-banda truncados são representados por N1, N2 e N3, respectivamente. Nesse caso, os comprimentos N, N1, N2 e N3 representam o número de derivações em um domínio de QMF de resolução reduzida (ou seja, timeslot de QMF).
[083]De acordo com a modalidade exemplificadora da presente invenção, os filtros de sub-banda truncados tendo diferentes comprimentos N1, N2 e N3 de acordo com cada sub-banda podem ser usados para a renderização de parte F. Nesse caso, o filtro de sub-banda truncado é um filtro frontal truncado no filtro de sub-banda original e também pode ser designado como um filtro de sub-banda dianteiro. Ademais, uma parte posterior após truncar o filtro de sub-banda original pode ser designada como um filtro de sub-banda posterior e usado para a renderização de parte P.
[084]No caso de renderização usando o filtro de BRIR, uma ordem de filtro (ou seja, comprimento de filtro) para cada sub-banda pode ser determinado com base nos parâmetros extraídos a partir de um filtro de BRIR original, ou seja, informações de tempo de reverberação (RT) para cada filtro de sub-banda, um valor de curva de decaimento de energia (EDC), informações de tempo de decaimento de energia, e similares. Um tempo de reverberação pode variar dependendo da frequência devido a características acústicas em que um decaimento no ar e um grau de absorção sonora dependendo dos materiais de uma parede e de um teto varia para cada frequência. Em geral, um sinal tendo uma frequência menor tem um tempo de reverberação mais longo. Visto que o tempo de reverberação longo significa que mais informações permanecem na parte posterior do filtro de FIR, é preferível truncar o filtro correspondente longo em transferir normalmente informações de reverberação. De modo correspondente, o comprimento de cada filtro de sub-banda truncado da presente invenção é determinado com base pelo menos em parte nas informações características (por exemplo, informações de tempo de reverberação) extraídas do filtro de sub-banda correspondente.
[085]O comprimento do filtro de sub-banda truncado pode ser determinado de acordo com várias modalidades exemplificadoras. Primeiramente, de acordo com uma modalidade exemplificadora, cada sub-banda pode ser classificada em uma pluralidade de grupos, e o comprimento de cada filtro de sub-banda truncado pode ser determinado de acordo com os grupos classificados. De acordo com um exemplo da Figura 8, cada sub-banda pode ser classificada em três zonas Zona 1, Zona 2 e Zona 3, e os filtros de sub-banda truncados da Zona 1 correspondente a uma frequência baixa pode ter uma ordem de filtro mais longa (ou seja, comprimento de filtro) do que os filtros de sub-banda truncados da Zona 2 e da Zona 3 correspondentes a uma frequência alta. Ademais, a ordem de filtro do filtro de subbanda truncado da zona correspondente pode diminuir gradualmente em direção a uma zona tendo uma frequência alta.
[086]De acordo com outra modalidade exemplificadora da presente invenção, o comprimento de cada filtro de sub-banda truncado pode ser determinado independente e variavelmente para cada sub-banda de acordo com informações características do filtro de sub-banda original. O comprimento de cada filtro de subbanda truncado é determinado com base no comprimento de truncamento determinado na sub-banda correspondente e não é influenciado pelo comprimento de um filtro de sub-banda truncado de uma sub-banda vizinha ou de outra subbanda. Isto é, os comprimentos de alguns ou de todos os filtros de sub-banda truncados da Zona 2 podem ser mais longos que o comprimento de pelo menos um filtro de sub-banda truncado da Zona 1.
[087]De acordo com ainda outra modalidade exemplificadora da presente invenção, a filtragem de ordem variável em domínio de frequência pode ser realizada em relação a somente algumas das sub-bandas classificadas na pluralidade de grupos. Ou seja, os filtros de sub-banda truncados tendo diferentes comprimentos podem ser gerados em relação somente a sub-bandas que pertençam a alguns grupos dentre pelo menos dois grupos classificados. De acordo com uma modalidade exemplificadora, o grupo no qual o filtro de sub-banda truncado é gerado pode ser um grupo de sub-banda (isto é, Zona 1) classificado em bandas de frequência baixa com base em uma constante predeterminada ou em uma banda de frequência predeterminada.
[088]O comprimento do filtro truncado pode ser determinado com base em informações adicionais obtidas pelo aparelho destinado ao processamento de um sinal de áudio, ou seja, complexidade, um nível (perfil) de complexidade, ou informações de qualidade requeridas do decodificador. A complexidade pode ser determinada de acordo com um recurso de hardware do aparelho destinado ao processamento de um sinal de áudio ou um valor diretamente inserido pelo usuário. A qualidade pode ser determinada de acordo com uma solicitação do usuário ou determinada com referência a um valor transmitido através do fluxo de bits ou outras informações incluídas no fluxo de bits. Ademais, a qualidade também pode ser determinada de acordo com um valor obtido estimando-se a qualidade do sinal de áudio transmitido, isto é, à medida que uma taxa de bits aumenta, a qualidade pode ser considerada como uma qualidade maior. Nesse caso, o comprimento de cada filtro de sub-banda truncado pode aumentar proporcionalmente de acordo com a complexidade e a qualidade e pode variar com diferentes razões para cada banda. Ademais, a fim de adquirir um ganho adicional por processamento em alta velocidade, como FFT a ser descrito abaixo, e similares, o comprimento de cada filtro de sub-banda truncado pode ser determinado como uma unidade de tamanho correspondente ao ganho adicional, isto é, um múltiplo da potência de 2. Em contrapartida, quando o comprimento determinado do filtro de sub-banda truncado for mais logo que um comprimento total de um filtro de sub-banda real, o comprimento do filtro de sub-banda truncado pode ser ajustado ao comprimento do filtro de sub-banda real.
[089]A unidade de parametrização de BRIR gera os coeficientes de filtro de sub-banda truncados (coeficientes de parte F) correspondentes aos respectivos filtros de sub-banda truncados determinados de acordo com a modalidade exemplificadora supramencionada, e transfere os coeficientes de filtro de sub-banda truncados gerados à unidade de convolução rápida. A unidade de convolução rápida realiza a filtragem de ordem variável em domínio de frequência de cada sinal de subbanda dos sinais de múltiplos áudios utilizando-se os coeficientes de filtro de subbanda truncados.
[090]A Figura 9 ilustra outra modalidade exemplificadora de um comprimento para cada banda de QMF de um filtro de domínio de QMF usado para renderização binaural. Na modalidade exemplificadora da Figura 9, uma descrição duplicativa de partes, que sejam iguais ou correspondam à modalidade exemplificadora da Figura 8, será omitida.
[091]Na modalidade exemplificadora da Figura 9, cada um dentre Fi_L e Fi_R representa um filtro de sub-banda truncado (filtro de sub-banda dianteiro) usado para a renderização de parte F da sub-banda i de QMF, e Pi representa um filtro de sub-banda traseiro usando para a renderização de parte P da sub-banda i de QMF. N representa o comprimento (o número de derivações) do filtro de sub-banda original, e NiF e NiP representam os comprimentos de um filtro de sub-banda dianteiro e de um filtro de sub-banda traseiro da sub-banda i, respectivamente. Conforme descrito anteriormente, NiF e NiP representam o número de derivações no domínio de QMF de resolução reduzida.
[092]De acordo com a modalidade exemplificadora da Figura 9, o comprimento do filtro de sub-banda traseiro também pode ser determinado com base nos parâmetros extraídos a partir do filtro de sub-banda original, bem como do filtro de sub-banda dianteiro. Ou seja, os comprimentos do filtro de sub-banda dianteiro e do filtro de sub-banda traseiro de cada sub-banda são determinados com base pelo menos em parte nas informações características extraídas no filtro de subbanda correspondente. Por exemplo, o comprimento do filtro de sub-banda dianteiro pode ser determinado com base nas primeiras informações de tempo de reverberação do filtro de sub-banda correspondente, e o comprimento do filtro de sub-banda traseiro pode ser determinado com base nas segundas informações de tempo de reverberação. Ou seja, o filtro de sub-banda dianteiro pode ser um filtro em uma parte dianteira truncada com base nas primeiras informações de tempo de reverberação no filtro de sub-banda original, e o filtro de sub-banda traseiro pode ser um filtro em uma parte traseira correspondente a uma zona entre um primeiro tempo de reverberação e um segundo tempo de reverberação como uma zona que segue o filtro de sub-banda dianteiro. De acordo com uma modalidade exemplificadora, as primeiras informações de tempo de reverberação podem ser RT20, e as segundas informações de tempo de reverberação podem ser RT60, mas a presente invenção não se limita a isso.
[093]Uma parte onde uma parte sonora de reflexões precoces é comutada a uma parte sonora de reverberação tardia está presente em um segundo tempo de reverberação. Ou seja, um ponto está presente, onde uma zona tendo uma característica determinística é comutada a uma zona tendo uma característica estocástica, e o ponto é denominado como um tempo de mixagem em termos do BRIR de toda a banda. No caso de uma zona antes do tempo de mixagem, as informações que proporcionam direcionalidade a cada localização estão primariamente presentes, e são exclusivas para cada canal. Em contrapartida, visto que a parte de reverberação tardia tem um recurso comum para cada canal, pode ser eficiente processar uma pluralidade de canais de uma vez. De modo correspondente, estima-se que o tempo de mixagem para cada sub-banda realize a convolução rápida através da renderização de parte F antes do tempo de mixagem e realize um processamento no qual uma característica comum para cada canal é refletida através da renderização de parte P após o tempo de mixagem.
[094]No entanto, pode ocorrer um erro por um viés a partir de um ponto de vista perceptual no momento de estimar o tempo de mixagem. Portanto, realizar a convolução rápida maximizando-se o comprimento da parte F é mais excelente a partir de um ponto de vista de qualidade em relação a processar separadamente a parte F e a parte P com base no limiar correspondente estimando-se um tempo de mixagem preciso. Portanto, o comprimento da parte F, ou seja, o comprimento do filtro de sub-banda dianteiro pode ser mais longo ou mais curto que o comprimento correspondente ao tempo de mixagem de acordo com um controle de complexidade e qualidade.
[095]Ademais, com o intuito de reduzir o comprimento de cada filtro de subbanda, além do método de truncamento supramencionado, quando uma resposta de frequência de uma sub-banda específica for monotônica, uma modelagem que reduz o filtro da sub-banda correspondente a uma ordem baixa encontra-se disponível. Como um método representativo, há uma modelagem de filtro de FIR usando uma amostragem de frequência, e pode-se projetar um filtro minimizado a partir de um ponto de vista dos mínimos quadrados.
[096]De acordo com a modalidade exemplificadora da presente invenção, os comprimentos do filtro de sub-banda dianteiro e/ou do filtro de sub-banda traseiro para cada sub-banda podem ter o mesmo valor para cada canal da sub-banda correspondente. Um erro na medição pode estar presente no BRIR, e um elemento de erro, tal como o viés, ou similares, está presente mesmo ao estimar o tempo de reverberação. De modo correspondente, com o intuito de reduzir a influência, o comprimento do filtro pode ser determinado com base em uma relação mútua entre os canais ou entre as sub-bandas. De acordo com uma modalidade exemplificadora, a unidade de parametrização de BRIR pode extrair as primeiras informações características (isto é, as primeiras informações de tempo de reverberação) a partir do filtro de sub-banda correspondente a cada canal da mesma sub-banda e adquirir informações de ordem de filtro único (alternativamente, primeiras informações de ponto de truncamento) para a sub-banda correspondente combinando-se as primeiras informações características extraídas. O filtro de sub-banda dianteiro para cada canal da sub-banda correspondente pode ser determinado como tendo o mesmo comprimento com base nas informações de ordem de filtro obtidas (alternativamente, primeiras informações de ponto de truncamento). De modo similar, a unidade de parametrização de BRIR pode extrair segundas informações características (isto é, as segundas informações de tempo de reverberação) a partir do filtro de sub-banda correspondente a cada canal da mesma sub-banda e adquirir segundas informações de ponto de truncamento, que devem ser comumente aplicadas ao filtro de sub-banda traseiro correspondente a cada canal da sub-banda correspondente, combinando-se as segundas informações características extraídas. No presente documento, o filtro de sub-banda dianteiro pode ser um filtro em uma parte dianteira truncada com base nas primeiras informações de ponto de truncamento no filtro de sub-banda original, e o filtro de sub-banda traseiro pode ser um filtro em uma parte traseira correspondente a uma zona entre o primeiro ponto de truncamento e o segundo ponto de truncamento como uma zona que segue o filtro de sub-banda dianteiro.
[097]Entretanto, de acordo com outra modalidade exemplificadora da presente invenção, somente o processamento de parte F pode ser realizado em relação às sub-bandas de um grupo de sub-banda específico. Nesse caso, quando o processamento for realizado em relação à sub-banda correspondente utilizando-se somente um filtro até o primeiro ponto de truncamento, pode ocorrer uma distorção em um nível para que o usuário perceba devido a uma diferença em energia do filtro processado comparado ao caso em que o processamento é realizado utilizando-se todo o filtro de sub-banda. Com o intuito de evitar a distorção, uma compensação de energia para uma área que não seja usada para o processamento, ou seja, uma área seguindo o primeiro ponto de truncamento pode ser obtida no filtro de subbanda correspondente. A compensação de energia pode ser realizada dividindo-se os coeficientes de parte F (coeficientes de filtro de sub-banda dianteiro) pela potência do filtro ao primeiro ponto de truncamento do filtro de sub-banda correspondente e multiplicando-se os coeficientes de parte F divididos (coeficientes de filtro de sub-banda dianteiro) pela energia de uma área desejada, ou seja, pela potência total do filtro de sub-banda correspondente. De modo correspondente, a energia dos coeficientes de parte F pode ser ajustada para que seja igual à energia de todo o filtro de sub-banda. Ademais, embora os coeficientes de parte P sejam transmitidos a partir da unidade de parametrização de BRIR, a unidade de renderização binaural pode não realizar o processamento de parte P com base no controle de complexidade e qualidade. Nesse caso, a unidade de renderização binaural pode realizar a compensação de energia para os coeficientes de parte F utilizando-se os coeficientes de parte P.
[098]No processamento de parte F pelos métodos supramencionados, os coeficientes de filtro dos filtros de sub-banda truncados tendo diferentes comprimentos para cada sub-banda são obtidos a partir de um filtro de domínio de tempo único (ou seja, um filtro de protótipo). Ou seja, visto que o filtro de domínio de tempo único é convertido em uma pluralidade de filtros de sub-banda de QMF e os comprimentos dos filtros correspondentes a cada sub-banda são variados, cada filtro de sub-banda truncado é obtido a partir de um filtro de protótipo único.
[099]A unidade de parametrização de BRIR gera os coeficientes de filtro de sub-banda dianteiro (coeficientes de parte F) correspondentes a cada filtro de subbanda dianteiro determinado de acordo com a modalidade exemplificadora supramencionada e transfere os coeficientes de filtro de sub-banda dianteiro gerados à unidade de convolução rápida. A unidade de convolução rápida realiza a filtragem de ordem variável no domínio de frequência de cada sinal de sub-banda dos sinais de múltiplos áudios utilizando-se os coeficientes de filtro de sub-banda dianteiro recebidos. Ademais, a unidade de parametrização de BRIR pode gerar os coeficientes de filtro de sub-banda traseiro (coeficientes de parte P) correspondentes a cada filtro de sub-banda traseiro determinado de acordo com a modalidade exemplificadora supramencionada e transfere os coeficientes de filtro de sub-banda traseiro gerados à unidade de geração de reverberação tardia. A unidade de geração de reverberação tardia pode realizar um processamento de reverberação de cada sinal de sub-banda utilizando-se os coeficientes de filtro de sub-banda traseiro recebidos. De acordo com a modalidade exemplificadora da presente invenção, a unidade de parametrização de BRIR pode combinar os coeficientes de filtro de subbanda traseiro para que cada canal gere coeficientes de filtro de sub-banda de mixagem descendente (coeficientes de parte P de mixagem descendente) e transferir os coeficientes de filtro de sub-banda de mixagem descendente gerados à unidade de geração de reverberação tardia. Conforme descrito abaixo, a unidade de geração de reverberação tardia pode gerar sinais de reverberação de sub-banda esquerda e direita de 2 canais utilizando-se os coeficientes de filtro de sub-banda de mixagem descendente recebidos.
[0100]A Figura 10 ilustra ainda outra modalidade exemplificadora de um método para gerar um filtro de FIR usando para renderização binaural. Na modalidade exemplificadora da Figura 10, a descrição duplicativa de partes, que sejam iguais ou correspondam à modalidade exemplificadora das Figuras 8 e 9, será omitida.
[0101]Referindo-se à Figura 10, a pluralidade de filtros de sub-banda, que são convertidos por QMF, pode ser classificada na pluralidade de grupos, e um processamento diferente pode ser aplicado para cada um dos grupos classificados. Por exemplo, a pluralidade de sub-bandas pode ser classificada em uma Zona 1 de primeiro grupo de sub-banda tendo frequências baixas e uma Zona 2 de segundo grupo sub-banda tendo frequências altas com base em uma banda de frequência predeterminada (banda i de QMF). Nesse caso, a renderização de parte F pode ser realizada em relação aos sinais de sub-banda de entrada do primeiro grupo de subbanda, e um processamento de QTDL que será descrito mais adiante pode ser realizado em relação aos sinais de sub-banda de entrada do segundo grupo de subbanda.
[0102]De modo correspondente, a unidade de parametrização de BRIR gera os coeficientes de filtro de sub-banda dianteiro para cada sub-banda do primeiro grupo de sub-banda e transfere os coeficientes de filtro de sub-banda dianteiro gerados à unidade de convolução rápida. A unidade de convolução rápida realiza a renderização de parte F dos sinais de sub-banda do primeiro grupo de sub-banda utilizando-se os coeficientes de filtro de sub-banda dianteiro recebidos. De acordo com uma modalidade exemplificadora, a renderização de parte P dos sinais de subbanda do primeiro grupo de sub-banda pode ser adicionalmente realizada pela unidade de geração de reverberação tardia. Ademais, a unidade de parametrização de BRIR obtém pelo menos um parâmetro de cada um dos coeficientes de filtro de sub-banda do segundo grupo de sub-banda e transfere o parâmetro obtido à unidade de processamento de QTDL. A unidade de processamento de QTDL realiza uma filtragem de linha de retardo com derivações de cada sinal de sub-banda do segundo grupo de sub-banda conforme descrito abaixo utilizando-se o parâmetro obtido. De acordo com a modalidade exemplificadora da presente invenção, a frequência predeterminada (banda i de QMF) para distinguir o primeiro grupo de subbanda e o segundo grupo de sub-banda pode ser determinada com base em um valor constante predeterminado ou determinada de acordo com uma característica de fluxo de bits do sinal de entrada de áudio transmitido. Por exemplo, no caso do sinal de áudio usando o SBR, o segundo grupo de sub-banda pode ser ajustado para corresponder a bandas de SBR.
[0103]De acordo com outra modalidade exemplificadora da presente invenção, a pluralidade de sub-bandas pode ser classificada em três grupos de subbanda com base em uma primeira banda de frequência predeterminada (banda i de QMF) e uma segunda banda de frequência predeterminada (banda j de QMF j). Ou seja, a pluralidade de sub-bandas pode ser classificada em uma Zona 1 de primeiro grupo de sub-banda que consiste em uma zona de baixa frequência igual ou menor que a primeira banda de frequência, uma Zona 2 de segundo grupo de sub-banda que é uma zona de frequência intermediária superior à primeira banda de frequência e igual ou menor que a segunda banda de frequência, e um terceiro grupo de subbanda Zona 3 que é uma zona de alta frequência maior que a segunda banda de frequência. Nesse caso, a renderização de parte F e o processamento de QTDL podem ser realizados em relação a sinais de sub-banda do primeiro grupo de sub- banda e a sinais de sub-banda do segundo grupo de sub-banda, respectivamente, conforme descrito anteriormente, e a renderização pode não ser realizada em relação a sinais de sub-banda do terceiro grupo de sub-banda.
<Renderização de reverberação tardia>
[0104]A seguir, descrever-se-ão várias modalidades exemplificadoras da renderização de parte P da presente invenção com referência às Figuras 11 a 14. Ou seja, várias modalidades exemplificadoras da unidade de geração de reverberação tardia 240 da Figura 2, que realiza a renderização de parte P no domínio de QMF, serão descritas com referência às Figuras 11 a 14. Nas modalidades exemplificadoras das Figuras 11 a 14, supõe-se que os sinais de entrada de múltiplos canais sejam recebidos como os sinais de sub-banda do domínio de QMF. De modo correspondente, o processamento dos respectivos componentes das Figuras 11 a 14, ou seja, um descorrelador 241, uma unidade de filtragem de subbanda 242, uma unidade de correspondência de IC 243, uma unidade de mixagem descendente 244 e uma unidade de correspondência de decaimento de energia 246 podem ser realizadas para cada sub-banda de QMF. Nas modalidades exemplificadoras das Figuras 11 a 14, a descrição detalhada de partes duplicadas com as modalidades exemplificadoras dos desenhos anteriores será omitida.
[0105]Nas modalidades exemplificadoras das Figuras 8 a 10, Pi (P1, P2, P3, ...) correspondentes à parte P é uma parte traseira de cada filtro de sub-banda removido pelo truncamento variável de frequência e geralmente inclui informações sobre reverberação tardia. O comprimento da parte P pode ser definido como um filtro completo após um ponto de truncamento de cada filtro de sub-banda de acordo com o controle de complexidade e qualidade, ou definido como um comprimento menor com referência às segundas informações de tempo de reverberação do filtro de sub-banda correspondente.
[0106]A renderização de parte P pode ser realizada independentemente para cada canal ou realizada em relação a um canal mixado descendentemente. Ademais, a renderização de parte P pode ser aplicada através de um processamento diferente para cada grupo de sub-banda predeterminado ou para cada sub-banda, ou aplicada a todas as sub-bandas como o mesmo processamento. Nesse caso, o processamento aplicável à parte P pode incluir compensação de decaimento de energia, uma filtragem de linha de retardo com derivações, um processamento usando um filtro de resposta de impulso infinito (IIR), um processamento usando um reverberador artificial, compensação de coerência interaural independente de frequência (FIIC), compensação de coerência interaural dependente de frequência (FDIC), e similares, para sinais de entrada.
[0107]Entretanto, é importante conservar genericamente dois recursos, ou seja, recursos de alívio de decaimento de energia (EDR) uma coerência interaural dependente de frequência (FDIC) para processamento paramétrico para a parte P. Primeiramente, quando a parte P for observada a partir de um ponto de vista de energia, pode-se observar que o EDR pode ser igual ou similar para cada canal. Visto que os respectivos canais têm um EDR comum, é apropriado mixar descendente todos os canais a um ou dois canal(is) e, posteriormente, realizar a renderização de parte P do(s) canal(is) mixado(s) descendentemente a partir do ponto de vista de energia. Nesse caso, uma operação da renderização de parte P, em que M convoluções precisam ser realizadas em relação a M canais, é reduzida à mixagem descendente M-a-O e uma (alternativamente, duas) convolução, proporcionando, assim, um ganho de uma complexidade computacional significativa.
[0108]A seguir, um processo de compensar a FDIC é necessário na renderização de parte P. Existem vários métodos para estimar a FDIC, mas pode-se usar a equação a seguir. [Equação 3]
Figure img0008
[0109]No presente documento, Hm (i, k) representa um coeficiente de transformada de Fourier de tempo curto (STFT) de uma resposta de impulso
Figure img0009
, n representa um índice de tempo, i representa um índice de frequência, k representa um índice de quadro, e m representa um índice de canal de saída L ou R. Ademais, uma função
Figure img0010
de um numerador produz um valor de número real de uma entrada x, e x representa um valor conjugado complexo de x. Uma parte de numerador na equação pode ser substituída por uma função tendo um valor absoluto ao invés do valor de número real.
[0110]Entretanto, na presente invenção, visto que a renderização binaural é realizada no domínio de QMF, a FDIC pode ser definida por uma equação dada abaixo. [Equação 4
Figure img0011
[0111]No presente documento, i representa um índice de sub-banda, k representa um índice de tempo na sub-banda, e
Figure img0012
, representa o filtro de sub-banda do BRIR.
[0112]A FDIC da parte de reverberação tardia é um parâmetro primariamente influenciado por localizações de dois microfones quando o BRIR for gravado, e não é influenciado pela localização do alto-falante, ou seja, uma direção e uma distância. Quando for suposto que uma cabeça de um ouvinte é uma esfera, FDIC ICideal teórico do BRIR pode satisfazer uma equação dada abaixo. [Equação 5]
Figure img0013
[0113]No presente documento, r representa uma distância entre ambos os ouvidos do ouvinte, ou seja, uma distância entre dois microfones, e k representa o índice de frequência.
[0114]Quando a FDIC que usa os BRIRs da pluralidade de canais for analisado, pode-se observar que o som de flexões precoces primariamente incluído na parte F varia para cada canal. Ou seja, a FDIC da parte F varia de modo bastante diferente para cada canal. Entretanto, a FDIC varia bastante no caso de bandas de alta frequência, mas a razão é que ocorre um grande erro de medição devido a uma característica de sinais de banda de alta frequência cuja energia é rapidamente decaída, e quando uma média para cada canal for obtida, a FDIC é quase convergida para 0. Em contrapartida, uma diferença em FDIC para cada canal ocorre devido ao erro de medição mesmo no caso da parte P, mas pode ser confirmado que a FDIC é convergida em média a uma função de sincronização mostrada na Equação 5. De acordo com a modalidade exemplificadora da presente invenção, a unidade de geração de reverberação tardia para a renderização de parte P pode ser implementada com base na característica supramencionada.
[0115]A Figura 11 ilustra uma unidade de geração de reverberação tardia 240A de acordo com uma modalidade exemplificadora da presente invenção. De acordo com a modalidade exemplificadora da Figura 11, a unidade de geração de reverberação tardia 240A pode incluir uma unidade de filtragem de sub-banda 242 e unidades de mixagem descendente 244a e 244b.
[0116]A unidade de filtragem de sub-banda 242 filtra os sinais de entrada de múltiplos canais X0, X1, ..., X_M-1 para cada sub-banda utilizando-se os coeficientes de parte P. Os coeficientes de parte P podem ser recebidos a partir da unidade de parametrização de BRIR (não ilustrada) conforme descrito anteriormente e incluem coeficientes de filtros de sub-banda traseiros tendo diferentes comprimentos para cada sub-banda. A unidade de filtragem de sub-banda 242 realiza uma convolução rápida entre o sinal de sub-banda de domínio de QMF e o filtro de sub-banda traseiro do domínio de QMF correspondente ao mesmo para cada frequência. Nesse caso, o comprimento do filtro de sub-banda traseiro pode ser determinado com base no RT60 conforme descrito anteriormente, mas ajustado para um valor maior ou menor que RT60 de acordo com o controle de complexidade e qualidade.
[0117]Os sinais de entrada de múltiplos canais são renderizados a X_L0, X_L1, ..., X_L_M-1, que são sinais de canal esquerdo, e X_R0, X_R1, ..., X_R_M-1, que são sinais de canal direito, pela unidade de filtragem de sub-banda 242, respectivamente. As unidades de mixagem descendente 244a e 244b mixam descendentemente a pluralidade de sinais de canal esquerdo renderizados e a pluralidade de sinais de canal direito renderizados para canais esquerdo e direito, respectivamente, para gerar sinais de saída esquerdo e direito de 2 canais Y_Lp e Y_Rp.
[0118]A Figura 12 ilustra uma unidade de geração de reverberação tardia 240B de acordo com outra modalidade exemplificadora da presente invenção. De acordo com a modalidade exemplificadora da Figura 12, a unidade de geração de reverberação tardia 240B pode incluir um descorrelador 241, uma unidade de correspondência de IC 243, unidades de mixagem descendente 244a e 244b, e unidades de correspondência de decaimento de energia 246a e 246b. Ademais, para processamento da unidade de geração de reverberação tardia 240B, a unidade de parametrização de BRIR (não ilustrada) pode incluir uma unidade de estimação de IC 213 e uma unidade de geração de filtro de sub-banda de mixagem descendente 216.
[0119]De acordo com a modalidade exemplificadora da Figura 12, a unidade de geração de reverberação tardia 240B pode reduzir a complexidade computacional utilizando-se as características de decaimento de energia da parte de reverberação tardia para respectivos canais que sejam iguais entre si. Ou seja, a unidade de geração de reverberação tardia 240B realiza um ajuste de descorrelação e coerência interaural (IC) de cada sinal de múltiplos canais, mixa descendentemente os sinais de entrada ajustados e os sinais de descorrelação para cada canal a sinais de canal esquerdo e direito, e compensa o decaimento de energia dos sinais mixados descendentemente para gerar os sinais de saída esquerdo e direito de 2 canais. Em maiores detalhes, o descorrelador 241 gera sinais de descorrelação D0, D1, ..., D_M-1 para respectivos sinais de entrada de múltiplos canais X0, X1, ..., X_M-1. O descorrelador 241 é um tipo de pré- processador para ajustar a coerência entre ambos os ouvidos, e pode adotar um aleatorizador de fase, e uma fase de um sinal de entrada pode ser alterada por uma unidade de 90° para eficiência da complexidade computacional.
[0120]Entretanto, a unidade de estimação de IC 213 da unidade de parametrização de BRIR (não ilustrada) estima um valor de IC e transfere o valor de IC estimado à unidade de renderização binaural (não ilustrada). A unidade de renderização binaural pode armazenar o valor de IC recebido em uma memória 255 e transfere o valor de IC recebido à unidade de correspondência de IC 243. A unidade de correspondência de IC pode receber diretamente o valor de IC a partir da unidade de parametrização de BRIR e, alternativamente, adquirir o valor de IC pré- armazenado na memória 255. Os sinais de entrada e os sinais de descorrelação para os respectivos canais são renderizados a X_L0, X_L1, ., X_L_M-1, que são sinais de canal esquerdo, e X_R0, X_R1, ., X_R_M-1, que são sinais de canal direito, na unidade de correspondência de IC 243. A unidade de correspondência de IC 243 realiza uma soma ponderada entre o sinal de descorrelação e o sinal de entrada original para cada canal referindo-se ao valor de IC, e ajusta a coerência entre ambos os sinais de canal através da soma ponderada. Nesse caso, visto que o sinal de entrada para cada canal é um sinal do domínio de sub-banda, a correspondência de FDIC supramencionada pode ser alcançada. Quando um sinal de canal original for representado por X, um sinal de canal de descorrelação é representado por D, e um IC da sub-banda correspondente é representado por Φ, e sinais de canal esquerdo e direito X_L e X_R, que são submetidos a uma correspondência de IC, podem ser expressos por uma equação dada abaixo. [Equação 6]
Figure img0014
(sinais duplos na mesma ordem)
[0121]As unidades de mixagem descendente 244a e 244b mixam descendentemente a pluralidade de sinais de canal esquerdo renderizado e a pluralidade de sinais de canal direito renderizados para canais esquerdo e direito, respectivamente, através da correspondência de IC, gerando, assim, sinais de renderização esquerdo e direito de 2 canais. A seguir, As unidades de correspondência de decaimento de energia 246a e 246b refletem decaimentos de energia dos sinais de renderização esquerdo e direito de 2 canais, respectivamente, para gerar sinais de saída esquerdo e direito de 2 canais Y_Lp e Y_Rp. As unidades de correspondência de decaimento de energia 246a e 246b realizam uma correspondência de decaimento de energia utilizando-se os coeficientes de filtro de sub-banda de mixagem descendente obtidos a partir da unidade de geração de filtro de sub-banda de mixagem descendente 216. Os coeficientes de filtro de sub-banda de mixagem descendente são gerados por uma combinação dos coeficientes de filtro de sub-banda traseiro para os respectivos canais da sub-banda correspondente. Em outras palavras, o coeficiente de filtro de sub-banda de mixagem descendente pode incluir um coeficiente de filtro de sub-banda tendo um valor da raiz medial dos quadrados de resposta de amplitude do coeficiente de filtro de sub-banda traseiro para cada canal em relação à sub-banda correspondente. Portanto, os coeficientes de filtro de sub-banda de mixagem descendente refletem a característica de decaimento de energia da parte de reverberação tardia para o sinal de sub-banda correspondente. Os coeficientes de filtro de sub-banda de mixagem descendente podem incluir coeficientes de filtro de sub-banda de mixagem descendente mixados descendentemente em mono ou estéreo de acordo com modalidades exemplificadoras e ser diretamente recebidos a partir da unidade de parametrização de BRIR similarmente ao FDIC ou obtidos a partir de valores pré- armazenados na memória 225.Quando BRIR cuja parte F é truncada em um k- ésimo canal dentre M canais for representado por BRIRk , BRIR em que até a N- ésima amostra é truncada no k-ésimo canal é representado por BRIRT k , , e um coeficiente de filtro de sub-banda de mixagem descendente cuja energia de uma parte truncada após a N-ésima amostra ser compensada é representado por BRIRE , BRIRE pode ser obtido utilizando-se uma equação dada abaixo. [Equação 7]
Figure img0015
[0122]A Figura 13 ilustra uma unidade de geração de reverberação tardia 240C de acordo com ainda outra modalidade exemplificadora da presente invenção. Respectivos componentes da unidade de geração de reverberação tardia 240C da Figura 13 podem ser iguais aos respectivos componentes da unidade de geração de reverberação tardia 240B descritos na modalidade exemplificadora da Figura 12, e tanto a unidade de geração de reverberação tardia 240C como a unidade de geração de reverberação tardia 240B podem ser parcialmente diferentes entre si em ordem de processamento de dados dentre os respectivos componentes.
[0123]De acordo com a modalidade exemplificadora da Figura 13, a unidade de geração de reverberação tardia 240C pode reduzir, ainda, a complexidade computacional utilizando-se as FDICs da parte de reverberação tardia para respectivos canais que sejam iguais entre si. Ou seja, a unidade de geração de reverberação tardia 240C mixa descendentemente os respectivos sinais de múltiplos canais aos sinais de canal esquerdo e direito, ajusta ICs dos sinais de canal esquerdo e direito mixados descendentemente, e compensa o decaimento de energia para os sinais de canal esquerdo e direito ajustados, gerando, assim, os sinais de saída esquerdo e direito de 2 canais.
[0124]Em maiores detalhes, o descorrelador 241 gera sinais de descorrelação D0, D1, ..., D_M-1 para respectivos sinais de entrada de múltiplos canais X0, X1, ..., X_M-1. A seguir, as unidades de mixagem descendente 244a e 244b mixam descendentemente os sinais de entrada de múltiplos canais e os sinais de descorrelação, respectivamente, para gerar sinais de mixagem descendente de 2 canais X_DMX e D_DMX. A unidade de correspondência de IC 243 realiza uma soma ponderada dos sinais de mixagem descendente de 2 canais referindo-se aos valores de IC para ajustar a coerência entre ambos os sinais de canal. As unidades de correspondência de decaimento de energia 246a e 246b realizam uma compensação de energia para os sinais de canal esquerdo e direito X_L e X_R, que são submetidos à correspondência de IC pela unidade de correspondência de IC 243, respectivamente, para gerar sinais de saída esquerdo e direito de 2 canais X_Lp e Y_Rp. Nesse caso, as informações de compensação de energia usadas para compensação de energia podem incluir coeficientes de filtro de sub-banda de mixagem descendente para cada sub-banda.
[0125]A Figura 14 ilustra uma unidade de geração de reverberação tardia 240D de acordo com ainda outra modalidade exemplificadora da presente invenção. Respectivos componentes da unidade de geração de reverberação tardia 240D da Figura 14 podem ser iguais aos respectivos componentes das unidades de geração de reverberação tardia 240B e 240C descritas nas modalidades exemplificadoras das Figuras 12 e 13, mas têm um recurso mais simplificado.
[0126]Primeiramente, a unidade de mixagem descendente 244 mixa descendentemente os sinais de entrada de múltiplos canais X0, X1, ..., X_M-1 para cada sub-banda para gerar um sinal de mixagem descendente mono (ou seja, um sinal de sub-banda mono) X_DMX. A unidade de correspondência de decaimento de energia 246 reflete um decaimento de energia para o sinal de mixagem descendente mono gerado. Nesse caso, os coeficientes de filtro de sub-banda de mixagem descendente para cada sub-banda podem ser usados a fim de refletir o decaimento de energia. A seguir, o descorrelador 241 gera um sinal de descorrelação D_DMX do sinal de mixagem descendente mono refletido com o decaimento de energia. A unidade de correspondência de IC 243 realiza uma soma ponderada do sinal de mixagem descendente mono refletido com o decaimento de energia e do sinal de descorrelação referindo-se ao valor de FDIC e gera os sinais de saída esquerdo e direito de 2 canais Y_Lp e Y_Rp através da soma ponderada. De acordo com a modalidade exemplificadora da Figura 14, visto que a correspondência de decaimento de energia é realizada em relação ao sinal de mixagem descendente mono X_DMX somente uma vez, a complexidade computacional pode ser adicionalmente salva.
<Processamento de QTDL de bandas de alta frequência>
[0127]A seguir, várias modalidades exemplificadoras do processamento de QTDL da presente invenção serão descritas com referência às Figuras 15 e 16. Ou seja, várias modalidades exemplificadoras da unidade de processamento de QTDL 250 da Figura 2, que realiza o processamento de QTDL no domínio de QMF, serão descritas com referência às Figuras 15 e 16. Nas modalidades exemplificadoras das Figuras 15 e 16, supõe-se que os sinais de entrada de múltiplos canais sejam recebidos como os sinais de sub-banda do domínio de QMF. Portanto, nas modalidades exemplificadoras das Figuras 15 e 16, um filtro de linha de retardo com derivação e um filtro de linha de retardo com derivação única podem realizar um processamento para cada sub-banda de QMF. Ademais, o processamento de QTDL pode ser realizado somente em relação aos sinais de entrada de bandas de alta frequência, que são classificados com base na constante predeterminada ou na banda de frequência predeterminada, conforme descrito anteriormente. Quando a replicação de banda espectral (SBR) for aplicada ao sinal de áudio de entrada, as bandas de alta frequência podem corresponder às bandas de SBR. Nas modalidades exemplificadoras das Figuras 15 e 16, uma descrição detalhada das partes duplicadas com as modalidades exemplificadoras dos desenhos anteriores será omitida.
[0128]A replicação de banda espectral (SBR) usada para codificação eficiente das bandas de alta frequência consiste em uma ferramenta para manter uma largura de banda tão grande quando um sinal original estendendo-se novamente uma largura de banda que seja estreitada descartando-se os sinais das bandas de alta frequência em codificação de taxa de bits baixa. Nesse caso, as bandas de alta frequência são geradas utilizando-se informações de bandas de baixa frequência, que são codificadas e transmitidas, e informações adicionais dos sinais de banda de alta frequência transmitidas pelo codificador. No entanto, pode ocorrer uma distorção em um componente de alta frequência gerado utilizando-se a SBR devido à geração de harmônica imprecisa. Ademais, as bandas de SBR são as bandas de alta frequência, e conforme descrito anteriormente, os tempos de reverberação das bandas de frequência correspondentes são bastante curtos. Ou seja, os filtros de sub-banda de BRIR das bandas de SBR têm pequenas informações efetivas e uma alta taxa de decaimento. De modo correspondente, na renderização de BRIR para as bandas de alta frequência correspondentes às bandas de SBR, realizar a renderização utilizando-se um número pequeno de derivações efetivas ainda pode ser mais efetivo em termos de uma complexidade computacional à qualidade sonora do que realizar a convolução.
[0129]A Figura 15 ilustra uma unidade de processamento de QTDL 250A de acordo com uma modalidade exemplificadora da presente invenção. De acordo com a modalidade exemplificadora da Figura 15, a unidade de processamento de QTDL 250A realiza uma filtragem para cada sub-banda para os sinais de entrada de múltiplos canais X0, X1, ..., X_M-1 utilizando-se o filtro de linha de retardo com derivação. O filtro de linha de retardo com derivação realiza uma convolução de somente um pequeno número de derivações predeterminadas em relação a cada sinal de canal. Nesse caso, o número pequeno de derivações usado nesse momento pode ser determinado com base em um parâmetro diretamente extraído dos coeficientes de filtro de sub-banda de BRIR correspondentes ao sinal de sub-banda relevante. O parâmetro inclui informações de retardo para cada derivação, que deve ser usado para o filtro de linha de retardo com derivação, e as informações de ganho correspondentes ao mesmo.
[0130]O número de derivações usado para o filtro de linha de retardo com derivação pode ser determinado pelo controle de complexidade e qualidade. A unidade de processamento de QTDL 250A recebe um conjunto de parâmetros (informações de ganho e informações de retardo), que corresponde ao número relevante de derivações para cada canal e para cada sub-banda, a partir da unidade de parametrização de BRIR, com base no número de derivações determinado. Nesse caso, o conjunto de parâmetros recebido pode ser extraído dos coeficientes de filtro de sub-banda de BRIR correspondentes ao sinal de sub-banda relevante e determinado de acordo com várias modalidades exemplificadoras. Por exemplo, o conjunto de parâmetros para respectivos picos extraídos tanto quando o número de derivações determinado dentre uma pluralidade de picos dos coeficientes de filtro de sub-banda de BRIR correspondentes na ordem de um valor absoluto, a ordem do valor de uma parte real, ou a ordem do valor de uma parte imaginária podem ser recebidas. Nesse caso, as informações de retardo de cada parâmetro indicam informações posicionais do pico correspondente e tem um valor inteiro baseado em amostra no domínio de QMF. Ademais, as informações de ganho são determinadas com base no tamanho do pico correspondente às informações de retardo. Nesse caso, assim como as informações de ganho, um valor ponderado do pico correspondente após uma compensação de energia para todos os coeficientes de filtro de sub-banda ser realizada pode ser usado, bem como o próprio valor de pico correspondente nos coeficientes de filtro de sub-banda. As informações de ganho são obtidas utilizando-se tanto um número real do valor ponderado como um número imaginário do valor ponderado para o pico correspondente para, desse modo, ter o valor complexo.
[0131]A pluralidade de sinais de canal filtrados pelo filtro de linha de retardo com derivação é somada aos sinais de saída esquerdo e direito de 2 canais Y_L e Y_R para cada sub-banda. Entretanto, o parâmetro usado em cada filtro de linha de retardo com derivação da unidade de processamento de QTDL 250A pode ser armazenado na memória durante um processo de inicialização para a renderização binaural e o processamento de QTDL pode ser realizado sem uma operação adicional para extrair o parâmetro.
[0132]A Figura 16 ilustra uma unidade de processamento de QTDL 250B de acordo com outra modalidade exemplificadora da presente invenção. De acordo com a modalidade exemplificadora da Figura 16, a unidade de processamento de QTDL 250B realiza uma filtragem para cada sub-banda para os sinais de entrada de múltiplos canais X0, X1, ..., X_M-1 utilizando-se o filtro de linha de retardo com derivação única. Pode-se avaliar que o filtro de linha de retardo com derivação única realiza a convolução somente em uma derivação em relação a cada sinal de canal. Nesse caso, a derivação usada pode ser determinada com base em um parâmetro diretamente extraído a partir dos coeficientes de filtro de sub-banda de BRIR correspondentes ao sinal de sub-banda relevante. O(s) parâmetro(s) inclui(em) informações de retardo extraídas a partir dos coeficientes de filtro de sub-banda de BRIR e informações de ganho correspondentes aos mesmos.
[0133]Na Figura 16, L_0, L_1, ... L_M-1 representam retardos para os BRIRs em relação ao ouvido esquerdo de M canais, respectivamente, e R_0, R_1, ., R_M-1 representam retardos para os BRIRs em relação ao ouvido direito de M canais, respectivamente. Nesse caso, as informações de retardo representam informações posicionais para o pico máximo na ordem de um valor absoluto, o valor de uma parte real, ou o valor de uma parte imaginária dentre os coeficientes de filtro de sub-banda de BRIR. Ademais, na Figura 16, G_L_0, G_L_1, ., G_L_M-1 representam ganhos correspondentes às respectivas informações de retardo do canal esquerdo e G_R_0, G_R_1, ., G_R_M-1 representam ganhos correspondentes às respectivas informações de retardo dos canais direitos, respectivamente. Conforme descrito, cada uma das informações de ganho é determinada com base no tamanho do pico correspondente às informações de retardo. Nesse caso, assim como as informações de ganho, o valor ponderado do pico correspondente após uma compensação de energia para coeficientes de filtro de sub-banda completos pode ser usado, assim como o próprio valor de pico correspondente nos coeficientes de filtro de sub-banda. As informações de ganho são obtidos utilizando-se tanto o número real do valor ponderado como o número imaginário do valor ponderado para o pico correspondente.
[0134]Conforme descrito na modalidade exemplificadora da Figura 15, a pluralidade de sinais de canal filtrados pelo filtro de linha de retardo com derivação única é somada aos sinais de saída esquerdo e direito de 2 canais Y_L e Y_R para cada sub-banda. Ademais, o parâmetro usado em cada filtro de linha de retardo com derivação única da unidade de processamento de QTDL 250B pode ser armazenado na memória durante o processo de inicialização para a renderização binaural e o processamento de QTDL pode ser realizado sem uma operação adicional para extrair o parâmetro.
[0135]Anteriormente no presente documento, a presente invenção foi descrita através das modalidades exemplificadoras detalhadas, as modificações e alterações da presente invenção podem ser feitas pelos indivíduos versados na técnica sem divergir do objeto e do escopo da presente invenção. Ou seja, a modalidade exemplificadora da renderização binaural para os sinais de múltiplos áudios foi descrita na presente invenção, mas a presente invenção pode ser similarmente aplicada e estendida até mesmo a vários sinais de multimídia incluindo um sinal de vídeo, bem como o sinal de áudio. De modo correspondente, analisa-se que matérias que podem ser facilmente comparadas pelos indivíduos versados na técnica a partir da descrição detalhada e da modalidade exemplificadora da presente invenção estão incluídas nas reivindicações da presente invenção.
MODO PARA A INVENÇÃO
[0136]Conforme anteriormente, descreveram-se recursos relacionados no melhor modo.
APLICABILIDADE INDUSTRIAL
[0137]A presente invenção pode ser aplicada a várias formas de aparelhos destinados ao processamento de um sinal de multimídia incluindo um aparelho destinado ao processamento de um sinal de áudio e um aparelho destinado ao processamento de um sinal de vídeo, e similares.

Claims (14)

1. Aparelho para processar um sinal de multimídia, o aparelho CARACTERIZADO pelo fato de que compreende: uma unidade de convolução rápida configurada para realizar filtragem de cada sinal de sub-banda de um primeiro grupo de sub-banda do sinal de multimídia; e uma unidade de processamento de linha de retardo com derivações configurada para realizar filtragem de cada sinal de sub-banda de um segundo grupo de sub-banda do sinal multimídia; em que a unidade de convolução rápida realiza a filtragem usando um conjunto de coeficientes de filtro de sub-banda para cada sub-banda do primeiro grupo de sub-banda, em que o conjunto de coeficientes de filtro de sub-banda é truncado a partir de um conjunto de coeficientes de filtro de protótipo de sub-banda de uma subbanda correspondente, e em que um comprimento do conjunto de coeficientes de filtro de sub-banda é determinado com base em uma ordem de filtro obtida, pelo menos parcialmente, usando informações características extraídas do conjunto de coeficientes de filtro de protótipo de sub-banda da sub-banda correspondente, e a ordem de filtro é determinada para ser variável em um domínio de frequência.
2. Aparelho, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o conjunto de coeficientes de filtro de sub-banda é composto de um ou mais coeficientes de filtro de sub-banda e um comprimento do conjunto de coeficientes de filtro de sub-banda de uma sub-banda específica é diferente de um comprimento do conjunto de coeficientes de filtro de sub-banda de outra sub-banda.
3. Aparelho, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que as informações características incluem informações de tempo de reverberação do conjunto de coeficientes de filtro de protótipo de sub-banda da subbanda correspondente, e a ordem de filtro têm um único valor para cada sub-banda.
4. Aparelho, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o conjunto de coeficientes de filtro de protótipo de sub-banda é obtido a partir de um conjunto de coeficientes de filtro de resposta de impulso em ambiente binaural (BRIR) correspondente ao sinal multimídia.
5. Aparelho, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o primeiro grupo de sub-banda é um grupo tendo baixas frequências com base na banda de frequência predeterminada e o segundo grupo de sub-banda é um grupo tendo altas frequências com base na banda de frequência predeterminada.
6. Aparelho, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a unidade de processamento de linha de retardo com derivações realiza filtragem de linha de retardo com derivações usando parâmetros de sub-banda extraídos de um conjunto de coeficientes de filtro de protótipo de sub-banda correspondente.
7. Aparelho, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que os parâmetros de sub-banda incluem informações de retardo para o conjunto de coeficientes de filtro de protótipo de sub-banda correspondente e informações de ganho correspondendo às informações de retardo.
8. Método para processar um sinal de multimídia, CARACTERIZADO pelo fato de que compreende: receber o sinal de multimídia; filtrar cada sinal de sub-banda de um primeiro grupo de sub-banda do sinal multimídia usando um conjunto de coeficientes de filtro de sub-banda, para cada sub-banda do primeiro grupo de sub-banda; e filtrar cada sinal de sub-banda de um segundo grupo de sub-banda do sinal de multimídia usando filtragem de linha de retardo com derivações, em que o conjunto de coeficientes de filtro de sub-banda é truncado a partir de um conjunto de coeficientes de filtro de protótipo de sub-banda de uma subbanda correspondente, e em que um comprimento do conjunto de coeficientes de filtro de sub-banda é determinado com base em uma ordem de filtro obtida, pelo menos parcialmente, usando informações características extraídas do conjunto de coeficientes de filtro de protótipo de sub-banda da sub-banda correspondente, e a ordem de filtro é determinada para ser variável em um domínio de frequência.
9. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que o conjunto de coeficientes de filtro de sub-banda é composto de um ou mais coeficientes de filtro de sub-banda e um comprimento do conjunto de coeficientes de filtro de sub-banda de uma sub-banda específica é diferente de um comprimento do conjunto de coeficientes de filtro de sub-banda de outra sub-banda.
10. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que as informações características incluem informações de tempo de reverberação do conjunto de coeficientes de filtro de protótipo de sub-banda da subbanda correspondente, e a ordem de filtro tem um único valor para cada sub-banda.
11. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que o conjunto de coeficientes de filtro de protótipo de sub-banda é obtido a partir de um conjunto de coeficientes de filtro de resposta de impulso em ambiente binaural (BRIR) correspondendo ao sinal multimídia.
12. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que o primeiro grupo de sub-banda é um grupo tendo baixas frequências com base em uma banda de frequência predeterminada e o segundo grupo de sub-banda é um grupo tendo altas frequências com base na banda de frequência predeterminada.
13. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que a filtragem por linha de retardo com derivações é realizada usando parâmetros de sub-banda extraídos de um conjunto de coeficientes de filtro de protótipo de sub-banda correspondente.
14. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que os parâmetros de sub-banda incluem informações de retardo para o conjunto de coeficientes de filtro de protótipo de sub-banda correspondente e informações de ganho correspondendo às informações de retardo.
BR112016005956A 2013-09-17 2014-09-17 Método e aparelho para processar um sinal de multimídia BR112016005956B8 (pt)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361878638P 2013-09-17 2013-09-17
US61/878.638 2013-09-17
KR10-2013-0125936 2013-10-22
KR20130125936 2013-10-22
US201361894442P 2013-10-23 2013-10-23
US61/894.442 2013-10-23
PCT/KR2014/008679 WO2015041478A1 (ko) 2013-09-17 2014-09-17 멀티미디어 신호 처리 방법 및 장치

Publications (3)

Publication Number Publication Date
BR112016005956A2 BR112016005956A2 (pt) 2017-09-05
BR112016005956B1 true BR112016005956B1 (pt) 2022-06-07
BR112016005956B8 BR112016005956B8 (pt) 2022-07-12

Family

ID=52689083

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016005956A BR112016005956B8 (pt) 2013-09-17 2014-09-17 Método e aparelho para processar um sinal de multimídia

Country Status (9)

Country Link
US (7) US10469969B2 (pt)
EP (6) EP3806498B1 (pt)
JP (1) JP6121052B2 (pt)
KR (6) KR101815079B1 (pt)
CN (4) CN105706467B (pt)
BR (1) BR112016005956B8 (pt)
CA (3) CA3194257A1 (pt)
ES (1) ES2932422T3 (pt)
WO (3) WO2015041477A1 (pt)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11665482B2 (en) 2011-12-23 2023-05-30 Shenzhen Shokz Co., Ltd. Bone conduction speaker and compound vibration device thereof
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
CN108806706B (zh) * 2013-01-15 2022-11-15 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
WO2015041477A1 (ko) 2013-09-17 2015-03-26 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
US10204630B2 (en) 2013-10-22 2019-02-12 Electronics And Telecommunications Research Instit Ute Method for generating filter for audio signal and parameterizing device therefor
WO2015058818A1 (en) * 2013-10-22 2015-04-30 Huawei Technologies Co., Ltd. Apparatus and method for compressing a set of n binaural room impulse responses
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
BR112016014892B1 (pt) 2013-12-23 2022-05-03 Gcoa Co., Ltd. Método e aparelho para processamento de sinal de áudio
EP4294055A1 (en) * 2014-03-19 2023-12-20 Wilus Institute of Standards and Technology Inc. Audio signal processing method and apparatus
CN108966111B (zh) 2014-04-02 2021-10-26 韦勒斯标准与技术协会公司 音频信号处理方法和装置
CN105448312B (zh) * 2014-06-12 2019-02-19 华为技术有限公司 音频同步播放方法、装置及***
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
CN112492501B (zh) * 2015-08-25 2022-10-14 杜比国际公司 使用呈现变换参数的音频编码和解码
EP3174316B1 (en) * 2015-11-27 2020-02-26 Nokia Technologies Oy Intelligent audio rendering
US10142755B2 (en) * 2016-02-18 2018-11-27 Google Llc Signal processing methods and systems for rendering audio on virtual loudspeaker arrays
US10492016B2 (en) * 2016-09-29 2019-11-26 Lg Electronics Inc. Method for outputting audio signal using user position information in audio decoder and apparatus for outputting audio signal using same
US10492018B1 (en) 2016-10-11 2019-11-26 Google Llc Symmetric binaural rendering for high-order ambisonics
CN106454643A (zh) * 2016-12-03 2017-02-22 邯郸学院 一种补偿频率可调的音频播放器
US9992602B1 (en) 2017-01-12 2018-06-05 Google Llc Decoupled binaural rendering
US10158963B2 (en) 2017-01-30 2018-12-18 Google Llc Ambisonic audio with non-head tracked stereo based on head position and time
US10009704B1 (en) 2017-01-30 2018-06-26 Google Llc Symmetric spherical harmonic HRTF rendering
DE102017102988B4 (de) 2017-02-15 2018-12-20 Sennheiser Electronic Gmbh & Co. Kg Verfahren und Vorrichtung zur Verarbeitung eines digitalen Audiosignals für binaurale Wiedergabe
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
WO2019031652A1 (ko) * 2017-08-10 2019-02-14 엘지전자 주식회사 3차원 오디오 재생 방법 및 재생 장치
WO2019054559A1 (ko) * 2017-09-15 2019-03-21 엘지전자 주식회사 Brir/rir 파라미터화(parameterization)를 적용한 오디오 인코딩 방법 및 파라미터화된 brir/rir 정보를 이용한 오디오 재생 방법 및 장치
US11109179B2 (en) * 2017-10-20 2021-08-31 Sony Corporation Signal processing device, method, and program
WO2019078034A1 (ja) 2017-10-20 2019-04-25 ソニー株式会社 信号処理装置および方法、並びにプログラム
US10499153B1 (en) * 2017-11-29 2019-12-03 Boomcloud 360, Inc. Enhanced virtual stereo reproduction for unmatched transaural loudspeaker systems
JP7102024B2 (ja) * 2018-04-10 2022-07-19 ガウディオ・ラボ・インコーポレイテッド メタデータを利用するオーディオ信号処理装置
JP7137694B2 (ja) 2018-09-12 2022-09-14 シェンチェン ショックス カンパニー リミテッド 複数の音響電気変換器を有する信号処理装置
EP4026123A4 (en) * 2019-09-03 2023-09-27 Dolby Laboratories Licensing Corporation AUDIO FILTER BANK WITH DECORELATION COMPONENTS
CN110853658B (zh) * 2019-11-26 2021-12-07 中国电影科学技术研究所 音频信号的下混方法、装置、计算机设备及可读存储介质
CN112336380A (zh) * 2020-10-29 2021-02-09 成都信息工程大学 一种基于Golay码的超声弹性成像应变估计方法
CN112770227B (zh) * 2020-12-30 2022-04-29 中国电影科学技术研究所 音频处理方法、装置、耳机和存储介质
US11568884B2 (en) * 2021-05-24 2023-01-31 Invictumtech, Inc. Analysis filter bank and computing procedure thereof, audio frequency shifting system, and audio frequency shifting procedure
KR102652643B1 (ko) * 2021-06-09 2024-03-29 코클 아이엔씨 오디오 음질 변환 장치 및 그의 제어방법
CN116095595B (zh) * 2022-08-19 2023-11-21 荣耀终端有限公司 音频处理方法和装置
KR20240057243A (ko) * 2022-10-24 2024-05-02 삼성전자주식회사 전자 장치 및 그 제어 방법

Family Cites Families (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5329587A (en) * 1993-03-12 1994-07-12 At&T Bell Laboratories Low-delay subband adaptive filter
US5371799A (en) 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
DE4328620C1 (de) * 1993-08-26 1995-01-19 Akg Akustische Kino Geraete Verfahren zur Simulation eines Raum- und/oder Klangeindrucks
WO1995034883A1 (fr) * 1994-06-15 1995-12-21 Sony Corporation Processeur de signaux et dispositif de reproduction sonore
JP2985675B2 (ja) * 1994-09-01 1999-12-06 日本電気株式会社 帯域分割適応フィルタによる未知システム同定の方法及び装置
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
KR20010030608A (ko) 1997-09-16 2001-04-16 레이크 테크놀로지 리미티드 청취자 주변의 음원의 공간화를 향상시키기 위한 스테레오헤드폰 디바이스에서의 필터링 효과의 이용
US6668061B1 (en) * 1998-11-18 2003-12-23 Jonathan S. Abel Crosstalk canceler
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
US8311809B2 (en) * 2003-04-17 2012-11-13 Koninklijke Philips Electronics N.V. Converting decoded sub-band signal into a stereo signal
SE0301273D0 (sv) * 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
US7680289B2 (en) * 2003-11-04 2010-03-16 Texas Instruments Incorporated Binaural sound localization using a formant-type cascade of resonators and anti-resonators
US7949141B2 (en) 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
KR100595202B1 (ko) * 2003-12-27 2006-06-30 엘지전자 주식회사 디지털 오디오 워터마크 삽입/검출 장치 및 방법
US7486498B2 (en) * 2004-01-12 2009-02-03 Case Western Reserve University Strong substrate alloy and compressively stressed dielectric film for capacitor with high energy density
WO2005086139A1 (en) 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
KR100634506B1 (ko) 2004-06-25 2006-10-16 삼성전자주식회사 저비트율 부호화/복호화 방법 및 장치
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
KR100617165B1 (ko) * 2004-11-19 2006-08-31 엘지전자 주식회사 워터마크 삽입/검출 기능을 갖는 오디오 부호화/복호화장치 및 방법
US7715575B1 (en) * 2005-02-28 2010-05-11 Texas Instruments Incorporated Room impulse response
EP1740016B1 (en) * 2005-06-28 2010-02-24 AKG Acoustics GmbH Method for the simulation of a room impression and/or sound impression
CA2621175C (en) 2005-09-13 2015-12-22 Srs Labs, Inc. Systems and methods for audio processing
JP5587551B2 (ja) 2005-09-13 2014-09-10 コーニンクレッカ フィリップス エヌ ヴェ オーディオ符号化
EP1927264B1 (en) 2005-09-13 2016-07-20 Koninklijke Philips N.V. Method of and device for generating and processing parameters representing hrtfs
KR101370365B1 (ko) 2005-09-13 2014-03-05 코닌클리케 필립스 엔.브이. 3d 사운드를 발생시키기 위한 방법 및 디바이스
US8443026B2 (en) 2005-09-16 2013-05-14 Dolby International Ab Partially complex modulated filter bank
US7917561B2 (en) 2005-09-16 2011-03-29 Coding Technologies Ab Partially complex modulated filter bank
WO2007049643A1 (ja) 2005-10-26 2007-05-03 Nec Corporation エコー抑圧方法及び装置
JP4637725B2 (ja) * 2005-11-11 2011-02-23 ソニー株式会社 音声信号処理装置、音声信号処理方法、プログラム
WO2007080211A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
CN101361119B (zh) * 2006-01-19 2011-06-15 Lg电子株式会社 处理媒体信号的方法和装置
CN101390443B (zh) 2006-02-21 2010-12-01 皇家飞利浦电子股份有限公司 音频编码和解码
KR100754220B1 (ko) 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
EP1994796A1 (en) 2006-03-15 2008-11-26 Dolby Laboratories Licensing Corporation Binaural rendering using subband filters
FR2899423A1 (fr) * 2006-03-28 2007-10-05 France Telecom Procede et dispositif de spatialisation sonore binaurale efficace dans le domaine transforme.
FR2899424A1 (fr) * 2006-03-28 2007-10-05 France Telecom Procede de synthese binaurale prenant en compte un effet de salle
KR101244910B1 (ko) * 2006-04-03 2013-03-18 삼성전자주식회사 시분할 입체 영상 디스플레이 장치 및 그 구동 방법
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
AR061807A1 (es) * 2006-07-04 2008-09-24 Coding Tech Ab Compresor de filtro y metodo para fabricar respuestas al impulso de filtro de subbanda comprimida
US7876903B2 (en) 2006-07-07 2011-01-25 Harris Corporation Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
EP1885154B1 (en) * 2006-08-01 2013-07-03 Nuance Communications, Inc. Dereverberation of microphone signals
US9496850B2 (en) 2006-08-04 2016-11-15 Creative Technology Ltd Alias-free subband processing
EP4325723A3 (en) 2006-10-25 2024-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating time-domain audio samples
CA2670864C (en) 2006-12-07 2015-09-29 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR20080076691A (ko) * 2007-02-14 2008-08-20 엘지전자 주식회사 멀티채널 오디오신호 복호화방법 및 그 장치, 부호화방법및 그 장치
KR100955328B1 (ko) 2007-05-04 2010-04-29 한국전자통신연구원 반사음 재생을 위한 입체 음장 재생 장치 및 그 방법
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
KR100899836B1 (ko) 2007-08-24 2009-05-27 광주과학기술원 실내 충격응답 모델링 방법 및 장치
CN101884065B (zh) 2007-10-03 2013-07-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成的方法
RU2443075C2 (ru) * 2007-10-09 2012-02-20 Конинклейке Филипс Электроникс Н.В. Способ и устройство для генерации бинаурального аудиосигнала
CN101136197B (zh) * 2007-10-16 2011-07-20 得理微电子(上海)有限公司 基于时变延迟线的数字混响处理器
KR100971700B1 (ko) * 2007-11-07 2010-07-22 한국전자통신연구원 공간큐 기반의 바이노럴 스테레오 합성 장치 및 그 방법과,그를 이용한 바이노럴 스테레오 복호화 장치
US8125885B2 (en) 2008-07-11 2012-02-28 Texas Instruments Incorporated Frequency offset estimation in orthogonal frequency division multiple access wireless networks
CA2732079C (en) 2008-07-31 2016-09-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Signal generation for binaural signals
TWI475896B (zh) 2008-09-25 2015-03-01 Dolby Lab Licensing Corp 單音相容性及揚聲器相容性之立體聲濾波器
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
KR20100062784A (ko) 2008-12-02 2010-06-10 한국전자통신연구원 객체 기반 오디오 컨텐츠 생성/재생 장치
US8660281B2 (en) 2009-02-03 2014-02-25 University Of Ottawa Method and system for a multi-microphone noise reduction
EP2237270B1 (en) 2009-03-30 2012-07-04 Nuance Communications, Inc. A method for determining a noise reference signal for noise compensation and/or noise reduction
KR20120006060A (ko) 2009-04-21 2012-01-17 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 합성
JP4893789B2 (ja) 2009-08-10 2012-03-07 ヤマハ株式会社 音場制御装置
US9432790B2 (en) * 2009-10-05 2016-08-30 Microsoft Technology Licensing, Llc Real-time sound propagation for dynamic sources
EP2365630B1 (en) * 2010-03-02 2016-06-08 Harman Becker Automotive Systems GmbH Efficient sub-band adaptive fir-filtering
CA2792452C (en) 2010-03-09 2018-01-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an input audio signal using cascaded filterbanks
KR101844511B1 (ko) 2010-03-19 2018-05-18 삼성전자주식회사 입체 음향 재생 방법 및 장치
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US8693677B2 (en) 2010-04-27 2014-04-08 Freescale Semiconductor, Inc. Techniques for updating filter coefficients of an adaptive filter
KR20120013884A (ko) 2010-08-06 2012-02-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 디코딩 장치, 및 신호 처리 시스템
NZ587483A (en) 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
CA3220202A1 (en) 2010-09-16 2012-03-22 Dolby International Ab Cross product enhanced subband block based harmonic transposition
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
EP2464145A1 (en) 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a downmixer
JP5857071B2 (ja) 2011-01-05 2016-02-10 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ・システムおよびその動作方法
EP2541542A1 (en) 2011-06-27 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
EP2503800B1 (en) 2011-03-24 2018-09-19 Harman Becker Automotive Systems GmbH Spatially constant surround sound
JP5704397B2 (ja) 2011-03-31 2015-04-22 ソニー株式会社 符号化装置および方法、並びにプログラム
CN103548077B (zh) 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
EP2530840B1 (en) * 2011-05-30 2014-09-03 Harman Becker Automotive Systems GmbH Efficient sub-band adaptive FIR-filtering
KR101809272B1 (ko) * 2011-08-03 2017-12-14 삼성전자주식회사 다 채널 오디오 신호의 다운 믹스 방법 및 장치
CN104604257B (zh) * 2012-08-31 2016-05-25 杜比实验室特许公司 用于在各种收听环境中渲染并且回放基于对象的音频的***
WO2014145893A2 (en) 2013-03-15 2014-09-18 Beats Electronics, Llc Impulse response approximation methods and related systems
US9674632B2 (en) 2013-05-29 2017-06-06 Qualcomm Incorporated Filtering with binaural room impulse responses
EP2840811A1 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
WO2015041477A1 (ko) 2013-09-17 2015-03-26 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
US10204630B2 (en) 2013-10-22 2019-02-12 Electronics And Telecommunications Research Instit Ute Method for generating filter for audio signal and parameterizing device therefor
BR112016014892B1 (pt) 2013-12-23 2022-05-03 Gcoa Co., Ltd. Método e aparelho para processamento de sinal de áudio
EP4294055A1 (en) 2014-03-19 2023-12-20 Wilus Institute of Standards and Technology Inc. Audio signal processing method and apparatus
JP6084264B1 (ja) 2015-09-28 2017-02-22 Kyb株式会社 スプール弁装置

Also Published As

Publication number Publication date
CA2924458C (en) 2021-08-31
EP3048815A1 (en) 2016-07-27
CA2924458A1 (en) 2015-03-26
KR101815082B1 (ko) 2018-01-04
ES2932422T3 (es) 2023-01-19
KR20160052575A (ko) 2016-05-12
CN108200530B (zh) 2020-06-12
US20210337335A1 (en) 2021-10-28
US20160249149A1 (en) 2016-08-25
EP3048816B1 (en) 2020-09-16
KR101815079B1 (ko) 2018-01-04
US11622218B2 (en) 2023-04-04
US20160198281A1 (en) 2016-07-07
US9578437B2 (en) 2017-02-21
CN108200530A (zh) 2018-06-22
WO2015041477A1 (ko) 2015-03-26
EP3048816A1 (en) 2016-07-27
KR102163266B1 (ko) 2020-10-08
US9961469B2 (en) 2018-05-01
JP6121052B2 (ja) 2017-04-26
US20200021936A1 (en) 2020-01-16
CN105706467A (zh) 2016-06-22
EP3048815A4 (en) 2017-05-31
CA3122726C (en) 2023-05-09
JP2016534586A (ja) 2016-11-04
EP3048814A1 (en) 2016-07-27
WO2015041478A1 (ko) 2015-03-26
CN105659630A (zh) 2016-06-08
US9584943B2 (en) 2017-02-28
CA3122726A1 (en) 2015-03-26
KR20180004317A (ko) 2018-01-10
KR102215129B1 (ko) 2021-02-10
EP4120699A1 (en) 2023-01-18
EP3048814A4 (en) 2017-05-31
KR20160048832A (ko) 2016-05-04
US10455346B2 (en) 2019-10-22
EP3048814B1 (en) 2019-10-23
KR20180004316A (ko) 2018-01-10
KR20170110738A (ko) 2017-10-11
EP3806498A1 (en) 2021-04-14
US20160219388A1 (en) 2016-07-28
US10469969B2 (en) 2019-11-05
US20160234620A1 (en) 2016-08-11
KR20160074458A (ko) 2016-06-28
WO2015041476A1 (ko) 2015-03-26
US11096000B2 (en) 2021-08-17
EP3048815B1 (en) 2020-11-11
KR101782916B1 (ko) 2017-09-28
CN105706467B (zh) 2017-12-19
BR112016005956A2 (pt) 2017-09-05
CA3194257A1 (en) 2015-03-26
CN105706468B (zh) 2017-08-11
EP3806498B1 (en) 2023-08-30
CN105659630B (zh) 2018-01-23
EP3048816A4 (en) 2017-05-31
US20180227692A1 (en) 2018-08-09
CN105706468A (zh) 2016-06-22
KR102159990B1 (ko) 2020-09-25
EP3767970B1 (en) 2022-09-28
BR112016005956B8 (pt) 2022-07-12
EP3767970A1 (en) 2021-01-20

Similar Documents

Publication Publication Date Title
KR102159990B1 (ko) 멀티미디어 신호 처리 방법 및 장치
KR101804744B1 (ko) 오디오 신호 처리 방법 및 장치
KR102157118B1 (ko) 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
KR102216657B1 (ko) 오디오 신호 처리 방법 및 장치
KR102230308B1 (ko) 멀티미디어 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B25A Requested transfer of rights approved

Owner name: GCOA CO., LTD. (KP)

B25K Entry of change of name and/or headquarter and transfer of application, patent and certificate of addition of invention: republication

Owner name: GCOA CO., LTD. (KP) ; WILUS INSTITUTE OF STANDARDS AND TECHNOLOGY INC. (KR)

Free format text: RETIFICACAO DO DESPACHO (25.1) ? TRANSFERENCIA DE TITULAR PUBLICADO NA RPI NO 2651, DE 26/10/2021, POR SE TRATAR DE UMA TRANSFERENCIA DE PARTE DOS DIREITOS.ONDE SE LE: GCOA CO., LTD.LEIA-SE: GCOA CO., LTD. E WILUS INSTITUTE OF STANDARDS AND TECHNOLOGY INC.

B09A Decision: intention to grant [chapter 9.1 patent gazette]
B09W Correction of the decision to grant [chapter 9.1.4 patent gazette]

Free format text: RETIFICACAO DO DESPACHO 9.1, PUBLICADO NA RPI 2674, DE 05/04/2022.

B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 17/09/2014, OBSERVADAS AS CONDICOES LEGAIS

B16C Correction of notification of the grant [chapter 16.3 patent gazette]

Free format text: REFERENTE A RPI 2683 DE 07/06/2022, QUANTO AO ITEM (73) ENDERECO DO TITULAR (CODIGO DO PAIS)