BR112021009306A2 - dispositivo e método de processamento de informações, e, programa. - Google Patents

dispositivo e método de processamento de informações, e, programa. Download PDF

Info

Publication number
BR112021009306A2
BR112021009306A2 BR112021009306-0A BR112021009306A BR112021009306A2 BR 112021009306 A2 BR112021009306 A2 BR 112021009306A2 BR 112021009306 A BR112021009306 A BR 112021009306A BR 112021009306 A2 BR112021009306 A2 BR 112021009306A2
Authority
BR
Brazil
Prior art keywords
objects
pass
data
processing device
information processing
Prior art date
Application number
BR112021009306-0A
Other languages
English (en)
Inventor
Yuki Yamamoto
Toru Chinen
Minoru Tsuji
Yoshiaki Oikawa
Original Assignee
Sony Group Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corporation filed Critical Sony Group Corporation
Publication of BR112021009306A2 publication Critical patent/BR112021009306A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

DISPOSITIVO E MÉTODO DE PROCESSAMENTO DE INFORMAÇÕES, E, PROGRAMA. A presente invenção se refere a um dispositivo e método de processamento de informações e a um programa com os quais é possível reduzir o número total de objetos enquanto minimiza o impacto sobre a qualidade sonora. O dispositivo de processamento de informações inclui: uma unidade de seleção de objeto de passagem que adquire dados de objetos L e seleciona objetos M de passagem configurados para emitir dados como estão a partir dos objetos L; e uma unidade de geração de objeto que gera dados de novos objetos N (N sendo menos que L ? M) com base nos dados de uma pluralidade de objetos de não passagem que não são os objetos de passagem dentre os objetos L. A presente invenção pode ser aplicada a um dispositivo de processamento de informações.

Description

1 / 37 DISPOSITIVO E MÉTODO DE PROCESSAMENTO DE INFORMAÇÕES, E, PROGRAMA [Campo Técnico]
[001] A presente tecnologia se refere a um dispositivo e método de processamento de informações e a um programa e, particularmente, a um dispositivo e método de processamento de informações e um programa que possibilitam reduzir o número total de objetos enquanto a influência sobre a qualidade sonora é suprimida. [Fundamentos da Técnica]
[002] Convencionalmente, conhece-se o padrão de áudio MPEG (Moving Picture Experts Group, grupo de especialistas em imagens com movimento) -H 3D (por exemplo, consultar NPL 1 e NPL 2).
[003] De acordo com o áudio 3D suportado pelo padrão de áudio MPEG-H 3D ou similares, é possível reproduzir uma direção, uma distância, uma dispersão de som, etc., de som tridimensional e alcançar uma reprodução de áudio que aumente a imersão do áudio em comparação com a reprodução estéreo convencional. [Lista de citação] [Literatura não patentária] [NPL 1]
[004] ISO/IEC 23008-3, áudio MPEG-H 3D [NPL 2]
[005] ISO/IEC 23008-3: 2015/emenda 3, áudio MPEG-H 3D fase 2 [Sumário] [Problemas técnicos]
[006] No entanto, de acordo com o áudio 3D, no caso em que o número de objetos incluídos no conteúdo se torna grande, o tamanho de dados do conteúdo geral se torna grande, e a quantidade de cálculo no processamento de decodificação, processamento de renderização, etc., dos
2 / 37 dados da pluralidade de objetos também se torna grande. Adicionalmente, por exemplo, no caso em que um limite superior do número de objetos é determinado por operação ou similares, o conteúdo que inclua um número de objetos que exceda o limite superior não pode ser manipulado na operação ou similares.
[007] Portanto, é concebível reduzir o número total de objetos descartando-se alguns dos objetos incluídos no conteúdo. No entanto, em tal caso, há a possibilidade de que a qualidade do som do conteúdo inteiro possa ser degradada pelo descarte dos objetos.
[008] A presente tecnologia foi feita em vista de uma situação como a descrita acima e possibilita reduzir o número total de objetos enquanto a influência sobre a qualidade sonora é suprimida. [Solução para os Problemas]
[009] Um dispositivo de processamento de informações de acordo com um aspecto da presente tecnologia inclui uma unidade de seleção de objeto de passagem configurada para adquirir dados de objetos L e selecionar, dentre os objetos L, objetos M de passagem cujos dados devem ser emitidos como estão e uma unidade de geração de objeto configurada para gerar, com base nos dados de múltiplos objetos de não passagem que não são os objetos de passagem dentre os objetos L, os dados de novos objetos N, N sendo menor do que (L - M)
[0010] Um método de processamento de informações ou um programa de acordo com um aspecto da presente tecnologia inclui as etapas de adquirir dados de objetos L, selecionar, dentre os objetos L, objetos M de passagem cujos dados devem ser emitidos como estão e gerar, com base nos dados de múltiplos objetos de não passagem que não são os objetos de passagem dentre os objetos L, os dados de novos objetos N, N sendo menor do que (L - M)
[0011] No um aspecto da presente tecnologia, os dados dos objetos L
3 / 37 são adquiridos, e os objetos M de passagem cujos dados devem ser emitidos como estão são selecionados dentre os objetos L. Então, com base nos dados dos múltiplos objetos de não passagem que não são os objetos de passagem dentre os objetos L, os dados dos novos objetos N são gerados, N sendo menor do que (L - M). [Breve Descrição dos Desenhos] [Figura 1]
[0012] A Figura 1 é uma vista que ilustra a determinação de uma posição de um alto-falante virtual. [Figura 2]
[0013] A Figura 2 é uma vista que retrata um exemplo de configuração de um dispositivo de processamento de pré-renderização. [Figura 3]
[0014] A Figura 3 é um fluxograma que ilustra um processo de emissão de objeto. [Figura 4]
[0015] A Figura 4 é uma vista que retrata um exemplo de configuração de um dispositivo de codificação. [Figura 5]
[0016] A Figura 5 é uma outra vista que retrata um exemplo de configuração de um dispositivo de codificação. [Figura 6]
[0017] A Figura 6 é uma vista que retrata um exemplo de configuração de um dispositivo de decodificação. [Figura 7]
[0018] A Figura 7 é uma vista que retrata um exemplo de configuração de um computador. [Descrição das modalidades]
[0019] A seguir, as modalidades às quais a presente tecnologia é
4 / 37 aplicada são descritas com referência aos desenhos. <Primeira modalidade> <Presente tecnologia>
[0020] A presente tecnologia classifica uma pluralidade de objetos em objetos de passagem e objetos de não passagem e gera novos objetos com base em objetos de não passagem para possibilitar a redução do número total dos objetos enquanto a influência sobre a qualidade sonora é suprimida.
[0021] Deve-se observar que, na presente tecnologia, um objeto pode ser qualquer coisa desde que tenha dados de objeto, tal como um objeto de áudio ou um objeto de imagem.
[0022] Os dados de objeto aqui significam, por exemplo, um sinal de objeto e metadados do objeto.
[0023] Em particular, por exemplo, se o objeto for um objeto de áudio, dados do objeto de áudio incluem metadados e um sinal de áudio como um sinal de objeto e, se o objeto for um objeto de imagem, dados do objeto de imagem incluem metadados e um sinal de imagem como um sinal de objeto.
[0024] A descrição a seguir é dada tomando-se como exemplo um caso em que o objeto é um objeto de áudio.
[0025] No caso em que o objeto é um objeto de áudio, um sinal de áudio e metadados do objeto são manipulados como os dados do objeto.
[0026] Aqui, os metadados incluem, por exemplo, informações de posição indicativas de uma posição de um objeto em um espaço tridimensional, informações de prioridade indicativas de um grau de prioridade do objeto, informações de ganho de um sinal de áudio do objeto, informações de dispersão indicativas de uma dispersão de uma imagem de som do som do objeto, etc.
[0027] Adicionalmente, as informações de posição do objeto incluem, por exemplo, um raio indicativo de uma distância em relação a uma posição determinada como uma referência ao objeto, um ângulo horizontal indicativo
5 / 37 de uma posição do objeto em uma direção horizontal e um ângulo vertical indicativo de uma posição do objeto em uma direção vertical.
[0028] A presente tecnologia pode ser aplicada, por exemplo, a um dispositivo de processamento de pré-renderização que recebe uma pluralidade de objetos incluídos no conteúdo, mais particularmente, recebe dados dos objetos, como uma entrada ao mesmo e emite um número apropriado de objetos de acordo com a entrada, mais particularmente, emite dados dos objetos.
[0029] A seguir, o número de objetos no momento da inserção é representado por nobj_in, e o número de objetos no momento da emissão é representado por nobj_out. Em particular, nobj_out < nobj_in é satisfeito aqui. Isto é, o número de objetos a serem emitidos é diminuído em relação ao número de objetos a serem inseridos.
[0030] Na presente tecnologia, alguns dos nobj_in objetos que foram inseridos são determinados como objetos cujos dados devem ser emitidos como estão sem qualquer alteração, isto é, como objetos que devem passar. Na descrição a seguir, um objeto como esse que deve passar é chamado de um objeto de passagem.
[0031] Adicionalmente, objetos que não são determinados como objetos de passagem dentre os nobj_in objetos inseridos são determinados como objetos de não passagem que não são os objetos de passagem. Na presente tecnologia, dados de objetos de não passagem são usados para geração de dados de novos objetos.
[0032] Dessa maneira, se nobj_in objetos são inseridos, os objetos são classificados como objetos de passagem e objetos de não passagem.
[0033] Então, com base nos objetos determinados como objetos de não passagem, um número de novos objetos menor que o número total dos objetos de não passagem é gerado, e os dados dos novos objetos gerados e os dados dos objetos de passagem são emitidos.
6 / 37
[0034] Desse modo, de acordo com a presente tecnologia, nobj_out objetos menos que nobj_in entradas são emitidos, e a redução do número total de objetos é implementada.
[0035] A seguir, presume-se que o número de objetos a serem determinados como objetos de passagem é nobj_dynamic. Por exemplo, presume-se que o número de objetos de passagem, isto é, nobj_dynamic, pode ser estabelecido por um usuário ou similares dentro de uma faixa tal que satisfaça uma condição indicada pela seguinte expressão (1). [Matemática 1]
[0036] 0 ≤ nobj_dynamic < nobj_out < nobj_in ... (1)
[0037] De acordo com a condição indicada pela expressão (1), nobj_dynamic, que é o número de objetos de passagem, é igual ou maior que 0 mas menor que nobj_out.
[0038] Por exemplo, nobj_dynamic, que é o número de objetos de passagem, pode ser determinado previamente ou designado por uma operação de inserção de um usuário ou similares. No entanto, nobj_dynamic, que é o número de objetos de passagem, pode também ser determinado dinamicamente de modo que nobj_dynamic se torne igual ou menor que um número máximo determinado previamente, com base na quantidade de dados (tamanho de dados) do conteúdo inteiro, na quantidade de cálculo do processamento mediante decodificação, etc. Em tal caso, o número máximo determinado previamente é menor que nobj_out.
[0039] Deve-se observar que a quantidade de dados do conteúdo inteiro é uma quantidade total de dados (tamanho de dados) dos metadados e sinais de áudio dos objetos de passagem e metadados e sinais de áudio dos objetos a serem recém gerados. Adicionalmente, a quantidade de cálculo de processamento mediante decodificação que deve ser levada em consideração no momento da determinação de nobj_dynamic pode ser apenas uma quantidade de cálculo de processamento de decodificação dos dados
7 / 37 codificados (metadados e sinal de áudio) dos objetos ou pode ser o total de uma quantidade de cálculo de processamento de decodificação e uma quantidade de cálculo de processamento de renderização.
[0040] Além disso, não somente nobj_dynamic, que é o número de objetos de passagem, como também nobj_out, que é o número de objetos a serem finalmente emitidos, pode ser determinado com base na quantidade de dados do conteúdo inteiro ou na quantidade de cálculo de processamento mediante decodificação, ou nobj_out pode ser designado pelo usuário ou similares. Adicionalmente, nobj_out pode do contrário ser determinado previamente.
[0041] Aqui, é descrito um exemplo particular de um método de seleção dos objetos de passagem.
[0042] Primeiro, na descrição a seguir, ifrm é usado como um índice indicativo de um intervalo de tempo de um sinal de áudio, e iobj é usado como um índice indicativo de um objeto. Deve-se observar que, na descrição a seguir, um intervalo de tempo cujo índice é ifrm é chamado de intervalo de tempo ifrm, e um objeto cujo índice é iobj é chamado de objeto iobj.
[0043] Adicionalmente, as informações de prioridade estão incluídas nos metadados de cada objeto, e as informações de prioridade incluídas nos metadados de um objeto iobj em um intervalo de tempo ifrm são representadas como priority_raw[ifrm][iobj]. Em particular, presume-se que os metadados providos previamente a um objeto incluem informações de prioridade priority_raw[ifrm][iobj].
[0044] Em tal caso, por exemplo, na presente tecnologia, um valor das informações de prioridade priority[ifrm][iobj] de cada objeto que é indicado pela expressão (2) a seguir é calculado para cada intervalo de tempo. [Matemática 2] priority[ifrm][iobj] = priority_raw[ifrm][iobj] + peso × priority_gen[ifrm][iobj] ... (2)
8 / 37
[0045] Deve-se observar que, na expressão (2), priority_gen[ifrm][iobj] é as informações de prioridade do objeto iobj no intervalo de tempo ifrm que são calculadas com base em informações que não a priority_raw[ifrm][iobj].
[0046] Por exemplo, para o cálculo das informações de prioridade priority_gen[ifrm][iobj], não são somente as informações de ganho, informações de posição e informações de dispersão que estão incluídas nos metadados, como também um sinal de áudio de um objeto etc. podem ser usadas sozinhas ou em qualquer combinação. Adicionalmente, não somente as informações de ganho, informações de posição, informações de dispersão e um sinal de áudio em um intervalo de tempo atual, como também informações de ganho, informações de posição, informações de dispersão e um sinal de áudio em um intervalo de tempo precedente, tal como um intervalo de tempo imediatamente anterior ao intervalo de tempo atual, podem ser usados para calcular as informações de prioridade priority_gen[ifrm][iobj] no intervalo de tempo atual.
[0047] Como um método particular para o cálculo das informações de prioridade priority_gen[ifrm][iobj], é suficiente usar o método descrito, por exemplo, na publicação de patente PCT nº WO2018/198789.
[0048] Em particular, é possível usar, como as informações de prioridade priority_gen[ifrm][iobj], um recíproco de um raio que configura as informações de posição incluídas nos metadados, de modo que, por exemplo, uma prioridade mais alta seja estabelecida a um objeto mais próximo do usuário. Como uma alternativa, como as informações de prioridade priority_gen[ifrm][iobj], um recíproco de um valor absoluto de um ângulo horizontal que configura as informações de posição incluídas nos metadados pode ser usado de modo que, por exemplo, uma prioridade mais alta seja estabelecida a um objeto posicionado mais próximo da frente do usuário.
[0049] Como uma outra alternativa, a velocidade móvel de um objeto
9 / 37 pode ser usada como as informações de prioridade priority_gen[ifrm][iobj], com base nas informações de posição incluídas nos metadados em intervalos de tempo diferentes entre si. Como uma alternativa adicional, as próprias informações de ganho incluídas nos metadados podem ser usadas como as informações de prioridade priority_gen[ifrm][iobj].
[0050] Como ainda outra alternativa, por exemplo, um valor ao quadrado ou similares das informações de dispersão incluídas nos metadados pode ser usado como as informações de prioridade priority_gen[ifrm][iobj], ou as informações de prioridade priority_gen[ifrm][iobj] podem ser calculadas com base nas informações de atributo de um objeto.
[0051] Adicionalmente, na expressão (2), o peso é um parâmetro que determina uma razão entre as informações de prioridade priority_raw[ifrm][iobj] e as informações de prioridade priority_gen[ifrm][iobj] no cálculo das informações de prioridade priority[ifrm][iobj] e é definido, por exemplo, em 0,5.
[0052] Deve-se observar que, no padrão de áudio MPEG-H 3D, as informações de prioridade priority_raw[ifrm][iobj] não são aplicadas a um objeto em alguns casos e, portanto, em tal caso, é suficiente se o valor das informações de prioridade priority_raw[ifrm][iobj] for definido em 0 para realizar o cálculo da expressão (2).
[0053] Após as informações de prioridade priority[ifrm][iobj] de cada objeto serem calculadas de acordo com a expressão (2), as informações de prioridade priority[ifrm][iobj] dos respectivos objetos são classificadas na ordem descendente do valor, para cada intervalo de tempo ifrm. Então, nobj_dynamic objetos superiores com um valor comparativamente alto das informações de prioridade priority[ifrm][iobj] são selecionados como objetos de passagem no intervalo de tempo ifrm enquanto os objetos remanescentes são determinados como objetos de não passagem.
[0054] Em outras palavras, selecionando-se nobj_dynamic objetos na
10 / 37 ordem descendente das informações de prioridade priority[ifrm][iobj], nobj_in objetos são classificados em nobj_dynamic objetos de passagem e (nobj_in - nobj_dynamic) objetos de não passagem.
[0055] Após a classificação ser realizada, no que se refere aos nobj_dynamic objetos de passagem, metadados e sinais de áudio dos objetos de passagem são emitidos como estão, a um estágio subsequente.
[0056] Por outro lado, no que se refere aos (nobj_in - nobj_dynamic) objetos de não passagem, o processamento de renderização, nomeadamente, o processamento de pré-renderização, é realizado nos objetos de não passagem. Consequentemente, metadados e sinais de áudio de (nobj_out - nobj_dynamic) novos objetos são gerados.
[0057] Em particular, por exemplo, no que se refere a cada objeto de não passagem, é realizado processamento de renderização por VBAP (Vector Base Amplitude Panning, panorama sonoro baseado em vetores), e os objetos de não passagem são renderizados a (nobj_out - nobj_dynamic) auto-falantes virtuais. Aqui, os alto-falantes virtuais correspondem aos novos objetos, e as posições de disposição dos alto-falantes virtuais em um espaço tridimensional são dispostas de modo a serem diferentes entre si.
[0058] Por exemplo, presume-se que spk é um índice indicativo de um alto-falante virtual e que um alto-falante virtual indicado pelo índice spk é representado como um alto-falante virtual spk. Adicionalmente, presume-se que um sinal de áudio de um objeto de não passagem cujo índice seja iobj em um intervalo de tempo ifrm é representado como sig[ifrm][iobj].
[0059] Em tal caso, no que se refere a cada objeto de não passagem iobj, é realizado VBAP com base nas informações de posição incluídas nos metadados e na posição de um alto-falante virtual no espaço tridimensional. Consequentemente, para cada objeto de não passagem iobj, é obtido um ganho gain[ifrm][iobj][spk] de cada um dos (nobj_out - nobj_dynamic) alto- falantes virtuais spk.
11 / 37
[0060] Então, para cada alto-falante virtual spk, é calculada a soma dos sinais de áudio sig[ifrm][iobj] dos respectivos objetos de não passagem iobj que são multiplicados pelos ganhos gain[ifrm][iobj][spk] dos alto- falantes virtuais spk, e um sinal de áudio obtido como resultado do cálculo é usado como um sinal de áudio de um novo objeto correspondente ao alto- falante virtual spk.
[0061] Por exemplo, a posição de um alto-falante virtual correspondente a um novo objeto é determinada pelo método k-means. Em particular, as informações de posição incluídas nos metadados dos objetos de não passagem são divididas em (nobj_out - nobj_dynamic) clusters para cada intervalo de tempo pelo método k-means, e a posição do centro de cada cluster é determinada como a posição de um alto-falante virtual.
[0062] Consequentemente, no caso em que nobj_in = 24, nobj_dynamic = 5 e nobj_out = 10, a posição de um alto-falante virtual é determinada, por exemplo, da maneira retratada na Figura 1. Em tal caso, a posição do alto-falante virtual pode mudar dependendo do intervalo de tempo.
[0063] Na Figura 1, um círculo não indicado por hachuras (linhas inclinadas) representa um objeto de não passagem, e tais objetos de não passagem são dispostos em posições indicadas pelas informações de posição incluídas nos metadados em um espaço tridimensional.
[0064] No exemplo, tal classificação como descrita acima é realizada para cada intervalo de tempo, e nobj_dynamic (= 5) objetos de passagem são selecionados enquanto os (nobj_in - nobj_dynamic (= 24 - 5 = 19)) objetos remanescentes são determinados como objetos de não passagem.
[0065] Aqui, visto que o número dos alto-falantes virtuais, isto é, (nobj_out - nobj_dynamic), é 10 - 5 = 5, as informações de posição dos 19 objetos de não passagem são divididas em cinco clusters, e as posições dos centros dos respectivos clusters são determinadas como as posições dos alto- falantes virtuais SP11-1 a SP11-5.
12 / 37
[0066] Na Figura 1, os alto-falantes virtuais SP11-1 a SP11-5 são dispostos nas posições dos centros dos clusters correspondentes aos alto- falantes virtuais. Deve-se observar que, no caso em que não há necessidade de distinguir especificamente os alto-falantes virtuais SP11-1 a SP11-5 entre si, cada um deles é chamado meramente de alto-falante virtual SP11 em alguns casos.
[0067] No processamento de renderização, os 19 objetos de não passagem são renderizados a cinco alto-falantes virtuais SP11 obtidos de tal maneira.
[0068] Deve-se observar que, embora um sinal de áudio de um novo objeto correspondente ao alto-falante virtual SP11 seja determinado pelo processamento de renderização, as informações de posição incluídas nos metadados do novo objeto são informações indicativas da posição do alto- falante virtual SP11 correspondente ao novo objeto.
[0069] Adicionalmente, as informações incluídas nos metadados do novo objeto que não as informações de posição, tais como as informações de prioridade, informações de ganho e informações de dispersão, são um valor médio, um valor máximo, ou similares, das informações de metadados dos objetos de não passagem incluídas em um cluster correspondente ao novo objeto. Em outras palavras, por exemplo, um valor médio ou um valor máximo das informações de ganho dos objetos de não passagem pertencente ao cluster é determinado como informações de ganho incluídas nos metadados do novo objeto correspondente ao cluster.
[0070] Após os sinais de áudio e metadados dos (nobj_out - nobj_dynamic = 5) novos objetos serem gerados da maneira descrita acima, os sinais de áudio e metadados dos novos objetos são emitidos a um estágio subsequente.
[0071] Como resultado, no exemplo, os sinais de áudio e metadados dos (nobj_dynamic = 5) objetos de passagem e os sinais de áudio e metadados
13 / 37 dos (nobj_out - nobj_dynamic = 5) novos objetos são, assim, emitidos ao estágio subsequente.
[0072] Em outras palavras, os sinais de áudio e metadados dos (nobj_out = 10) objetos são emitidos no total.
[0073] Desse modo, nobj_out objetos menos do que nobj_in objetos inseridos são emitidos, de forma que o número total de objetos possa ser reduzido.
[0074] Consequentemente, o tamanho de dados do conteúdo inteiro incluindo uma pluralidade de objetos pode ser reduzido, e a quantidade de cálculo do processamento de decodificação e do processamento de renderização para os objetos no estágio subsequente também pode ser reduzida. Adicionalmente, mesmo no caso em que nobj_in, isto é, o número de objetos da entrada, excede o número de objetos que é determinado pela operação ou similares, visto que o número de saídas pode ser igualado ao número dos objetos que é determinado pela operação ou similares, se torna possível manipular o conteúdo incluindo dados de objeto emitidos pela operação ou similares.
[0075] Além disso, de acordo com a presente tecnologia, um objeto com informações de alta prioridade priority[ifrm][iobj] é usado como um objeto de passagem, e um sinal de áudio e metadados do objeto são emitidos como estão, de forma que não ocorra degradação da qualidade sonora do som do conteúdo no objeto de passagem.
[0076] Adicionalmente, no que se refere a objetos de não passagem, visto que novos objetos são gerados com base nos objetos de não passagem, a influência sobre a qualidade sonora do som do conteúdo pode ser minimizada. Em particular, se novos objetos forem gerados usando-se objetos de não passagem, os componentes de som de todos os objetos são incluídos no som do conteúdo.
[0077] Consequentemente, em comparação com um caso em que, por
14 / 37 exemplo, um número de objetos que podem ser manipulados é deixado enquanto os outros objetos são descartados, a influência sobre a qualidade sonora do som do conteúdo pode ser suprimida.
[0078] De acordo com a presente tecnologia, o número total de objetos pode ser suprimido enquanto a influência sobre a qualidade sonora é suprimida da maneira descrita acima.
[0079] Deve-se observar que, embora a descrição precedente seja dirigida a um exemplo no qual a posição de um alto-falante virtual é determinada pelo método k-means, a posição de um alto-falante virtual pode ser determinada de qualquer modo.
[0080] Por exemplo, o agrupamento (clustering) de objetos de não passagem pode ser realizado por um método que não o método k-means de acordo com um grau de concentração dos objetos de não passagem em um espaço tridimensional, e a posição do centro de cada grupo, uma posição média das posições dos objetos de não passagem pertencentes a um grupo, ou similares, pode ser determinada como a posição de um alto-falante virtual. Deve-se observar que o grau de concentração de objetos em um espaço tridimensional indica o grau no qual os objetos dispostos em um espaço tridimensional estão concentrados (aglomerados).
[0081] Adicionalmente, de acordo com o grau de concentração de objetos de não passagem, o número de grupos mediante o agrupamento pode ser determinado de modo a ser um número predeterminado menor que (nobj_in - nobj_dynamic).
[0082] Do contrário, mesmo no caso em que o método k-means é usado, o número de objetos a serem recém gerados pode ser determinado de modo que seja igual ou menor que um número máximo determinado previamente, de acordo com um grau de concentração de posições de objetos de não passagem, uma operação de designação de número por parte do usuário, uma quantidade de dados (tamanho de dados) do conteúdo inteiro, ou
15 / 37 uma quantidade de cálculo do processamento mediante decodificação. Em tal caso, é suficiente se o número de objetos a serem recém gerados for menor do que (nobj_in - nobj_dynamic) e, assim, a condição da expressão (1) descrita acima no presente documento é satisfeita.
[0083] Adicionalmente, a posição de um alto-falante virtual pode ser uma posição fixa determinada previamente. Em tal caso, por exemplo, se a posição de cada alto-falante virtual for estabelecida em uma posição de disposição de cada alto-falante na disposição de alto-falantes de 22 canais, a manipulação de um novo objeto é facilitada em um estágio subsequente. Do contrário, as posições de vários alto-falantes virtuais dentre uma pluralidade de alto-falantes virtuais podem ser posições fixas determinadas previamente enquanto as posições dos alto-falantes virtuais remanescentes são determinadas pelo método k-means ou similares.
[0084] Adicionalmente, embora seja descrito aqui um exemplo em que todos os objetos que não são determinados como objetos de passagem são usados como objetos de não passagem, alguns objetos podem ser descartados sem serem usados tanto como objetos de passagem quanto como objetos de não passagem. Em tal caso, um número predeterminado de objetos inferiores com um valor inferior das informações de prioridade priority[ifrm][iobj] pode ser descartado, ou objetos com um valor das informações de prioridade priority[ifrm][iobj] que é igual ou menor que um valor de limiar predeterminado podem ser descartados.
[0085] Por exemplo, no caso em que o conteúdo incluindo uma pluralidade de objetos é o som de um filme ou similares, alguns dos objetos têm uma significância tão baixa que, mesmo que sejam descartados, isso tem pouca influência sobre a qualidade sonora do som do conteúdo obtido finalmente. Consequentemente, em tal caso, mesmo se somente parte dos objetos que não são determinados como objetos de passagem for usada como objetos de não passagem, isso tem pouca influência sobre a qualidade do som.
16 / 37
[0086] Em contrapartida, por exemplo, no caso em que o conteúdo incluindo uma pluralidade de objetos é música ou similares, visto que um objeto com uma significância baixa não é incluído na maioria dos casos, é importante usar, como objetos de não passagem, todos os objetos que não são determinados como objetos de passagem a fim de suprimir a influência sobre a qualidade sonora.
[0087] Embora a descrição precedente seja dirigida a um exemplo em que um objeto de passagem é selecionado com base nas informações de prioridade, um objeto de passagem pode ser de outro modo selecionado com base em um grau de concentração (grau de aglomeração) dos objetos em um espaço tridimensional.
[0088] Em tal caso, por exemplo, o agrupamento de objetos é realizado com base nas informações de posição incluídas nos metadados dos respectivos objetos. Então, a classificação dos objetos é realizada com base em um resultado do agrupamento.
[0089] Em particular, por exemplo, é possível determinar, como um objeto de passagem, um objeto cuja distância em relação a qualquer outro objeto é igual ou maior do que um valor predeterminado e determinar, como um objeto de não passagem, um objeto cuja distância em relação a outros objetos é menor do que o valor predeterminado.
[0090] Adicionalmente, no caso em que é realizado clustering (agrupamento) pelo método k-means ou similares com base nas informações de posição incluídas nos metadados dos respectivos objetos e em que somente um objeto pertence a um cluster, o objeto pertencente ao cluster pode ser determinado como um objeto de passagem.
[0091] Em tal caso, no que se refere a um cluster ao qual pertence uma pluralidade de objetos, todos os objetos pertencentes ao cluster podem ser determinados como objetos de não passagem, ou um objeto cujo grau de prioridade indicado pelas informações de prioridade seja o mais alto dentre os
17 / 37 objetos pertencentes ao cluster pode ser determinado como um objeto de passagem enquanto os objetos remanescentes são determinados como objetos de não passagem.
[0092] No caso em que um objeto de passagem é selecionado dependendo de um grau de concentração ou similares dessa maneira, nobj_dynamic, que é o número de objetos de passagem, pode também ser determinado dinamicamente de acordo com um resultado do agrupamento ou clustering, uma quantidade de dados (tamanho de dados) do conteúdo inteiro, uma quantidade de cálculo do processamento mediante decodificação, ou similares.
[0093] Adicionalmente, além da geração de um novo objeto por processamento de renderização por VBAP ou similares, um valor médio, um valor de acoplamento linear ou similares de sinais de áudio de objetos de não passagem podem ser usados como um sinal de áudio de um novo objeto. O método de geração de um novo objeto usando-se um valor médio ou similares é útil especialmente no caso em que apenas um objeto deve ser recém gerado. <Exemplo de configuração de dispositivo de processamento de pré- renderização>
[0094] A seguir, é descrito um dispositivo de processamento de pré- renderização ao qual a presente tecnologia descrita acima é aplicada. Tal dispositivo de processamento de pré-renderização como descrito acima é configurado, por exemplo, da maneira retratada na Figura 2.
[0095] Um dispositivo de processamento de pré-renderização 11 retratado na Figura 2 é um dispositivo de processamento de informações que recebe dados de uma pluralidade de objetos como uma entrada ao mesmo e que emite dados de um número de objetos menor do que a entrada. O dispositivo de processamento de pré-renderização 11 inclui uma unidade de cálculo de prioridade 21, uma unidade de seleção de objeto de passagem 22 e uma unidade de geração de objeto 23.
18 / 37
[0096] No dispositivo de processamento de pré-renderização 11, os dados de nobj_in objetos, isto é, metadados e sinais de áudio dos objetos, são providos à unidade de cálculo de prioridade 21.
[0097] Adicionalmente, as informações de número indicativas dos nobj_in, nobj_out e nobj_dynamic, que são respectivamente o número de objetos da entrada, o número de objetos da saída e o número de objetos de passagem, são providas à unidade de seleção de objeto de passagem 22 e à unidade de geração de objeto 23.
[0098] A unidade de cálculo de prioridade 21 calcula as informações de prioridade priority[ifrm][iobj] de cada objeto, com base nos metadados e sinal de áudio providos de cada objeto, e provê as informações de prioridade priority[ifrm][iobj], metadados e sinal de áudio de cada objeto à unidade de seleção de objeto de passagem 22.
[0099] À unidade de seleção de objeto de passagem 22, os metadados, os sinais de áudio e as informações de prioridade priority[ifrm][iobj] dos objetos são providos pela unidade de cálculo de prioridade 21, e as informações de número também são providas a partir de fora. Em outras palavras, a unidade de seleção de objeto de passagem 22 adquire os dados de objeto e as informações de prioridade priority[ifrm][iobj] da unidade de cálculo de prioridade 21 e também adquire as informações de número a partir de fora.
[00100] A unidade de seleção de objeto de passagem 22 seleciona um objeto de passagem com base nas informações de número providas e nas informações de prioridade priority[ifrm][iobj] providas pela unidade de cálculo de prioridade 21. A unidade de seleção de objeto de passagem 22 emite os metadados e sinais de áudio dos objetos de passagem providos pela unidade de cálculo de prioridade 21 ao estágio subsequente como estão e provê os metadados e sinais de áudio dos objetos de não passagem providos pela unidade de cálculo de prioridade 21 à unidade de geração de objeto 23.
19 / 37
[00101] A unidade de geração de objeto 23 gera metadados e um sinal de áudio de um novo objeto com base nas informações de número providas e nos metadados e sinal de áudio de um objeto de não passagem provido pela unidade de seleção de objeto de passagem 22 e emite os metadados e sinal de áudio do novo objeto ao estágio subsequente. <Descrição do processo de emissão de objeto>
[00102] A seguir, é descrita a operação do dispositivo de processamento de pré-renderização 11. Em particular, um processo de emissão de objeto pelo dispositivo de processamento de pré-renderização 11 é descrito abaixo com referência a um fluxograma da Figura 3.
[00103] Na etapa S11, a unidade de cálculo de prioridade 21 calcula as informações de prioridade priority[ifrm][iobj] de cada objeto, com base nos metadados e sinal de áudio providos de cada objeto em um intervalo de tempo predeterminado.
[00104] Por exemplo, a unidade de cálculo de prioridade 21 calcula as informações de prioridade priority_gen[ifrm][iobj] para cada objeto com base nos metadados e no sinal de áudio e realiza o cálculo da expressão (2) com base nas informações de prioridade priority_raw[ifrm][iobj] incluídas nos metadados e nas informações de prioridade calculadas priority_gen[ifrm][iobj], calculando, assim, as informações de prioridade priority[ifrm][iobj].
[00105] A unidade de cálculo de prioridade 21 provê as informações de prioridade priority[ifrm][iobj], metadados e sinal de áudio de cada objeto à unidade de seleção de objeto de passagem 22.
[00106] Na etapa S12, a unidade de seleção de objeto de passagem 22 seleciona nobj_dynamic objetos de passagem dos nobj_in objetos com base nas informações de número providas e nas informações de prioridade priority[ifrm][iobj] providas pela unidade de cálculo de prioridade 21. Em outras palavras, é realizada a classificação dos objetos.
20 / 37
[00107] Em particular, a unidade de seleção de objeto de passagem 22 realiza a classificação das informações de prioridade priority[ifrm][iobj] dos respectivos objetos para selecionar nobj_dynamic objetos superiores com um valor comparativamente alto das informações de prioridade priority[ifrm][iobj] como objetos de passagem. Em tal caso, embora todos os objetos que não são determinados como objetos de passagem dentre os nobj_in objetos inseridos sejam determinados como objetos de não passagem, somente parte dos objetos que não são objetos de passagem podem ser determinados como objetos de não passagem.
[00108] Na etapa S13, a unidade de seleção de objeto de passagem 22 emite, ao estágio subsequente, os metadados e sinais de áudio dos objetos de passagem selecionados pelo processamento na etapa S12 dentre os metadados e sinais de áudio dos respectivos objetos providos pela unidade de cálculo de prioridade 21.
[00109] Adicionalmente, a unidade de seleção de objeto de passagem 22 provê os metadados e sinal de áudio dos (nobj_in - nobj_dynamic) objetos de não passagem obtidos pela classificação dos objetos à unidade de geração de objeto 23.
[00110] Deve-se observar que, embora seja descrito aqui um exemplo no qual a classificação dos objetos é realizada com base nas informações de prioridade, um objeto de passagem também pode ser selecionado com base em um grau de concentração das posições dos objetos ou similares como descrito acima.
[00111] Na etapa S14, a unidade de geração de objeto 23 determina as posições dos (nobj_out - nobj_dynamic) alto-falantes virtuais com base nas informações de número providas e nos metadados e sinais de áudio dos objetos de não passagem providos pela unidade de seleção de objeto de passagem 22.
[00112] Por exemplo, a unidade de geração de objeto 23 realiza o
21 / 37 clustering das informações de posição dos objetos de não passagem pelo método k-means e determina a posição do centro de cada um dos (nobj_out - nobj_dynamic) clusters obtidos como resultado do clustering, como uma posição de um alto-falante virtual correspondente ao cluster.
[00113] Deve-se observar que o método de determinação da posição de um alto-falante virtual não se limita ao método k-means, e tal posição pode ser determinada por outros métodos, ou uma posição fixa determinada previamente pode ser determinada como a posição de um alto-falante virtual.
[00114] Na etapa S15, a unidade de geração de objeto 23 realiza o processamento de renderização com base nos metadados e sinais de áudio dos objetos de não passagem providos pela unidade de seleção de objeto de passagem 22 e nas posições dos alto-falantes virtuais obtidas na etapa S14.
[00115] Por exemplo, a unidade de geração de objeto 23 realiza VBAP como o processamento de renderização para calcular um ganho gain[ifrm][iobj][spk] de cada alto-falante virtual. Adicionalmente, para cada alto-falante virtual, a unidade de geração de objeto 23 calcula a soma dos sinais de áudio sig[ifrm][iobj] dos objetos de não passagem multiplicada pelos ganhos gain[ifrm][iobj][spk] e determina um sinal de áudio obtido como resultado do cálculo como um sinal de áudio de um novo objeto correspondente ao alto-falante virtual.
[00116] Adicionalmente, a unidade de geração de objeto 23 gera metadados do novo objeto com base em um resultado do clustering obtido mediante a determinação da posição do alto-falante virtual e os metadados dos objetos de não passagem.
[00117] Consequentemente, metadados e sinais de áudio são obtidos em relação a (nobj_out - nobj_dynamic) novos objetos. Deve-se observar que, como o método de geração de um sinal de áudio do novo objeto, o processamento de renderização que não o VBAP também pode ser realizado, por exemplo.
22 / 37
[00118] Na etapa S16, a unidade de geração de objeto 23 emite os metadados e sinais de áudio dos (nobj_out-nobj_dynamic) novos objetos obtidos pelo processamento na etapa S15 ao estágio subsequente.
[00119] Consequentemente, os metadados e sinais de áudio dos nobj_dynamic objetos de passagem e os metadados e sinais de áudio dos (nobj_out-nobj_dynamic) novos objetos são emitidos em um intervalo de tempo.
[00120] Em particular, os metadados e sinais de áudio dos nobj_out objetos são emitidos no total como os metadados e sinais de áudio do objeto após o processamento de pré-renderização.
[00121] Na etapa S17, o dispositivo de processamento de pré- renderização 11 decide se o processo foi realizado ou não em todos os intervalos de tempo.
[00122] No caso em que é decidido na etapa S17 que o processo não foi realizado em todos os intervalos de tempo, o processamento retorna à etapa S11 e o processo supracitado é realizado repetidamente. Em particular, o processo é realizado em um próximo intervalo de tempo.
[00123] Por outro lado, no caso em que é decidido na etapa S17 que foi realizado o processo em todos os intervalos de tempo, cada uma das unidades do dispositivo de processamento de pré-renderização 11 para de realizar o processamento, e o processo de emissão de objeto se encerra.
[00124] Da maneira descrita acima, o dispositivo de processamento de pré-renderização 11 realiza a classificação dos objetos com base nas informações de prioridade. No que se refere aos objetos de passagem com um alto grau de prioridade, o dispositivo de processamento de pré-renderização 11 emite metadados e um sinal de áudio como estão. No que se refere aos objetos de não passagem, o dispositivo de processamento de pré-renderização 11 realiza o processamento de renderização para gerar metadados e um sinal de áudio de um novo objeto e então emite os metadados e sinal de áudio
23 / 37 gerados.
[00125] Consequentemente, no que se refere a um objeto que tem informações de alta prioridade e tem influência considerável sobre a qualidade sonora do som do conteúdo, metadados e um sinal de áudio são emitidos como estão, e, no que se refere aos outros objetos, um novo objeto é gerado no processamento de renderização e, assim, o número total de objetos é reduzido enquanto a influência sobre a qualidade sonora é suprimida.
[00126] Deve-se observar que, embora a descrição precedente seja dirigida a um exemplo no qual é realizada a classificação de objetos em cada intervalo de tempo, o mesmo objeto pode sempre ser determinado como um objeto de passagem independentemente do intervalo de tempo.
[00127] Em tal caso, por exemplo, a unidade de cálculo de prioridade 21 obtém informações de prioridade priority[ifrm][iobj] do objeto em todos os intervalos de tempo e determina a soma das informações de prioridade priority[ifrm][iobj] obtidas no que se refere a todos os intervalos de tempo, como informações de prioridade priority[iobj] do objeto. Então, a unidade de cálculo de prioridade 21 classifica as informações de prioridade priority[iobj] dos respectivos objetos e seleciona nobj_dynamic objetos superiores com um valor comparativamente alto das informações de prioridade priority[iobj] como objetos de passagem.
[00128] A classificação dos objetos pode de outro modo ser realizada em cada intervalo incluindo uma pluralidade de intervalos de tempo sucessivos. Em tal caso, também é suficiente se as informações de prioridade de cada objeto sejam obtidas para cada intervalo, similarmente às informações de prioridade priority[iobj]. <Exemplo de aplicação 1 da presente tecnologia a dispositivo de codificação> <Exemplo de configuração de dispositivo de codificação>
[00129] Incidentalmente, a presente tecnologia descrita acima pode ser aplicada a um dispositivo de codificação com uma unidade de codificação de
24 / 37 áudio 3D que realiza codificação de áudio 3D. Tal dispositivo de codificação é configurado, por exemplo, da maneira retratada na Figura 4.
[00130] Um dispositivo de codificação 51 retratado na Figura 4 inclui uma unidade de processamento de pré-renderização 61 e uma unidade de codificação de áudio 3D 62.
[00131] A unidade de processamento de pré-renderização 61 corresponde ao dispositivo de processamento de pré-renderização 11 retratado na Figura 2 e tem uma configuração similar à do dispositivo de processamento de pré-renderização 11. Em particular, a unidade de processamento de pré-renderização 61 inclui a unidade de cálculo de prioridade 21, a unidade de seleção de objeto de passagem 22 e a unidade de geração de objeto 23 descritas acima no presente documento.
[00132] À unidade de processamento de pré-renderização 61 são providos metadados e sinais de áudio de uma pluralidade de objetos. A unidade de processamento de pré-renderização 61 realiza processamento de pré-renderização para reduzir o número total de objetos e provê os metadados e sinais de áudio dos respectivos objetos após a redução à unidade de codificação de áudio 3D 62.
[00133] A unidade de codificação de áudio 3D 62 codifica os metadados e sinais de áudio dos objetos providos pela unidade de processamento de pré-renderização 61 e emite uma cadeia de código de áudio 3D obtida como resultado da codificação.
[00134] Por exemplo, presume-se que os metadados e sinais de áudio dos nobj_in objetos são providos à unidade de processamento de pré- renderização 61.
[00135] Em tal caso, a unidade de processamento de pré-renderização 61 realiza um processo similar ao processo de emissão de objeto descrito acima no presente documento com referência à Figura 3 e provê metadados e sinais de áudio dos nobj_dynamic objetos de passagem e metadados e sinais
25 / 37 de áudio dos (nobj_out - nobj_dynamic) novos objetos à unidade de codificação de áudio 3D 62.
[00136] Consequentemente, no exemplo, a unidade de codificação de áudio 3D 62 codifica e emite metadados e sinais de áudio dos nobj_out objetos no total.
[00137] Dessa maneira, o dispositivo de codificação 51 reduz o número total de objetos e realiza a codificação dos respectivos objetos após a redução. Portanto, é possível reduzir o tamanho (quantidade de códigos) da cadeia de código de áudio 3D a ser emitida e reduzir a quantidade de cálculo e a quantidade de memória no processamento da codificação. Adicionalmente, no lado de decodificação da cadeia de código de áudio 3D, a quantidade de cálculo e a quantidade de memória também podem ser reduzidas em uma unidade de decodificação de áudio 3D que realiza a decodificação da cadeia de código de áudio 3D e em uma unidade de processamento de renderização subsequente.
[00138] Deve-se observar que a descrição aqui é dirigida a um exemplo no qual a unidade de processamento de pré-renderização 61 é disposta no interior do dispositivo de codificação 51. No entanto, isso não é restritivo, e a unidade de processamento de pré-renderização 61 pode ser disposta fora do dispositivo de codificação 51, isto é, em um estágio precedente ao dispositivo de codificação 51, ou pode ser disposta no estágio mais precedente no interior da unidade de codificação de áudio 3D 62. <Exemplo de aplicação 2 da presente tecnologia a dispositivo de codificação> <Exemplo de configuração de dispositivo de codificação>
[00139] Adicionalmente, no caso em que a presente tecnologia é aplicada a um dispositivo de codificação, um sinalizador de processo de pré- renderização indicativo de se o objeto é um objeto de passagem ou um objeto recém gerado também pode ser incluído em uma cadeia de código de áudio 3D.
26 / 37
[00140] Em tal caso, o dispositivo de codificação é configurado, por exemplo, da maneira retratada na Figura 5. Deve-se observar que, na Figura 5, elementos correspondentes aos no caso da Figura 4 são denotados pelas mesmas referências numéricas e que a descrição dos mesmos é adequadamente omitida.
[00141] Um dispositivo de codificação 91 retratado na Figura 5 inclui uma unidade de processamento de pré-renderização 101 e uma unidade de codificação de áudio 3D 62.
[00142] A unidade de processamento de pré-renderização 101 corresponde ao dispositivo de processamento de pré-renderização 11 retratado na Figura 2 e tem uma configuração similar à do dispositivo de processamento de pré-renderização 11. Em particular, a unidade de processamento de pré-renderização 101 inclui a unidade de cálculo de prioridade 21, a unidade de seleção de objeto de passagem 22 e a unidade de geração de objeto 23 descritas acima no presente documento.
[00143] No entanto, na unidade de processamento de pré-renderização 101, a unidade de seleção de objeto de passagem 22 e a unidade de geração de objeto 23 geram um sinalizador de processo de pré-renderização para cada objeto e emitem metadados, um sinal de áudio e um sinalizador de processo de pré-renderização para cada objeto.
[00144] O sinalizador de processo de pré-renderização são informações de sinalização indicativas de se o objeto é um objeto de passagem ou um objeto recém gerado, isto é, se o objeto é ou não um objeto processado por pré-renderização.
[00145] Por exemplo, no caso em que o objeto é um objeto de passagem, o valor do sinalizador de processo de pré-renderização do objeto é definido em 0. Em contrapartida, no caso em que o objeto é um objeto recém gerado, o valor do sinalizador de processo de pré-renderização do objeto é definido em 1.
27 / 37
[00146] Consequentemente, por exemplo, a unidade de processamento de pré-renderização 101 realiza um processo similar ao processo de emissão de objeto descrito acima no presente documento com referência à Figura 3 para reduzir o número total de objetos e gera um sinalizador de processo de pré-renderização de cada um dos objetos após o número total dos objetos ser reduzido.
[00147] Então, no que se refere aos nobj_dynamic objetos de passagem, a unidade de processamento de pré-renderização 101 provê metadados, sinais de áudio e sinalizadores de processo de pré-renderização com um valor de 0 à unidade de codificação de áudio 3D 62.
[00148] Em contrapartida, no que se refere aos (nobj_out - nobj_dynamic) novos objetos, a unidade de processamento de pré- renderização 101 provê metadados, sinais de áudio e sinalizadores de processo de pré-renderização com um valor de 1 à unidade de codificação de áudio 3D 62.
[00149] A unidade de codificação de áudio 3D 62 codifica os metadados, sinais de áudio e sinalizadores de processo de pré-renderização dos nobj_out objetos no total que são providos pela unidade de processamento de pré-renderização 101 e emite uma cadeia de código de áudio 3D obtida como resultado da codificação. <Exemplo de configuração de dispositivo de decodificação>
[00150] Adicionalmente, um dispositivo de decodificação que recebe, como uma entrada ao mesmo, uma cadeia de código de áudio 3D emitida do dispositivo de codificação 91 e incluindo um sinalizador de processo de pré- renderização e realiza a decodificação da cadeia de código de áudio 3D é configurado, por exemplo, da maneira retratada na Figura 6.
[00151] Um dispositivo de decodificação 131 retratado na Figura 6 inclui uma unidade de decodificação de áudio 3D 141 e uma unidade de processamento de renderização 142.
28 / 37
[00152] A unidade de decodificação de áudio 3D 141 adquire uma cadeia de código de áudio 3D emitida do dispositivo de codificação 91 por recepção ou similares, decodifica a cadeia de código de áudio 3D adquirida e provê metadados, sinais de áudio e sinalizadores de processo de pré- renderização dos objetos obtidos como resultado da decodificação à unidade de processamento de renderização 142.
[00153] Com base nos metadados, sinais de áudio e sinalizadores de processo de pré-renderização providos da unidade de decodificação de áudio 3D 141, a unidade de processamento de renderização 142 realiza o processamento de renderização para gerar um sinal de acionamento de alto- falante para cada alto-falante a ser usado para reprodução do conteúdo e emite os sinais de acionamento de alto-falante gerados. Os sinais de acionamento de alto-falante são sinais para acionar os alto-falantes para reproduzir som dos respectivos objetos incluídos no conteúdo.
[00154] O dispositivo de decodificação 131 com tal configuração como descrita acima pode reduzir a quantidade de cálculo e a quantidade de memória do processamento na unidade de decodificação de áudio 3D 141 e na unidade de processamento de renderização 142 usando o sinalizador de processo de pré-renderização. Em particular, no presente exemplo, a quantidade de cálculo e a quantidade de memória mediante a decodificação podem ser reduzidas ainda mais em comparação com aquelas no caso do dispositivo de codificação 51 retratado na Figura 4.
[00155] Aqui, é descrito um exemplo particular de uso do sinalizador de processo de pré-renderização na unidade de decodificação de áudio 3D 141 e na unidade de processamento de renderização 142.
[00156] Primeiro, é descrito um exemplo articular de uso do sinalizador de processo de pré-renderização na unidade de decodificação de áudio 3D 141.
[00157] A cadeia de código de áudio 3D inclui metadados, um sinal de
29 / 37 áudio e um sinalizador de processo de pré-renderização de um objeto. Como descrito acima no presente documento, os metadados incluem informações de prioridade etc. No entanto, em alguns casos, os metadados podem não incluir as informações de prioridade. As informações de prioridade aqui são as informações de prioridade priority_raw[ifrm][iobj] descritas acima no presente documento.
[00158] O sinalizador de processo de pré-renderização tem um valor definido com base nas informações de prioridade priority[ifrm][iobj] calculadas pela unidade de processamento de pré-renderização 101 que é o estágio precedente à unidade de codificação de áudio 3D 62. Portanto, pode- se considerar que, por exemplo, um objeto de passagem cujo sinalizador de processo de pré-renderização tenha um valor de 0 é um objeto com um alto grau de prioridade e que um objeto recém gerado cujo sinalizador de processo de pré-renderização tenha um valor de 1 é um objeto com um baixo grau de prioridade.
[00159] Portanto, no caso em que os metadados não incluem informações de prioridade, a unidade de decodificação de áudio 3D 141 pode usar o sinalizador de processo de pré-renderização no lugar das informações de prioridade.
[00160] Em particular, presume-se, por exemplo, que a unidade de decodificação de áudio 3D 141 decodifica somente objetos com um alto grau de prioridade.
[00161] Nesse momento, no caso em que o valor do sinalizador de processo de pré-renderização de um objeto é 1, a unidade de decodificação de áudio 3D 141 determina que o valor das informações de prioridade do objeto é 0 e não realiza, no que se refere ao objeto, a decodificação de um sinal de áudio etc. incluído na cadeia de código de áudio 3D.
[00162] Por outro lado, no caso em que o valor do sinalizador de processo de pré-renderização de um objeto é 0, a unidade de decodificação de
30 / 37 áudio 3D 141 determina que o valor das informações de prioridade do objeto é 1 e realiza, no que se refere ao objeto, a decodificação de metadados e um sinal de áudio incluídos na cadeia de código de áudio 3D.
[00163] Dessa forma, a quantidade de cálculo e a quantidade de memória na decodificação podem ser reduzidas pela quantidade que não é necessária para o objeto para o qual o processamento de decodificação é omitido. Deve-se observar que a unidade de processamento de pré- renderização 101 do dispositivo de codificação 91 pode gerar informações de prioridade dos metadados com base no sinalizador de processo de pré- renderização, isto é, em um resultado de seleção de um objeto de não passagem.
[00164] A seguir, é descrito um exemplo articular de uso do sinalizador de processo de pré-renderização na unidade de processamento de renderização 142.
[00165] A unidade de processamento de renderização 142 realiza processamento de dispersão com base nas informações de dispersão incluídas nos metadados, em alguns casos.
[00166] Aqui, o processamento de dispersão é processamento de dispersão de uma imagem sonora do som de um objeto com base no valor das informações de dispersão incluídas nos metadados de cada objeto e é usado para aumentar a imersão do som.
[00167] Por outro lado, um objeto cujo sinalizador de processo de pré- renderização tem um valor de 1 é um objeto recém gerado pela unidade de processamento de pré-renderização 101 do dispositivo de codificação 91, isto é, um objeto no qual múltiplos objetos determinados como objetos de não passagem são misturados. Então, o valor das informações de dispersão de tal objeto recém gerado é um valor obtido a partir de, por exemplo, um valor médio de informações de dispersão de múltiplos objetos de não passagem.
[00168] Portanto, se o processamento de dispersão for realizado em um
31 / 37 objeto cujo sinalizador de processo de pré-renderização tem um valor de 1, isso significa que o processamento de dispersão é realizado no objeto que é originalmente uma pluralidade de objetos, com base em uma informação de dispersão que não é necessariamente apropriada, resultando na possível degradação da imersão do som.
[00169] Portanto, a unidade de processamento de renderização 142 pode ser configurada de modo a realizar o processamento de dispersão com base nas informações de dispersão em um objeto cujo sinalizador de processo de pré-renderização tem um valor de 0, mas de modo a não realizar o processamento de dispersão em um objeto sujo sinalizador de processo de pré-renderização tem um valor de 1. É, assim, possível impedir a degradação da imersão do som e, visto que processamento de dispersão desnecessário não é realizado, também é possível reduzir a quantidade de cálculo e a quantidade de memória pela quantidade que não é necessária para o processamento desnecessário.
[00170] O dispositivo de processamento de pré-renderização ao qual a presente tecnologia é aplicada pode de outro modo ser provido em um dispositivo que realiza a reprodução ou edição de conteúdo incluindo uma pluralidade de objetos, um dispositivo no lado de decodificação, ou similares. Por exemplo, em um programa aplicativo que edita uma faixa correspondente a um objeto, visto que um número excessivamente grande de faixas complica a edição, é eficaz se for aplicada a presente tecnologia, que pode reduzir o número de faixas mediante edição, isto é, o número de objetos. <Exemplo de configuração de computador>
[00171] Incidentalmente, embora a série de processos descrita acima possa ser executada por hardware, ela pode também ser executada por software. No caso em que a série de processos é executada pelo software, um programa incluído no software é instalado em um computador. O computador aqui inclui um computador incorporado em hardware dedicado ou, por
32 / 37 exemplo, um computador pessoal de uso geral que pode executar várias funções instalando-se vários programas no mesmo.
[00172] A Figura 7 é um diagrama de blocos que retrata um exemplo de uma configuração de hardware de um computador que executa a série de processos descrita acima no presente documento de acordo com um programa.
[00173] No computador, uma CPU (unidade de processamento central) 501, uma ROM (memória somente de leitura) 502, e uma RAM (memória de acesso aleatório) 503 são conectadas entre si por um barramento 504.
[00174] Adicionalmente, uma interface entrada/saída 505 é conectada ao barramento 504. Uma unidade de entrada 506, uma unidade de saída 507, uma unidade de gravação 508, uma unidade de comunicação 509 e um drive 510 são conectados à interface entrada/saída 505.
[00175] A unidade de entrada 506 inclui, por exemplo, um teclado, um mouse, um microfone, um dispositivo de formação de imagem, etc. A unidade de saída 507 inclui um visor, um alto-falante, etc. A unidade de gravação 508 inclui, por exemplo, um disco rígido, uma memória não volátil, ou similares. A unidade de comunicação 509 inclui, por exemplo, uma interface de rede ou similares. O drive 510 aciona um meio de gravação removível 511 tal como um disco magnético, um disco óptico, um disco magneto-óptico ou uma memória semicondutora.
[00176] No computador configurado da maneira descrita acima, a CPU 501 carrega um programa gravado, por exemplo, na unidade de gravação 508 na RAM 503 através da interface entrada/saúda 505 e do barramento 504 e executa o programa para realizar a série de processos descrita acima.
[00177] O programa a ser executado pelo computador (CPU 501) pode ser gravado no meio de gravação removível 511 como um meio de pacote ou similares e ser provido, por exemplo. Adicionalmente, é possível prover o programa através de um meio de transmissão com ou sem fio tal como uma
33 / 37 rede local, a Internet, ou uma difusão por satélite digital.
[00178] No computador, o programa pode ser instalado na unidade de gravação 508 através da interface entrada/saída 505 montando-se o meio de gravação removível 511 no drive 510. Como uma alternativa, o programa pode ser recebido através de um meio de transmissão com ou sem fio pela unidade de comunicação 509 e instalado na unidade de gravação 508. Como uma outra alternativa, o programa pode ser instalado previamente na ROM 502 ou na unidade de gravação 508.
[00179] Deve-se observar que o programa a ser executado pelo computador pode ser um programa pelo qual processos são realizados em uma série temporal na ordem descrita no presente relatório descritivo ou pode ser um programa pelo qual processos são executados em paralelo ou em momentos necessários tais como quando os processos são chamados.
[00180] Adicionalmente, as modalidades da presente tecnologia não se limitam às modalidades descritas acima no presente documento e permitem várias alterações sem que se afaste da matéria da presente tecnologia.
[00181] Por exemplo, a presente tecnologia pode assumir uma configuração de computação em nuvem pela qual uma função é compartilhada e processada cooperativamente por uma pluralidade de aparelhos através de uma rede.
[00182] Adicionalmente, cada uma das etapas descritas acima no presente documento com referência ao fluxograma pode ser executada por um único aparelho ou pode ser compartilhada e executada por uma pluralidade de aparelhos.
[00183] Além disso, no caso em que uma pluralidade de processos é incluída em uma etapa, a pluralidade de processos incluída na uma etapa pode ser executada por um aparelho ou pode ser compartilhada e executada por uma pluralidade de aparelhos.
[00184] Adicionalmente, a presente tecnologia pode também assumir a
34 / 37 configuração descrita abaixo. (1)
[00185] Um dispositivo de processamento de informações que inclui: uma unidade de seleção de objeto de passagem configurada para adquirir dados de objetos L e selecionar, dentre os objetos L, objetos M de passagem cujos dados devem ser emitidos como estão; e uma unidade de geração de objeto configurada para gerar, com base nos dados de múltiplos objetos de não passagem que não são os objetos de passagem dentre os objetos L, os dados de novos objetos N, N sendo menor do que (L - M). (2)
[00186] O dispositivo de processamento de informações de acordo com (1), em que a unidade de geração de objeto gera os dados dos novos objetos com base nos dados dos (L - M) objetos de não passagem. (3)
[00187] O dispositivo de processamento de informações de acordo com (1) ou (2), em que a unidade de geração de objeto gera, com base nos dados dos múltiplos objetos de não passagem, os dados dos novos objetos N a serem dispostos em posições diferentes entre si, por processamento de renderização. (4)
[00188] O dispositivo de processamento de informações de acordo com (3), em que a unidade de geração de objeto determina as posições dos novos objetos N com base nas informações de posição incluídas nos dados dos múltiplos objetos de não passagem. (5)
[00189] O dispositivo de processamento de informações de acordo com
35 / 37 (4), em que a unidade de geração de objeto determina as posições dos novos objetos N por um método k-means com base nas informações de posição. (6)
[00190] O dispositivo de processamento de informações de acordo com (3), em que as posições dos novos objetos N são determinadas previamente. (7)
[00191] O dispositivo de processamento de informações de acordo com qualquer um de (3) a (6), em que os dados incluem sinais de objeto e metadados dos objetos. (8)
[00192] O dispositivo de processamento de informações de acordo com (7), em que os objetos incluem objetos de áudio. (9)
[00193] O dispositivo de processamento de informações de acordo com (8), em que a unidade de geração de objeto realiza VBAP como o processamento de renderização. (10)
[00194] O dispositivo de processamento de informações de acordo com qualquer um de (1) a (9), em que a unidade de seleção de objeto de passagem seleciona os objetos M de passagem com base nas informações de prioridade dos objetos L. (11)
36 / 37
[00195] O dispositivo de processamento de informações de acordo com qualquer um de (1) a (9), em que a unidade de seleção de objeto de passagem seleciona os objetos M de passagem com base em um grau de concentração dos objetos L em um espaço. (12)
[00196] O dispositivo de processamento de informações de acordo com qualquer um de (1) a (11), em que M, que representa o número dos objetos de passagem, é designado. (13)
[00197] O dispositivo de processamento de informações de acordo com qualquer um de (1) a (11), em que a unidade de seleção de objeto de passagem determina M que representa o número dos objetos de passagem, com base em um tamanho total de dados dos dados dos objetos de passagem e dos dados dos novos objetos. (14)
[00198] O dispositivo de processamento de informações de acordo com qualquer um de (1) a (11), em que a unidade de seleção de objeto de passagem determina M que representa o número dos objetos de passagem, com base em uma quantidade de cálculo de processamento mediante a decodificação dos dados dos objetos de passagem e dos dados dos novos objetos. (15)
[00199] Um método de processamento de informações por um dispositivo de processamento de informações, que inclui: adquirir dados dos objetos L; selecionar, dentre os objetos L, objetos M de passagem cujos dados devem ser emitidos como estão; e
37 / 37 gerar, com base nos dados de múltiplos objetos de não passagem que não são os objetos de passagem dentre os objetos L, os dados de novos objetos N, N sendo menor do que (L - M). (16)
[00200] Programa, que faz um computador executar as etapas de: adquirir dados dos objetos L; selecionar, dentre os objetos L, objetos M de passagem cujos dados devem ser emitidos como estão; e gerar, com base nos dados de múltiplos objetos de não passagem que não são os objetos de passagem dentre os objetos L, os dados de novos objetos N, N sendo menor do que (L - M). [Lista de referências numéricas]
[00201] 11: Dispositivo de processamento de pré-renderização 21: Unidade de cálculo de prioridade 22: Unidade de seleção de objeto de passagem 23: Unidade de geração de objeto

Claims (16)

REIVINDICAÇÕES
1. Dispositivo de processamento de informações, caracterizado pelo fato de que compreende: uma unidade de seleção de objeto de passagem configurada para adquirir dados de objetos L e selecionar, dentre os objetos L, objetos M de passagem cujos dados devem ser emitidos como estão; e uma unidade de geração de objeto configurada para gerar, com base nos dados de múltiplos objetos de não passagem que não são os objetos de passagem dentre os objetos L, os dados de novos objetos N, N sendo menor do que (L - M).
2. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que a unidade de geração de objeto gera os dados dos novos objetos com base nos dados dos (L - M) objetos de não passagem.
3. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que a unidade de geração de objeto gera, com base nos dados dos múltiplos objetos de não passagem, os dados dos novos objetos N a serem dispostos em posições diferentes entre si, por processamento de renderização.
4. Dispositivo de processamento de informações de acordo com a reivindicação 3, caracterizado pelo fato de que a unidade de geração de objeto determina as posições dos novos objetos N com base nas informações de posição incluídas nos dados dos múltiplos objetos de não passagem.
5. Dispositivo de processamento de informações de acordo com a reivindicação 4, caracterizado pelo fato de que a unidade de geração de objeto determina as posições dos novos objetos N por um método k-means com base nas informações de posição.
6. Dispositivo de processamento de informações de acordo com a reivindicação 3, caracterizado pelo fato de que as posições dos novos objetos N são determinadas previamente.
7. Dispositivo de processamento de informações de acordo com a reivindicação 3, caracterizado pelo fato de que os dados incluem sinais de objeto e metadados dos objetos.
8. Dispositivo de processamento de informações de acordo com a reivindicação 7, caracterizado pelo fato de que os objetos incluem objetos de áudio.
9. Dispositivo de processamento de informações de acordo com a reivindicação 8, caracterizado pelo fato de que a unidade de geração de objeto realiza VBAP como o processamento de renderização.
10. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que a unidade de seleção de objeto de passagem seleciona os objetos M de passagem com base nas informações de prioridade dos objetos L.
11. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que a unidade de seleção de objeto de passagem seleciona os objetos M de passagem com base em um grau de concentração dos objetos L em um espaço.
12. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que M, que representa o número dos objetos de passagem, é designado.
13. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que a unidade de seleção de objeto de passagem determina M, que representa o número dos objetos de passagem, com base em um tamanho total de dados dos dados dos objetos de passagem e dos dados dos novos objetos.
14. Dispositivo de processamento de informações de acordo com a reivindicação 1, caracterizado pelo fato de que a unidade de seleção de objeto de passagem determina M, que representa o número dos objetos de passagem, com base em uma quantidade de cálculo de processamento mediante a decodificação dos dados dos objetos de passagem e dos dados dos novos objetos.
15. Método de processamento de informações por um dispositivo de processamento de informações, caracterizado pelo fato de que compreende: adquirir dados dos objetos L; selecionar, dentre os objetos L, objetos M de passagem cujos dados devem ser emitidos como estão; e gerar, com base nos dados de múltiplos objetos de não passagem que não são os objetos de passagem dentre os objetos L, os dados de novos objetos N, N sendo menor do que (L - M).
16. Programa, caracterizado pelo fato de que faz um computador executar as etapas de: adquirir dados dos objetos L; selecionar, dentre os objetos L, objetos M de passagem cujos dados devem ser emitidos como estão; e gerar, com base nos dados de múltiplos objetos de não passagem que não são os objetos de passagem dentre os objetos L, os dados de novos objetos N, N sendo menor do que (L - M).
BR112021009306-0A 2018-11-20 2019-11-06 dispositivo e método de processamento de informações, e, programa. BR112021009306A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018217180 2018-11-20
JP2018-217180 2018-11-20
PCT/JP2019/043360 WO2020105423A1 (ja) 2018-11-20 2019-11-06 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
BR112021009306A2 true BR112021009306A2 (pt) 2021-08-10

Family

ID=70773982

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021009306-0A BR112021009306A2 (pt) 2018-11-20 2019-11-06 dispositivo e método de processamento de informações, e, programa.

Country Status (6)

Country Link
US (1) US20220020381A1 (pt)
JP (1) JP7468359B2 (pt)
KR (1) KR20210092728A (pt)
CN (1) CN113016032A (pt)
BR (1) BR112021009306A2 (pt)
WO (1) WO2020105423A1 (pt)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7160032B2 (ja) * 2017-04-26 2022-10-25 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012122397A1 (en) * 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
US9516446B2 (en) * 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
EP3312835B1 (en) * 2013-05-24 2020-05-13 Dolby International AB Efficient coding of audio scenes comprising audio objects
BR112015029129B1 (pt) * 2013-05-24 2022-05-31 Dolby International Ab Método para codificar objetos de áudio em um fluxo de dados, meio legível por computador, método em um decodificador para decodificar um fluxo de dados e decodificador para decodificar um fluxo de dados incluindo objetos de áudio codificados
JP6288100B2 (ja) * 2013-10-17 2018-03-07 株式会社ソシオネクスト オーディオエンコード装置及びオーディオデコード装置
CN111556426B (zh) * 2015-02-06 2022-03-25 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染***和方法
WO2018047667A1 (ja) * 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法
JP7160032B2 (ja) 2017-04-26 2022-10-25 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
US20220020381A1 (en) 2022-01-20
JPWO2020105423A1 (ja) 2021-10-14
KR20210092728A (ko) 2021-07-26
CN113016032A (zh) 2021-06-22
JP7468359B2 (ja) 2024-04-16
WO2020105423A1 (ja) 2020-05-28
EP3886089A1 (en) 2021-09-29

Similar Documents

Publication Publication Date Title
JP6012884B2 (ja) 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング
US10277997B2 (en) Processing object-based audio signals
BR112012007187B1 (pt) Método e dispositivo para processar um sinal de áudio, e, meio de armazenamento legível por computador não transitório
AU2006233504A1 (en) Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
CN110537220B (zh) 信号处理设备和方法及程序
KR101985185B1 (ko) 메타데이터 보존 오디오 객체 클러스터링
BR112017026743B1 (pt) Aparelho de decodificação, e, aparelho codificação
BR112016021165B1 (pt) dispositivos e métodos de decodificação de áudio e meios de gravação
CN109889919A (zh) 一种视频转码方法、装置、***及介质
US11743646B2 (en) Signal processing apparatus and method, and program to reduce calculation amount based on mute information
BR112021009306A2 (pt) dispositivo e método de processamento de informações, e, programa.
WO2020008112A1 (en) Energy-ratio signalling and synthesis
CN111164679A (zh) 编码装置和方法、解码装置和方法以及程序
US11386913B2 (en) Audio object classification based on location metadata
US20230105632A1 (en) Signal processing apparatus and method, and program
US9583113B2 (en) Audio compression using vector field normalization
KR20240021911A (ko) 3차원 오디오 신호를 인코딩하기 위한 방법 및 장치, 인코더 및 시스템
KR20240001226A (ko) 3차원 오디오 신호 코딩 방법, 장치, 및 인코더
JP2024079768A (ja) 情報処理装置および方法、プログラム、並びに情報処理システム
KR102601194B1 (ko) 오디오 신호의 저복잡도 피치 시프팅 장치 및 그 방법
EP4372740A1 (en) Encoding device and method, decoding device and method, and program
WO2019027812A1 (en) CLASSIFICATION OF AUDIO OBJECT BASED ON LOCATION METADATA