BR112021012308A2 - Aparelho e método para separação de fonte com o uso de uma estimativa e controle de qualidade de som - Google Patents

Aparelho e método para separação de fonte com o uso de uma estimativa e controle de qualidade de som Download PDF

Info

Publication number
BR112021012308A2
BR112021012308A2 BR112021012308-3A BR112021012308A BR112021012308A2 BR 112021012308 A2 BR112021012308 A2 BR 112021012308A2 BR 112021012308 A BR112021012308 A BR 112021012308A BR 112021012308 A2 BR112021012308 A2 BR 112021012308A2
Authority
BR
Brazil
Prior art keywords
signal
audio
estimated
depending
values
Prior art date
Application number
BR112021012308-3A
Other languages
English (en)
Inventor
Christian Uhle
Matteo TORCOLI
Sascha Disch
Jouni Paulus
Jürgen Herre
Oliver Hellmuth
Harald Fuchs
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Publication of BR112021012308A2 publication Critical patent/BR112021012308A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

aparelho e método para separação de fonte com o uso de uma estimativa e controle de qualidade de som. é fornecido um aparelho para gerar um sinal de áudio separado a partir de um sinal de entrada de áudio. o sinal de entrada de áudio compreende uma porção de sinal de áudio alvo e uma porção de sinal de áudio residual. a porção de sinal de áudio residual indica um residual entre o sinal de entrada de áudio e a porção de sinal de áudio alvo. o aparelho compreende um separador de fonte (110), um módulo de determinação (120) e um processador de sinal (130). o separador de fonte (110) é configurado para determinar um sinal alvo estimado dependendo do sinal de entrada de áudio, em que o sinal alvo estimado é uma estimativa de um sinal que compreende apenas a porção de sinal de áudio alvo. o módulo de determinação (120) é configurado para determinar um ou mais valores de resultado dependendo de uma qualidade de som estimada do sinal alvo estimado para obter um ou mais valores de parâmetro, em que o um ou mais valores de parâmetro são o um ou mais valores de resultado ou dependem do um ou mais valores de resultado. o processador de sinal (130) é configurado para gerar o sinal de áudio separado dependendo do um ou mais valores de parâmetro e dependendo de pelo menos um dentre o sinal alvo estimado e o sinal de entrada de áudio e um sinal residual estimado, em que o sinal residual estimado é uma estimativa de um sinal que compreende apenas a porção de sinal de áudio residual.

Description

“APARELHO E MÉTODO PARA SEPARAÇÃO DE FONTE COM O USO DE UMA ESTIMATIVA E CONTROLE DE QUALIDADE DE SOM” DESCRIÇÃO
[0001] A presente invenção refere-se à separação de fonte de sinais de áudio, em particular ao controle adaptativo de sinal de qualidade de som de sinais de saída separados e, em particular, a um aparelho e um método para separação de fonte com o uso de uma estimativa e controle de qualidade de som.
[0002] Na separação de fonte, a qualidade dos sinais de saída é degradada e essa degradação aumenta monotonicamente com a atenuação dos sinais de interferência.
[0003] A separação de fonte de sinais de áudio foi realizada no passado.
[0004] A separação de fonte de sinais de áudio visa obter um sinal alvo determinado um sinal de mixagem , (1)
[0005] em que compreende todos os sinais de interferência e é a seguir denominado como "sinal de interferência”. A saída de separação ℎ∙ é uma estimativa do sinal alvo ̂ , (2)
[0006] e, possivelmente, adicionalmente, uma estimativa do sinal de interferência , (3)
[0007] Esse processamento normalmente introduz artefatos no sinal de saída que deterioram a qualidade de som. Esta degradação da qualidade de som aumenta monotonicamente com a quantidade de separação, a atenuação dos sinais de interferência. Muitas aplicações não requerem uma separação total, mas sim um aprimoramento parcial; os sons de interferência são atenuados, mas ainda estão presentes no sinal de saída.
[0008] Isso tem o benefício adicional de que a qualidade de som é mais alta do que em sinais totalmente separados, porque menos artefatos são introduzidos e o vazamento dos sinais de interferência mascaram parcialmente os artefatos percebidos.
[0009] O mascaramento parcial de um sinal de áudio significa que seu volume (por exemplo, sua intensidade percebida) é parcialmente reduzido. Além disso, pode ser desejado e exigido que, em vez de atingir uma grande atenuação, a qualidade de som da saída não caia abaixo de um nível de qualidade de som definido.
[0010] Um exemplo de tal aplicação é o aprimoramento do diálogo. Os sinais de áudio na transmissão de TV e rádio e som cinematográfico são frequentemente mixagens de sinais de fala e sinais de fundo, por exemplo, sons ambientes e música. Quando esses sinais são mixados de modo que o nível da fala seja muito baixo em comparação com o nível do fundo, o ouvinte pode ter dificuldades para entender o que foi dito ou a compreensão requer um esforço de escuta muito alto e isso resulta em fadiga do ouvinte. Métodos para reduzir automaticamente o nível de fundo podem ser aplicados em tais cenários, mas o resultado deve ser de alta qualidade de som.
[0011] Vários métodos para separação de fonte existem na técnica anterior. A separação de um sinal alvo a partir de uma mixagem de sinais foi discutida na técnica anterior. Esses métodos podem ser categorizados em duas abordagens. A primeira categoria de métodos é com base em suposições formuladas sobre o modelo de sinal e/ou o modelo de mixagem. O modelo de sinal descreve as características dos sinais de entrada, aqui e . O modelo de mixagem descreve as características de como os sinais de entrada são combinados para produzir o sinal de mixagem , aqui por meio de adição.
[0012] Com base nestas suposições, um método é projetado de forma analítica ou de forma heurística. Por exemplo, o método de Análise de Componente Independente pode ser derivado assumindo-se que a mistura compreende dois sinais de fonte que são estatisticamente independentes, a mixagem foi capturada por dois microfones e a mixagem foi derivada pela adição de ambos os sinais (que produz uma mixagem instantânea). O processo inverso da mixagem é então derivado matematicamente como inversão da matriz de mixagem e os elementos desta matriz de não mixagem são computados de acordo com um método especificado. Os métodos mais analiticamente derivados são derivados formulando-se o problema de separação como uma otimização numérica de um critério, por exemplo, o erro quadrático médio entre o alvo verdadeiro e o alvo estimado.
[0013] Uma segunda categoria é conduzida em dados. Aqui, uma representação dos sinais alvo é estimada ou um conjunto de parâmetros para recuperar os sinais alvo da mixagem de entrada é estimado. A estimativa é com base em um modelo que foi treinado em um conjunto de dados de treinamento, daí o nome “conduzida em dados”. A estimativa é derivada da otimização de um critério, por exemplo, minimizando-se o erro quadrático médio entre o alvo verdadeiro e o alvo estimado, determinados os dados de treinamento. Um exemplo para esta categoria são as Redes Neurais Artificiais (RNA) que foram treinadas para produzir uma estimativa de um sinal de voz dada uma mixagem de sinal de fala e um sinal de interferência. Durante o treinamento, os parâmetros ajustáveis da rede neural artificial são determinados de modo que um critério de desempenho computado para um conjunto de dados de treinamento seja otimizado - em média sobre todo o conjunto de dados.
[0014] Com relação à separação de fonte, uma solução que é ótima em um sentido de erro quadrático médio ou ótima em relação a qualquer outro critério numérico, não é necessariamente a solução com a mais alta qualidade de som que é preferencial por ouvintes humanos.
[0015] Um segundo problema decorre do fato de que a separação de fonte sempre resulta em dois efeitos, primeiro a atenuação desejada dos sons de interferência e segundo, a degradação indesejada da qualidade de som. Ambos os efeitos estão correlacionados, por exemplo aumentar o efeito desejado resulta em um aumento do efeito indesejado. O objetivo final é controlar o equilíbrio entre ambos.
[0016] A qualidade de som pode ser estimada, por exemplo, quantificada por meio de teste de escuta ou por meio de modelos computacionais de qualidade de som. A qualidade de som tem vários aspectos, a seguir denominados Componentes de Qualidade de Som (SQCs - Sound Quality Components).
[0017] Por exemplo, a qualidade de som é determinada pela intensidade percebida dos artefatos (estes são componentes do sinal que foram introduzidos por um processamento de sinal, por exemplo, separação de fonte, e que diminuem a qualidade de som).
[0018] Ou, por exemplo, a qualidade de som é determinada pela intensidade percebida de sinais de interferência, ou, por exemplo, pela inteligibilidade da fala (quando o sinal alvo é a fala), ou, por exemplo, pela qualidade geral de som.
[0019] Existem vários modelos computacionais de qualidade de som que computam (estimativas de) Componentes de Qualidade de Som
, 1 , em que denota o número de Componentes de Qualidade de Som.
[0020] Esses métodos normalmente estimam o componente de qualidade de som determinado o sinal alvo e uma estimativa para o sinal alvo, (4)
[0021] ou determinado também o sinal de interferência, (5)
[0022] Em aplicativos práticos, os sinais de alvo (e os sinais de interferência ) não estão disponíveis, caso contrário, a separação não seria necessária. Quando apenas o sinal de entrada e as estimativas do sinal alvo ̂ estão disponíveis, os componentes de qualidade de som não podem ser computados com esses métodos.
[0023] Na técnica anterior, diferentes modelos computacionais para estimar aspectos da qualidade de som, incluindo inteligibilidade, foram descritos.
[0024] Avaliação de Separação Cega de Fonte (BSSEval - Blind Source Separation Evaluation) (consultar [1]) é uma caixa de ferramentas de avaliação de desempenho multicritério. O sinal estimado é decomposto por uma projeção ortogonal no componente do sinal alvo, interferência a partir de outras fontes e artefatos. As métricas são computadas como razões de energia desses componentes e expressas em dB. São eles: Razão Fonte-Distorção (SDR - Source to Distortion Ratio), Razão Fonte- Interferência (SIR - Source to Interference Ratio) - e Razão Fonte-Artefato (SAR - Source to Artifact Ratio).
[0025] Métodos de avaliação perceptiva para Separação de Fonte de Áudio (PEASS - Audio Source Separation) (consultar
[2]) foi projetado como um sucessor de BSSEval motivado por percepção. A projeção do sinal é realizada em segmentos de tempo e com um banco de filtros gammatone.
[0026] PEMO-Q (consultar [3]) é usado para fornecer múltiplos recursos. Quatro pontuações perceptivas são obtidas a partir desses recursos com o uso de uma rede neural treinada com classificações subjetivas. As pontuações são: Pontuação de Percepção Geral (OPS - Overall Perceptual Score), Pontuação de Percepção Relacionada à Interferência (IPS -
Interference-related Perceptual Score), Pontuação de Percepção Relacionada a Artefato (APS - Artifact-related Perceptual Score) e Pontuação de Percepção Relacionada ao Objetivo (TPS - Target-related Perceptual Score).
[0027] A Avaliação Perceptual da Qualidade de Áudio (PEAQ - Perceptual Evaluation of Audio Quality) (consultar [4]) é uma métrica projetada para codificação de áudio. Ele emprega um modelo de ouvido periférico para calcular as representações da membrana basilar de referência e sinal de teste. Aspectos da diferença entre essas representações são quantificados por muitas variáveis de saída. Por meio de uma rede neural treinada com dados subjetivos, essas variáveis são combinadas para dar o resultado principal, por exemplo, o Grau de Diferença Global (ODG - Overall Difference Grade).
[0028] A Avaliação Perceptual da Qualidade da Fala (PESQ - Perceptual Evaluation of Speech Quality) (consultar [5]) é uma métrica projetada para a fala transmitida por redes de telecomunicações. Portanto, o método compreende um pré-processamento que imita um aparelho de telefone. As medidas de distúrbios audíveis são computadas a partir da intensidade específica dos sinais e combinadas nas pontuações PESQ. A partir deles, uma pontuação MOS é prevista por meio de uma função de mapeamento polinomial (consultar [6]).
[0029] ViSQOLAudio (consultar [7]) é uma métrica projetada para música codificada em baixas taxas de bits desenvolvida a partir do Ouvinte Objetivo de Qualidade de Fala Virtual (ViSQOL - Virtual Speech Quality Objective Listener). Ambas as métricas são com base em um modelo do sistema auditivo periférico para criar representações internas dos sinais chamados neurogramas. Estes são comparados por meio de uma adaptação do índice de similaridade estrutural, originalmente desenvolvido para avaliar a qualidade das imagens compactadas.
[0030] Índice de Qualidade de Áudio de Aparelhos Auditivos (HAAQI - Hearing-Aid Audio Quality Index) (consultar [8]) é um índice projetado para prever a qualidade da música para indivíduos que ouvem através de aparelhos auditivos. O índice é com base em um modelo da periferia auditiva, estendido para incluir os efeitos da perda auditiva. Isto é ajustado a um banco de dados de classificações de qualidade feitas por ouvintes com audição normal ou deficiente. A simulação da perda auditiva pode ser contornada e o índice torna-se válido também para pessoas com audição normal. Com base no mesmo modelo auditivo, os autores do HAAQI também propuseram um índice para a qualidade da fala, Índice de Qualidade da Fala do Aparelho Auditivo (HASQI - Hearing-Aid Speech Quality Index) (consultar [9]) e um índice para inteligibilidade da fala, Índice de Percepção da Fala do Aparelho Auditivo (HASPI - Hearing-Aid Speech Perception Index) (consultar [10]).
[0031] A Inteligibilidade Objetiva de Curto Prazo (STOI - Short-Time Objective Intelligibility) (consultar [11]) é uma medida que deve ter relação monotônica com a inteligibilidade média da fala. Ele aborda especialmente a fala processada por algum tipo de ponderação de frequência de tempo.
[0032] Em [12], uma rede neural artificial é treinada para estimar uma Razão Fonte-Distorção determinado apenas o sinal de entrada e o sinal alvo estimado de saída, em que o cálculo da Razão Fonte- Distorção normalmente tomaria como entradas também o verdadeiro alvo e o sinal de interferência. Um pool de algoritmos de separação é executado em paralelo no mesmo sinal de entrada. As estimativas de Razão Fonte-Distorção são usadas para selecionar para cada período de tempo a saída do algoritmo com a melhor Razão Fonte-Distorção. Portanto, nenhum controle sobre o equilíbrio entre qualidade de som e separação é formulado, e nenhum controle dos parâmetros de um algoritmo de separação é proposto. Além disso, é usada a Razão Fonte-Distorção, que não é motivada pela percepção e mostrou-se mal correlacionada com a qualidade percebida, por exemplo, em [13].
[0033] Além disso, existem trabalhos recentes sobre o aprimoramento da fala por aprendizado supervisionado em que as estimativas do componente de qualidade de som são integradas nas funções de custo, enquanto, tradicionalmente, os modelos de aprimoramento da fala são otimizados com base no erro quadrático médio (MSE) entre a fala estimada e limpa. Por exemplo, em [14], [15], [16] funções de custo com base em STOI ao invés de MSE são usadas. Em [17] o aprendizado por reforço com base em PESQ ou PEASS é usado. No entanto, nenhum controle sobre o equilíbrio entre qualidade de som e separação está disponível.
[0034] Em [18] é proposto um dispositivo de processamento de áudio em que uma medida de audibilidade é usada em conjunto com uma medida de identificação de artefato a fim de controlar os ganhos de frequência de tempo aplicados pelo processamento. Isto é para fornecer, por exemplo, que a quantidade de redução de ruído está em um nível máximo sujeito à restrição de que nenhum artefato é introduzido, o equilíbrio entre qualidade de som e separação é fixo. Além disso, o sistema não envolve aprendizado supervisionado. Para identificar artefatos, é utilizada a Razão de Curtose, uma medida que compara diretamente os sinais de saída e entrada (possivelmente em segmentos em que a fala não está presente), sem a necessidade do verdadeiro alvo e do sinal de interferência. Esta medida simples é enriquecida por uma medida de audibilidade.
[0035] O objetivo da presente invenção é fornecer conceitos melhorados para a separação de fonte. O objetivo da presente invenção é resolvido por um aparelho de acordo com a reivindicação 1, por um método de acordo com a reivindicação 16 e por um programa de computador de acordo com a reivindicação 17.
[0036] Um aparelho é fornecido para gerar um sinal de áudio separado a partir de um sinal de entrada de áudio. O sinal de entrada de áudio compreende uma porção de sinal de áudio alvo e uma porção de sinal de áudio residual. A porção de sinal de áudio residual indica um residual entre o sinal de entrada de áudio e a porção de sinal de áudio alvo. O aparelho compreende um separador de fonte, um módulo de determinação e um processador de sinal. O separador de fonte é configurado para determinar um sinal alvo estimado dependendo do sinal de entrada de áudio, em que o sinal alvo estimado é uma estimativa de um sinal que compreende apenas a porção de sinal de áudio alvo. O módulo de determinação é configurado para determinar um ou mais valores de resultado dependendo de uma qualidade de som estimada do sinal alvo estimado para obter um ou mais valores de parâmetro, em que o um ou mais valores de parâmetro são o um ou mais valores de resultado ou dependem de um ou mais valores de resultado. O processador de sinal é configurado para gerar o sinal de áudio separado dependendo do um ou mais valores de parâmetro e dependendo de pelo menos um dentre o sinal alvo estimado e o sinal de entrada de áudio e um sinal residual estimado, em que o sinal residual estimado é uma estimativa de um sinal que compreende apenas a porção de sinal de áudio residual.
[0037] Além disso, um método é fornecido para gerar um sinal de áudio separado a partir de um sinal de entrada de áudio. O sinal de entrada de áudio compreende uma porção de sinal de áudio alvo e uma porção de sinal de áudio residual. A porção de sinal de áudio residual indica um residual entre o sinal de entrada de áudio e a porção de sinal de áudio alvo. O método compreende:
[0038] - Determinar um sinal alvo estimado dependendo do sinal de entrada de áudio, em que o sinal alvo estimado é uma estimativa de um sinal que compreende apenas a porção de sinal de áudio alvo.
[0039] - Determinar um ou mais valores de resultado dependendo de uma qualidade de som estimada do sinal alvo estimado para obter um ou mais valores de parâmetro, em que o um ou mais valores de parâmetro são o um ou mais valores de resultado ou dependem de um ou mais valores de resultado. E:
[0040] - Gerar o sinal de áudio separado dependendo do um ou mais valores de parâmetro e dependendo do pelo menos um dentre o sinal alvo estimado e o sinal de entrada de áudio e um sinal residual estimado, em que o sinal residual estimado é uma estimativa de um sinal que compreende apenas a porção de sinal de áudio residual.
[0041] Além disso, é fornecido um programa de computador para implementar o método descrito acima quando executado em um computador ou processador de sinal.
[0042] A seguir, modalidades da presente invenção são descritas em mais detalhes com referência às Figuras, nas quais:
[0043] A Figura 1a ilustra um aparelho para gerar um sinal de áudio separado a partir de um sinal de entrada de áudio, de acordo com uma modalidade.
[0044] A Figura 1b ilustra um aparelho para gerar um sinal de áudio separado de acordo com outra modalidade, que compreende ainda uma rede neural artificial,
[0045] A Figura 2 ilustra um aparelho de acordo com uma modalidade, que está configurada para usar uma estimativa de qualidade de som e que está configurada para conduzir o pós-processamento,
[0046] A Figura 3 ilustra um aparelho de acordo com outra modalidade, em que a estimativa direta de parâmetros de pós- processamento é conduzida,
[0047] A Figura 4 ilustra um aparelho de acordo com uma outra modalidade, em que a estimativa da qualidade de som e da separação secundária é conduzida, e
[0048] A Figura 5 ilustra um aparelho de acordo com outra modalidade, em que a estimativa direta dos parâmetros de separação é conduzida.
[0049] A Figura 1a ilustra um aparelho para gerar um sinal de áudio separado a partir de um sinal de entrada de áudio, de acordo com uma modalidade. O sinal de entrada de áudio compreende uma porção de sinal de áudio alvo e uma porção de sinal de áudio residual. A porção de sinal de áudio residual indica um residual entre o sinal de entrada de áudio e a porção de sinal de áudio alvo.
[0050] O aparelho compreende um separador de fonte 110, um módulo de determinação 120 e um processador de sinal 130.
[0051] O separador de fonte 110 é configurado para determinar um sinal alvo estimado dependendo do sinal de entrada de áudio, em que o sinal alvo estimado é uma estimativa de um sinal que compreende apenas a porção de sinal de áudio alvo.
[0052] O módulo de determinação 120 é configurado para determinar um ou mais valores de resultado dependendo de uma qualidade de som estimada do sinal alvo estimado para obter um ou mais valores de parâmetro, em que o um ou mais valores de parâmetro são o um ou mais valores de resultado ou dependem do um ou mais valores de resultado.
[0053] O processador de sinal 130 é configurado para gerar o sinal de áudio separado dependendo do um ou mais valores de parâmetro e dependendo de pelo menos um dentre o sinal alvo estimado e o sinal de entrada de áudio e um sinal residual estimado. O sinal residual estimado é uma estimativa de um sinal que compreende apenas a porção de sinal de áudio residual.
[0054] Opcionalmente, em uma modalidade, o módulo de determinação 120 pode, por exemplo, ser configurado para determinar o um ou mais valores de resultados dependendo do sinal alvo estimado e dependendo de pelo menos um do sinal de entrada de áudio e o sinal residual estimado.
[0055] As modalidades fornecem um controle motivado de forma perceptiva e adaptável ao sinal sobre o equilíbrio entre a qualidade de som e a separação com o uso de aprendizado supervisionado. Isso pode ser alcançado de duas maneiras. O primeiro método estima a qualidade de som do sinal de saída e usa essa estimativa para adaptar os parâmetros da separação ou pós-processamento dos sinais separados. Em uma segunda modalidade, o método de regressão emite diretamente os parâmetros de controle de modo que a qualidade de som do sinal de saída atenda aos requisitos predefinidos.
[0056] De acordo com as modalidades, a análise do sinal de entrada e do sinal de saída da separação é conduzida para produzir uma estimativa da qualidade de som e determinar os parâmetros de processamento com base em de modo que a qualidade de som da saída (ao usar os parâmetros de processamento determinados) não seja inferior a um valor de qualidade definido.
[0057] Em algumas modalidades, a análise gera uma medida de qualidade em (9). A partir da medida de qualidade, um parâmetro de controle 1 na fórmula (13) abaixo é computado (por exemplo, um fator de escala) e a saída final é obtida mixando-se a saída inicial e a entrada como na fórmula (13) abaixo.
A computação 1 = pode ser feita iterativamente ou por meio de regressão, onde os parâmetros de regressão são aprendidos a partir de um conjunto de sinais de treinamento, consultar a Figura
2. Em modalidades, em vez de um fator de escala, o parâmetro de controle pode, por exemplo, ser um parâmetro de suavização ou semelhante.
[0058] Em algumas modalidades, a análise produz o parâmetro de controle 1 em (13) diretamente, consultar a Figura 3.
[0059] A Figura 4 e a Figura 5 definem modalidades adicionais.
[0060] Algumas modalidades alcançam um controle de qualidade de som em uma etapa de pós-processamento, conforme descrito abaixo.
[0061] Um subconjunto das modalidades descritas no presente documento pode ser aplicado independentemente do método de separação. Algumas modalidades descritas no presente documento controlam os parâmetros do processo de separação.
[0062] Separação de fonte com o uso de sinais de processos de ponderação espectral no domínio de frequência de tempo ou um domínio espectral de curto tempo. O sinal de entrada é transformado por meio da transformada de Fourier de curto prazo (STFT - short-time Fourier transform) ou processado por meio de um banco de filtros, que rende coeficientes STFT de valor complexo ou sinais de sub-banda , , em que denota o índice do quadro de tempo, denota o índice bin de frequência ou o índice de sub-banda. Os coeficientes STFT de valor complexo ou sinais de sub-banda do sinal desejado são , , e do sinal de interferência são , .
[0063] Os sinais de saída separados são computados por meio de ponderação espectral conforme (6)
[0064] Em que os pesos espectrais , são multiplicados elemento a elemento com o sinal de entrada. O objetivo é atenuar os elementos em , que o interferente , é grande. Para este fim, os pesos espectrais podem ser computados com base em uma estimativa do alvo , ou uma estimativa do interferente , ou uma estimativa da razão sinal-interferente, por exemplo, (7) ou (8)
[0065] em que e são parâmetros que controlam a separação. Por exemplo, o aumento pode levar a uma maior atenuação do interferente, mas também a uma maior degradação da qualidade de som. Os pesos espectrais podem ser ainda modificados, por exemplo, por limiar de modo que seja maior do que um limiar. Os ganhos modificados são computados conforme
[0066] Aumentar o limiar v reduz a atenuação do interferente e reduz a degradação potencial da qualidade de som.
[0067] A estimativa das quantidades necessárias (alvo , ou interferente , ou razão sinal-interferente) é o núcleo desses métodos e vários métodos de estimativa foram desenvolvidos no passado. Eles seguem qualquer uma das duas abordagens descritas acima.
[0068] O sinal de saída ̂ é então computado com o uso do processamento inverso do STFT ou banco de filtros.
[0069] A seguir, é descrita a separação de fonte com o uso de uma estimativa do sinal alvo de acordo com as modalidades.
[0070] Uma representação do sinal alvo também pode ser estimada diretamente a partir do sinal de entrada, por exemplo, por meio de uma rede neural artificial. Vários métodos foram recentemente propostos em que uma rede neural artificial foi treinada para estimar o sinal de tempo alvo ou seus coeficientes STFT ou as magnitudes dos coeficientes STFT.
[0071] Em relação à Qualidade de Som, um Componente de Qualidade de Som (SQC) é obtido pela aplicação de um modelo de aprendizado supervisionado ∙ para estimar os resultados desse modelo computacional, (9)
[0072] O método de aprendizado supervisionado ∙ é realizado por:
[0073] 1. Configurar um modelo de aprendizado supervisionado ∙ com parâmetros treináveis, ! variáveis de entrada e " variáveis de saída,
[0074] 2. Gerar um conjunto de dados com sinais de exemplo para o alvo e mixagem ,
[0075] 3. Computar estimativas para os sinais de alvo por meio de separação de fonte, ̂ = ℎ#$,
[0076] 4. Computar Componentes de Qualidade de Som a partir dos sinais obtidos por meio de modelos computacionais de qualidade de som de acordo com (9) ou (10),
[0077] 5. Treinar o modelo de aprendizado supervisionado ∙ de modo que ele produza estimativas
% determinados os sinais de exemplo correspondentes para o alvo estimado ̂ (a saída da separação de fonte) e mixagem . Alternativamente, treinar o modelo de aprendizado supervisionado ∙ de modo que produza estimativas
% gerados ̂ e (se = ̂ + ).
[0078] 6. No aplicativo, o modelo treinado é alimentado com o alvo estimado ̂ (a saída da separação de fonte) obtido da mixagem com o uso do método de separação de fonte juntamente com a mixagem .
[0079] É fornecido um aplicativo de métodos de aprendizado supervisionado para controle de qualidade do sinal de saída separado.
[0080] A seguir, é descrita uma estimativa da qualidade de som com o uso de aprendizado supervisionado de acordo com modalidades.
[0081] A Figura 1b ilustra uma modalidade, em que o módulo de determinação 120 compreende uma rede neural artificial 125. A rede neural artificial 125 pode, por exemplo, ser configurada para determinar o um ou mais valores de resultado dependendo do sinal alvo estimado. A rede neural artificial 125 pode, por exemplo, ser configurada para receber uma pluralidade de valores de entrada, em que cada um da pluralidade de valores de entrada depende de pelo menos um dentre o sinal alvo estimado e o sinal residual estimado e o sinal de entrada de áudio. A rede neural artificial 125 pode, por exemplo, ser configurada para determinar o um ou mais valores de resultado como um ou mais valores de saída da rede neural artificial 125.
[0082] Opcionalmente, em uma modalidade, a rede neural artificial 125 pode, por exemplo, ser configurada para determinar o um ou mais valores de resultado dependendo do sinal alvo estimado e pelo menos um do sinal de entrada de áudio e o sinal residual estimado.
[0083] Em uma modalidade, cada um da pluralidade de valores de entrada pode, por exemplo, depender de pelo menos um dentre o sinal alvo estimado e o sinal residual estimado e o sinal de entrada de áudio. O um ou mais valores de resultados podem, por exemplo, indicar a qualidade de som estimada do sinal alvo estimado.
[0084] De acordo com uma modalidade, cada um da pluralidade de valores de entrada pode, por exemplo, depender de pelo menos um dentre o sinal alvo estimado e o sinal residual estimado e o sinal de entrada de áudio. O um ou mais valores de resultado podem, por exemplo, ser o um ou mais valores de parâmetro.
[0085] Em uma modalidade, a rede neural artificial 125 pode, por exemplo, ser configurada para ser treinada ao receber uma pluralidade de conjuntos de treinamento, em que cada um da pluralidade de conjuntos de treinamento compreende uma pluralidade de valores de treinamento de entrada da rede neural artificial 125 e um ou mais valores de treinamento de saída da rede neural artificial 125, em que cada um da pluralidade de valores de treinamento de saída pode, por exemplo, depender de pelo menos um de um sinal alvo de treinamento e um sinal residual de treinamento e um sinal de entrada de treinamento, em que cada um dos ou mais valores de treinamento de saída podem, por exemplo, depender de uma estimativa de uma qualidade de som do sinal alvo de treinamento.
[0086] Em modalidades, uma estimativa para Componente de Qualidade de Som é obtida por meio de aprendizado supervisionado com o uso de um modelo de aprendizado supervisionado (SLM), por exemplo, uma Rede Neural Artificial (ANN) 125. A Rede Neural Artificial 125 pode ser, por exemplo, uma Rede Neural Artificial 125 totalmente conectada que compreende uma camada de entrada com unidades A, pelo menos uma camada oculta com camadas de entrada de pelo menos duas unidades cada e uma camada de saída com uma ou mais unidades.
[0087] O modelo de aprendizado supervisionado pode ser implementado como um modelo de regressão ou um modelo de classificação. Um modelo de regressão estima um valor alvo na saída de uma unidade na camada de saída. Alternativamente, o problema de regressão pode ser formulado como um problema de classificação, quantizando o valor de saída em pelo menos 3 etapas e usando uma camada de saída com ' unidades em que ' é igual ao número de etapas de quantização.
[0088] Para cada etapa de quantização, uma unidade de saída é usada.
[0089] O modelo de aprendizado supervisionado é primeiro treinado com um conjunto de dados que contém múltiplos exemplos de sinal de mixagem , alvo estimado ̂ e Componente de Qualidade de Som
, em que o Componente de Qualidade de Som foi computado a partir do alvo estimado ̂ , e o alvo verdadeiro , por exemplo.
Um item do conjunto de dados é denotado por (! , ̂! ,
! ). A saída do modelo de aprendizado supervisionado é aqui denotada por
! .
[0090] O número de unidades na camada de entrada * corresponde ao número de valores de entrada. As entradas para os modelos são computadas a partir dos sinais de entrada. Cada sinal pode ser opcionalmente processado por meio do banco de filtros da transformada frequência de tempo, por exemplo, uma transformada de Fourier de curto prazo (STFT). Por exemplo, a entrada pode ser construída concatenando-se os coeficientes STFT computados a partir de + quadros adjacentes a partir de ! e ̂! , em que + = 3 ou + = 7. Com que é o número total de coeficientes espectrais por quadro, em que o número total de coeficientes de entrada é 2 ∙ ∙ +.
[0091] Cada unidade da Rede Neural Artificial 125 computa sua saída como uma combinação linear dos valores de entrada que são, em seguida, opcionalmente processados com uma função compressiva não linear, (10)
[0092] em que / denota a saída de um único neurônio, 0! denota os 1 valores de entrada, 2! denota os 1 os pesos para a combinação linear e 3! denota 1 termos de polarização adicionais. Para as unidades na primeira camada oculta, o número de valores de entrada 1 é igual ao número de coeficientes de entrada D. Todos 2! e 3! são parâmetros da Rede Neural Artificial 125 que são determinados no procedimento de treinamento.
[0093] As unidades de uma camada são conectadas às unidades da camada seguinte, as saídas das unidades de uma camada anterior são as entradas para as unidades da próxima camada.
[0094] O treinamento é realizado minimizando o erro de previsão com o uso de um método de otimização numérica, por exemplo um método de gradiente descendente. O erro de previsão para um único item é uma função da diferença 4! =
! 5
%! . O erro de previsão sobre o conjunto de dados completo ou um subconjunto do conjunto de dados, que é usado como critério de otimização é, por exemplo, o erro quadrático médio MSE ou o erro médio absoluto MAE, em que denota o número de itens no conjunto de dados.
(11) (12)
[0095] Outras métricas de erro são viáveis para fins de treinamento se forem funções monotônicas de 4! e diferenciáveis. Além disso, existem outras estruturas e elementos para a construção de Redes Neurais Artificiais, por exemplo, camadas de Rede Neural Convolucional ou camadas de Rede Neural Recorrente.
[0096] Todos têm em comum que implementam um mapeamento a partir de uma entrada multidimensional para uma saída uni ou multidimensional, em que a função de mapeamento é controlada por um conjunto de parâmetros (por exemplo, 2! e 3! ) que são determinados em um procedimento de treinamento, otimizando um critério escalar.
[0097] Após o treinamento, o modelo de aprendizado supervisionado pode ser usado para a estimativa da qualidade de som de um alvo estimado desconhecido ̂ determinada a mixagem, sem a necessidade do alvo verdadeiro .
[0098] No que diz respeito aos modelos computacionais de qualidade de som, diferentes modelos computacionais para estimar aspectos de qualidade de som (que inclui inteligibilidade) têm sido usados com sucesso em experimentos de acordo com modalidades, como os modelos computacionais descritos em [1] – [11], em particular, Avaliação de Separação Cega de Fonte (BSSEval - Blind Source Separation Evaluation) (consultar [1]), Métodos de Avaliação Perceptiva para Separação de Fonte de Áudio (PEASS - Perceptual Evaluation methods for Audio Source Separation)
(consultar [2]), PEMO-Q (consultar [3]), Avaliação Perceptiva de Qualidade de Áudio (PEAQ - Perceptual Evaluation of Audio Quality) (consultar [4]), Avaliação Perceptiva de Qualidade de Fala (PESQ - Perceptual Evaluation of Speech Quality) (consultar [5] e [6]), ViSQOLAudio (consultar [7), Índice de Qualidade de Áudio do Aparelho Auditivo (HAAQI - Hearing-Aid Audio Quality Index) (consultar [8]), Aparelho Auditivo Índice de Qualidade de Fala (HASQI - Hearing-Aid Speech Quality Index) (consultar [9), Índice de Percepção da Fala do Aparelho Auditivo (HASPI - Hearing-Aid Speech Perception Index) (consultar [10]), e Inteligibilidade Objetiva de Curto Prazo (STOI - Short-Time Objective Intelligibility) (consultar [11]).
[0099] Assim, de acordo com uma modalidade, a estimativa da qualidade de som do sinal alvo de treinamento pode, por exemplo, depender de um ou mais modelos computacionais de qualidade de som.
[0100] Por exemplo, em uma modalidade, a estimativa da qualidade de som do sinal alvo de treinamento pode, por exemplo, depender de um ou mais dos seguintes modelos computacionais de qualidade de som:
[0101] Avaliação de Separação Cega de Fonte,
[0102] Métodos de Avaliação Perceptiva para Separação de Fonte de Áudio,
[0103] Avaliação Perceptiva de Qualidade de Áudio,
[0104] Avaliação Perceptiva da Qualidade da Fala,
[0105] Áudio do Ouvinte de Objetivo de Qualidade da Fala Virtual,
[0106] Índice de Qualidade de Áudio de Aparelhos Auditivos,
[0107] Índice de Qualidade da Fala de Aparelhos Auditivos,
[0108] Índice de Percepção de Fala de Aparelhos
Auditivos, e
[0109] Inteligibilidade Objetiva de Curto Prazo.
[0110] Outros modelos computacionais de qualidade de som podem, por exemplo, também ser usados em outras modalidades.
[0111] A seguir, o controle da qualidade de som é descrito.
[0112] O controle da qualidade de som pode ser implementado estimando-se o Componente de Qualidade de Som e parâmetros de processamento de computação com base na estimativa do Componente de Qualidade de Som ou estimando-se diretamente os parâmetros de processamento ideais, de modo que o Componente de Qualidade de Som atenda a um valor alvo
6 (ou não caia abaixo desse alvo).
[0113] A estimativa do componente de qualidade de som foi descrita acima. De maneira semelhante, os parâmetros de processamento ideais podem ser estimados treinando-se o método de regressão com os valores desejados para os parâmetros de processamento ideais. Os parâmetros de processamento ideais são computados conforme descrito abaixo. Este processamento é denominado como Módulo de Estimativa de Parâmetro (PEM - Parameter Estimation Module) a seguir.
[0114] O valor alvo para a qualidade de som determinará a compensação entre a separação e a qualidade de som. Este parâmetro pode ser controlado pelo usuário ou é especificado dependendo do cenário de reprodução de som. A reprodução do som em casa em um ambiente silencioso em equipamentos de alta qualidade pode se beneficiar de uma qualidade de som superior e de uma separação menor. A reprodução do som em veículos em um ambiente barulhento por meio de alto-falantes embutidos em um telefone inteligente pode se beneficiar de qualidade de som inferior, mas maior separação e inteligibilidade de fala.
[0115] Além disso, as quantidades estimadas (Componente de Qualidade de Som ou parâmetros de processamento) podem ser aplicadas posteriormente para controlar um pós-processamento ou para controlar uma separação secundária.
[0116] Consequentemente, quatro conceitos diferentes podem ser usados para a implementação do método proposto. Esses conceitos são ilustrados na Figura 2, Figura 3, Figura 4 e Figura 5 e são descritos a seguir.
[0117] A Figura 2 ilustra um aparelho de acordo com uma modalidade que está configurada para usar uma estimativa de qualidade de som e que está configurada para conduzir o pós-processamento.
[0118] De acordo com tal modalidade, o módulo de determinação 120 pode, por exemplo, ser configurado para estimar, dependendo de pelo menos um dentre o sinal alvo estimado e o sinal de entrada de áudio e o sinal residual estimado, um valor de qualidade de som como o um ou mais valores de resultado em que o valor da qualidade do som indica a qualidade do som estimada do sinal alvo estimado. O módulo de determinação 120 pode, por exemplo, ser configurado para determinar o um ou mais valores de parâmetro dependendo do valor de qualidade de som.
[0119] Assim, de acordo com uma modalidade, o módulo de determinação 120 pode, por exemplo, ser configurado para determinar, dependendo da qualidade de som estimada do sinal alvo estimado, um parâmetro de controle como o um ou mais valores de parâmetro. O processador de sinal 130 pode, por exemplo, ser configurado para determinar o sinal de áudio separado dependendo do parâmetro de controle e dependendo de pelo menos um dentre o sinal alvo estimado e o sinal de entrada de áudio e o sinal residual estimado.
[0120] Modalidades particulares são descritas a seguir:
[0121] Em uma primeira etapa, a separação é aplicada. O sinal separado e o sinal não processado são as entradas para um Módulo de Estimativa de Qualidade (QEM - Quality Estimation Module). O QEM computa uma estimativa para Componentes de Qualidade de Som,
%.
[0122] Os Componentes de Qualidade de Som
% estimados são usados para computar um conjunto de parâmetros ̂ para controlar o pós-processamento.
[0123] As variáveis
,
%, , e ̂ podem variar no tempo, mas a dependência do tempo é omitida a seguir por causa de uma notação clara.
[0124] Tal pós-processamento é, por exemplo, adicionar uma cópia em escala ou filtrada do sinal de entrada a uma cópia em escala ou filtrada do sinal de saída e, assim, reduzir a atenuação dos sinais de interferência (por exemplo, o efeito da separação), por exemplo, (13)
[0125] em que o parâmetro 7 controla a quantidade de separação.
[0126] Em outras modalidades, a fórmula: 8 = 7 ̂ & 1 5 7
[0127] pode, por exemplo, ser empregada, em que é o sinal residual estimado.
[0128] Reduzir a separação resulta em
[0129] 1) uma quantidade reduzida de artefatos e
[0130] 2) aumento do vazamento de sons de interferência que mascaram os artefatos de separação.
[0131] Assim, em uma modalidade, o processador de sinal 130 pode, por exemplo, ser configurado para determinar o sinal de áudio separado dependendo da fórmula (13), em que 8 é o sinal de áudio separado, em que ̂ é o sinal alvo estimado, em que é o sinal de entrada de áudio, em que 7 é o parâmetro de controle e em que é um índice.
[0132] O parâmetro é computado com base em uma estimativa da qualidade de som
% e uma medida de qualidade alvo
6 ,
(14)
[0133] Esta função pode ser, por exemplo, uma pesquisa extensa iterativa, conforme ilustrado pelo seguinte pseudocódigo.
[0134] Alternativamente, a relação ̂ =
% pode ser computada por
[0135] 1. Computar
%9 para um conjunto de valores 9 , = 1 … 1
[0136] 2. Computar os valores restantes de
% por interpolação e extrapolação.
[0137] Por exemplo, quando o parâmetro de processamento está controlando um pós-processamento como na Equação (13),
% é computado para um número fixo de valores de 7, por exemplo, que correspondem a 18, 12 e 6 dB de amplificação relativa de ̂ .
[0138] Portanto, o mapeamento ̂ =
% é aproximado e ̂ =
6 pode ser selecionado.
[0139] Sumarizando, em uma modalidade, o processador de sinal 130 pode, por exemplo, ser configurado para gerar o sinal de áudio separado determinando-se uma primeira versão do sinal de áudio separado e modificando-se o sinal de áudio separado uma ou mais vezes para obter uma ou mais versões intermediárias do sinal de áudio separado. O módulo de determinação 120 pode, por exemplo, ser configurado para modificar o valor de qualidade de som dependendo de um dentre o um ou mais valores intermediários do sinal de áudio separado. O processador de sinal 130 pode, por exemplo, ser configurado para parar de modificar o sinal de áudio separado, se o valor da qualidade do som for maior ou igual a um valor de qualidade definido.
[0140] A Figura 3 ilustra um aparelho de acordo com outra modalidade, em que a estimativa direta de parâmetros de pós- processamento é conduzida.
[0141] Primeiro, a separação é aplicada. Os sinais separados são a entrada para um Módulo de Estimativa de Parâmetro (PEM). Os parâmetros estimados são aplicados para controlar o pós-processamento. O PEM foi treinado para estimar diretamente p (n) a partir do sinal separado ̂ e do sinal de entrada . Isso significa que a operação na Eq. 14 é movida para a fase de treinamento e o método de regressão é treinado para estimar ̂ em vez de
%. Portanto, a seguinte função é aprendida.
(15)
[0142] É evidente que este procedimento tem a vantagem de exigir menos computações, ao contrário do procedimento descrito acima. Isso vem com o custo de ter menos flexibilidade, uma vez que o modelo é treinado para uma definição fixa de
6 . No entanto, muitos modelos podem ser treinados em diferentes valores de
6 . Desta forma, a flexibilidade final na escolha de
6 pode ser retida.
[0143] Em uma modalidade, o processador de sinal 130 pode, por exemplo, ser configurado para gerar o sinal de áudio separado, dependendo do um ou mais valores de parâmetro e dependendo de um pós-
processamento do sinal alvo estimado.
[0144] A Figura 4 ilustra um aparelho de acordo com uma outra modalidade, em que a estimativa da qualidade de som e da separação secundária é conduzida.
[0145] Primeiro, a separação é aplicada. Os sinais separados são a entrada para um QEM. Os Componentes de Qualidade de Som estimados são usados para computar um conjunto de parâmetros para controlar a separação secundária. A entrada para a separação secundária ; é o sinal de entrada ou a saída da primeira separação ̂ , uma combinação linear de ambos ; = + ̂ em que e são parâmetros de ponderação ou um resultado intermediário da primeira separação.
[0146] Assim, em tal modalidade, o processador de sinal 130 pode, por exemplo, ser configurado para gerar o sinal de áudio separado dependendo do um ou mais valores de parâmetro e dependendo de uma combinação linear do sinal alvo estimado e o sinal de entrada de áudio ou o processador de sinal 130 pode, por exemplo, ser configurado para gerar o sinal de áudio separado dependendo do um ou mais valores de parâmetro e dependendo de uma combinação linear do sinal alvo estimado e o sinal residual estimado.
[0147] Parâmetros adequados para controlar a separação secundária são, por exemplo, parâmetros que modificam os pesos espectrais.
[0148] A Figura 5 ilustra um aparelho de acordo com outra modalidade, em que a estimativa direta dos parâmetros de separação é conduzida.
[0149] Primeiro, a separação é aplicada. Os sinais separados são a entrada para um PEM. Os parâmetros estimados controlam a separação secundária.
[0150] A entrada para a separação secundária z(n) é o sinal de entrada x(n) ou a saída da primeira separação ̂ , uma combinação linear de ambos ; = + ̂ em que e são parâmetros de ponderação ou um resultado intermediário da primeira separação.
[0151] Por exemplo, os seguintes parâmetros são controlados: , e a partir das Equações (5), (6) e 0 conforme descrito acima.
[0152] Em relação ao processamento iterativo de acordo com as modalidades, as Figuras 4 e 5 representam um processamento iterativo com uma iteração. Em geral, isso pode ser repetido várias vezes e implementado em um circuito.
[0153] O processamento iterativo (sem estimativa de qualidade entre o mesmo) é muito semelhante a outros métodos anteriores que concatenam múltiplas separações.
[0154] Tal abordagem pode, por exemplo, ser adequada para combinar múltiplos métodos diferentes (o que é melhor do que repetir um método).
[0155] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa de método ou um recurso de uma etapa de método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item correspondente ou recurso de um aparelho correspondente. Parte ou todas as etapas do método podem ser executadas por (ou com o uso de) um aparelho de hardware, como, por exemplo, um microprocessador, um programa de computador programável ou um circuito eletrônico. Em algumas modalidades, uma ou mais dentre as etapas de método mais importantes podem ser executadas por tal aparelho.
[0156] Dependendo de certos requisitos de implementação, as modalidades da invenção podem ser implementadas em hardware ou software ou pelo menos parcialmente em hardware ou pelo menos parcialmente em software. A implementação pode ser realizada com o uso de uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, que têm sinais de controle eletronicamente legíveis armazenados nos mesmos, que cooperam (ou têm capacidade para cooperar) com um sistema de programa de computador programável de modo que o respectivo método seja realizado. Portanto, a mídia de armazenamento digital pode ser legível por computador.
[0157] Algumas modalidades, de acordo com a invenção, compreendem uma portadora de dados que tem sinais de controle eletronicamente legíveis, que têm capacidade para cooperar com um sistema de programa de computador programável, de modo que um dentre os métodos descritos no presente documento seja realizado.
[0158] De modo geral, as modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, sendo que o código de programa é operacional para realizar um dentre os métodos quando o produto de programa de computador for executado em um computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.
[0159] Outras modalidades compreendem o programa de computador para realizar um dentre os métodos descritos no presente documento, armazenado em uma portadora legível por máquina.
[0160] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para realizar um dentre os métodos descritos no presente documento, quando o programa de computador for executado em um computador.
[0161] Uma modalidade adicional dos métodos inventivos é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) que compreende, gravado na mesma, o programa de computador para realizar um dentre os métodos descritos no presente documento. A portadora de dados, a mídia de armazenamento digital ou a mídia gravada, são tipicamente tangíveis e/ou não transitórios.
[0162] Uma modalidade adicionalmente do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais podem, por exemplo, ser configurados para serem transferidos através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[0163] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador, um dispositivo de lógica programável, configurado ou adaptado para realizar um dos métodos descritos no presente documento.
[0164] Uma modalidade adicional compreende um computador que tem instalado no mesmo o programa de computador para executar um dos métodos descritos no presente documento.
[0165] Uma modalidade adicional de acordo com a invenção compreende um aparelho e um sistema configurados para transferir (por exemplo, eletronicamente ou opticamente) um programa de computador para executar um dos métodos descritos no presente documento para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhante. O aparelho ou sistema podem compreender, por exemplo, um servidor de arquivo para transferir o programa de computador para o receptor.
[0166] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, uma matriz de portas programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, um arranjo de porta programável em campo pode cooperar com um microprocessador a fim de realizar um dentre os métodos descritos no presente documento. Em geral, os métodos são de preferência realizados por qualquer aparelho de hardware.
[0167] O aparelho descrito no presente documento pode ser implementado com o uso de um aparelho de hardware, ou com o uso de um computador, ou com o uso de uma combinação de um aparelho de hardware e um computador.
[0168] Os métodos descritos no presente documento podem ser realizados com o uso de um aparelho de hardware, ou com o uso de um computador, ou com o uso de uma combinação de um aparelho de hardware e um computador.
[0169] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e as variações das disposições e os detalhes descritos no presente documento serão evidentes a outros elementos versados na técnica. É a intenção, portanto, ser limitado apenas pelo escopo das reivindicações de patentes iminentes e não pelos detalhes específicos apresentados por meio de descrição e explicação das modalidades no presente documento. REFERÊNCIAS:
[1] E. Vincent, R. Gribonval, e C. Févotte, “Performance measurement in blind audio source separation,” IEEE Transactions on Audio, Speech and Language Processing, vol. 14, nº 4, páginas 1462–1469, 2006.
[2] V. Emiya, E. Vincent, N. Harlander, e V. Hohmann, “Subjective and objective quality assessment of audio source separation,” IEEE Trans. Audio, Speech and Language Process., vol. 19, nº 7, 2011.
[3] R. Huber e B. Kollmeier, “PEMO-Q - a new method for objective audio quality assessment using a model of audatory perception,” IEEE
Trans. Audio, Speech and Language Process., vol. 14, 2006.
[4] ITU-R Rec. BS.1387-1, “Method for objective measurements of perceived audio quality,” 2001.
[5] ITU-T Rec. P.862, “Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs,” 2001.
[6] ITU-T Rec. P.862.1, “Mapping function for transforming P.862 raw results scores to MOS-LQO,” 2003.
[7] A. Hines, E. Gillen et al., “ViSQOLAudio: An Objective Audio Quality Metric for Low Bitrate Codecs,” J. Acoust. Soc. Am., vol. 137, nº 6, 2015.
[8] J. M. Kates e K. H. Arehart, “The Hearing-Aid Audio Quality Index (HAAQI),” IEEE Trans. Audio, Speech and Language Process., vol. 24, nº 2, 2016, código de avaliação cordialmente fornecido por Prof. J.M. Kates.
[9] J. M. Kates e K. H. Arehart, “The Hearing-Aid Speech Quality Index (HASQI) version 2,” Journal of the Audio Engineering Society, vol. 62, nº 3, páginas 99–117, 2014.
[10] J. M. Kates e K. H. Arehart, “The Hearing-Aid Speech Perception Index (HASPI),” Speech Communication, vol. 65, páginas 75–93,
2014.
[11] C. Taal, R. Hendriks, R. Heusdens, e J. Jensen, “An algorithm for intelligibility prediction of time-frequency weighted noisy speech,” IEEE Trans. Audio, Speech and Language Process., vol. 19, nº 7, 2011.
[12] E. Manilow, P. Seetharaman, F. Pishdadian, e B. Pardo, “Predicting algorithm efficacy for adaptive multi-cue source separation,” in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2017 IEEE Workshop em 2017, páginas 274–278.
[13] M. Cartwright, B. Pardo, G. J. Mysore, e M. Hoffman, “Fast and easy crowdsourced perceptual audio evaluation,” in Acoustics,
Speech and Signal Processing (ICASSP), 2016 Conferência Internacional IEEE em 2016.
[14] S.-W. Fu, T.-W. Wang, Y. Tsao, X. Lu, eH. Kawai, “End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks,” IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), vol. 26, nº 9, 2018.
[15] Y. Koizumi, K. Niwa, Y. Hioka, K. Koabayashi, e Y. Haneda, “Dnn-based source enhancement to increase objective sound quality assessment score,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018.
[16] Y. Zhao, B. Xu, R. Giri, and T. Zhang, “Perceptually guided speech enhancement using deep neural networks,” in Acoustics, Speech and Signal Processing (ICASSP), 2018, Conferência Internacional IEEE em 2018.
[17] Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, e Y. Haneda, “Dnn-based source enhancement self-optimized by reinforcement learning using sound quality measurements,” in Acoustics, Speech and Signal Processing (ICASSP), 2017, Conferência Internacional IEEE em 2017.
[18] J. Jensen e M. S. Pedersen, “Audio processing device comprising artifact reduction,” US Patent US 9.432.766 B2, 30 de agosto de 2016.

Claims (16)

REIVINDICAÇÕES
1. Aparelho para gerar um sinal de áudio separado de um sinal de entrada de áudio, caracterizado pelo fato de que o sinal de entrada de áudio compreende uma porção de sinal de áudio alvo e uma porção de sinal de áudio residual, em que a porção de sinal de áudio residual indica um residual entre o sinal de entrada de áudio e a porção de sinal de áudio alvo, sendo que o aparelho compreende: um separador de fonte (110) para determinar um sinal alvo estimado dependendo do sinal de entrada de áudio, em que o sinal alvo estimado é uma estimativa de um sinal que compreende apenas a porção de sinal de áudio alvo, um módulo de determinação (120), em que o módulo de determinação (120) é configurado para determinar um ou mais valores de resultado dependendo de uma qualidade de som estimada do sinal alvo estimado para obter um ou mais valores de parâmetro, em que o um ou mais valores de parâmetro são o um ou mais valores de resultado ou dependem do um ou mais valores de resultado, e um processador de sinal (130) para gerar o sinal de áudio separado dependendo do um ou mais valores de parâmetro e dependendo de pelo menos um dentre o sinal alvo estimado e o sinal de entrada de áudio e um sinal residual estimado, em que o sinal residual estimado é uma estimativa de um sinal que compreende apenas a porção de sinal de áudio residual, em que o processador de sinal (130) é configurado para gerar o sinal de áudio separado dependendo do um ou mais valores de parâmetro e dependendo de uma combinação linear do sinal alvo estimado e o sinal de entrada de áudio; ou em que o processador de sinal (130) é configurado para gerar o sinal de áudio separado dependendo do um ou mais valores de parâmetro e dependendo de uma combinação linear do sinal alvo estimado e do sinal residual estimado.
2. Aparelho, de acordo com a reivindicação 1,
caracterizado pelo fato de que o módulo de determinação (120) é configurado para determinar, dependendo da qualidade de som estimada do sinal alvo estimado, um parâmetro de controle como o um ou mais valores de parâmetro, e em que o processador de sinal é configurado para determinar o sinal de áudio separado dependendo do parâmetro de controle e dependendo de pelo menos um dentre o sinal alvo estimado e o sinal de entrada de áudio e o sinal residual estimado.
3. Aparelho, de acordo com a reivindicação 2, caracterizado pelo fato de que o processador de sinal (130) é configurado para determinar o sinal de áudio separado dependendo de: 8 = 7 ̂ + 1 − 7 , ou depende de: 8 = 7 ̂ + 1 − 7 , em que 8 é o sinal de áudio separado, em que ̂ é o sinal alvo estimado, em que é o sinal de entrada de áudio, em que é o sinal residual estimado, em que 7 é o parâmetro de controle, e em que é um índice.
4. Aparelho, de acordo com a reivindicação 2 ou 3, caracterizado pelo fato de que o módulo de determinação (120) é configurado para estimar, dependendo de pelo menos um dentre o sinal alvo estimado e o sinal de entrada de áudio e o sinal residual estimado, um valor de qualidade de som como o um ou mais valores de resultado, em que o valor de qualidade de som indica a qualidade de som estimada do sinal alvo estimado, e em que o módulo de determinação (120) é configurado para determinar o um ou mais valores de parâmetro dependendo do valor de qualidade de som.
5. Aparelho, de acordo com a reivindicação 4, caracterizado pelo fato de que o processador de sinal (130) é configurado para gerar o sinal de áudio separado determinando-se uma primeira versão do sinal de áudio separado e modificando-se o sinal de áudio separado uma ou mais vezes para obter uma ou mais versões intermediárias do sinal de áudio separado, em que o módulo de determinação (120) é configurado para modificar o valor de qualidade de som dependendo de um dentre o um ou mais valores intermediários do sinal de áudio separado, e em que o processador de sinal (130) está configurado para parar de modificar o sinal de áudio separado, se o valor da qualidade de som for maior ou igual a um valor de qualidade definido.
6. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o módulo de determinação (120) é configurado para determinar o um ou mais valores de resultado dependendo do sinal alvo estimado e dependendo de pelo menos um do sinal de entrada de áudio e o sinal residual estimado.
7. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o módulo de determinação (120) compreende uma rede neural artificial (125) para determinar o um ou mais valores de resultado dependendo do sinal alvo estimado, em que a rede neural artificial (125) é configurada para receber uma pluralidade de valores de entrada, sendo que cada um dos a pluralidade de valores de entrada depende de pelo menos um dentre o sinal alvo estimado e o sinal residual estimado e o sinal de entrada de áudio e em que a rede neural artificial (125) é configurada para determinar o um ou mais valores de resultado como um ou mais valores de saída da rede neural artificial (125).
8. Aparelho, de acordo com a reivindicação 7, caracterizado pelo fato de que cada um da pluralidade de valores de entrada depende de pelo menos um dentre o sinal alvo estimado e o sinal residual estimado e o sinal de entrada de áudio, e em que o um ou mais valores de resultado indicam a qualidade de som estimada do sinal alvo estimado.
9. Aparelho, de acordo com a reivindicação 7, caracterizado pelo fato de que cada um da pluralidade de valores de entrada depende de pelo menos um dentre o sinal alvo estimado e o sinal residual estimado e o sinal de entrada de áudio, e em que o um ou mais valores de resultado são o um ou mais valores de parâmetro.
10. Aparelho, de acordo com qualquer uma das reivindicações 7 a 9, caracterizado pelo fato de que a rede neural artificial (125) é configurada para ser treinada ao receber uma pluralidade de conjuntos de treinamento, em que cada um da pluralidade de conjuntos de treinamento compreende uma pluralidade de valores de treinamento de entrada da rede neural artificial (125) e um ou mais valores de treinamento de saída da rede neural artificial (125), em que cada um da pluralidade de valores de treinamento de saída depende de pelo menos um de um sinal alvo de treinamento e um sinal residual de treinamento e um sinal de entrada de treinamento, em que cada um dentre o um ou mais valores de treinamento de saída depende de uma estimativa de uma qualidade de som do sinal alvo de treinamento.
11. Aparelho, de acordo com a reivindicação 10, caracterizado pelo fato de que a estimativa da qualidade de som do sinal alvo de treinamento depende de um ou mais modelos computacionais de qualidade de som.
12. Aparelho, de acordo com a reivindicação 11,
caracterizado pelo fato de que o um ou mais modelos computacionais de qualidade de som são pelo menos um de: Avaliação de Separação Cega de Fonte, Métodos de Avaliação Perceptiva para Separação de Fonte de Áudio, Avaliação Perceptiva de Qualidade de Áudio, Avaliação Perceptiva da Qualidade da Fala, Áudio do Ouvinte de Objetivo de Qualidade da Fala Virtual, Índice de Qualidade de Áudio de Aparelhos Auditivos, Índice de Qualidade da Fala de Aparelhos Auditivos, Índice de Percepção de Fala de Aparelhos Auditivos, e Inteligibilidade Objetiva de Curto Prazo.
13. Aparelho, de acordo com qualquer uma das reivindicações 7 a 12, caracterizado pelo fato de que a rede neural artificial (125) é configurada para determinar o um ou mais valores de resultado dependendo do sinal alvo estimado e dependendo de pelo menos um dentre o sinal de entrada de áudio e o sinal residual estimado.
14. Aparelho, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o processador de sinal (130) é configurado para gerar o sinal de áudio separado dependendo do um ou mais valores de parâmetro e dependendo de um pós-processamento do sinal alvo estimado.
15. Método para gerar um sinal de áudio separado de um sinal de entrada de áudio, caracterizado pelo fato de que o sinal de entrada de áudio compreende uma porção de sinal de áudio alvo e uma porção de sinal de áudio residual, em que a porção de sinal de áudio residual indica um residual entre o sinal de entrada de áudio e a porção de sinal de áudio alvo, sendo que o método compreende: determinar um sinal alvo estimado dependendo do sinal de entrada de áudio, em que o sinal alvo estimado é uma estimativa de um sinal que compreende apenas a porção de sinal de áudio alvo, determinar um ou mais valores de resultado dependendo de uma qualidade de som estimada do sinal alvo estimado para obter um ou mais valores de parâmetro, em que o um ou mais valores de parâmetro são o um ou mais valores de resultado ou dependem do um ou mais valores de resultado, e gerar o sinal de áudio separado dependendo do um ou mais valores de parâmetro e dependendo de pelo menos um dentre o sinal alvo estimado e o sinal de entrada de áudio e um sinal residual estimado, em que o sinal residual estimado é uma estimativa de um sinal que compreende apenas a porção de sinal de áudio residual, em que a geração do sinal de áudio separado é conduzida dependendo do um ou mais valores de parâmetro e dependendo de uma combinação linear do sinal alvo estimado e do sinal de entrada de áudio; ou em que a geração do sinal de áudio separado é conduzida dependendo do um ou mais valores de parâmetro e dependendo de uma combinação linear do sinal alvo estimado e do sinal residual estimado.
16. Programa de computador caracterizado pelo fato de que, quando executado em um computador ou processador de sinal, implementa o método, conforme definido na reivindicação 15.
BR112021012308-3A 2018-12-21 2019-12-20 Aparelho e método para separação de fonte com o uso de uma estimativa e controle de qualidade de som BR112021012308A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18215707.3A EP3671739A1 (en) 2018-12-21 2018-12-21 Apparatus and method for source separation using an estimation and control of sound quality
EP18215707.3 2018-12-21
PCT/EP2019/086565 WO2020127900A1 (en) 2018-12-21 2019-12-20 Apparatus and method for source separation using an estimation and control of sound quality

Publications (1)

Publication Number Publication Date
BR112021012308A2 true BR112021012308A2 (pt) 2021-09-08

Family

ID=65011753

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021012308-3A BR112021012308A2 (pt) 2018-12-21 2019-12-20 Aparelho e método para separação de fonte com o uso de uma estimativa e controle de qualidade de som

Country Status (10)

Country Link
US (1) US20210312939A1 (pt)
EP (2) EP3671739A1 (pt)
JP (1) JP7314279B2 (pt)
KR (1) KR102630449B1 (pt)
CN (1) CN113574597B (pt)
BR (1) BR112021012308A2 (pt)
CA (1) CA3124017C (pt)
ES (1) ES2966063T3 (pt)
MX (1) MX2021007323A (pt)
WO (1) WO2020127900A1 (pt)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116997962A (zh) * 2020-11-30 2023-11-03 杜比国际公司 基于卷积神经网络的鲁棒侵入式感知音频质量评估
CN113470689B (zh) * 2021-08-23 2024-01-30 杭州国芯科技股份有限公司 一种语音分离方法
US11763826B2 (en) 2021-10-27 2023-09-19 WingNut Films Productions Limited Audio source separation processing pipeline systems and methods
WO2023073598A1 (en) * 2021-10-27 2023-05-04 WingNut Films Productions Limited Audio source separation processing pipeline systems and methods
US20230126779A1 (en) * 2021-10-27 2023-04-27 WingNut Films Productions Limited Audio Source Separation Systems and Methods
CN113850246B (zh) * 2021-11-30 2022-02-18 杭州一知智能科技有限公司 基于对偶一致网络的声源定位与声源分离的方法和***
CN117475360B (zh) * 2023-12-27 2024-03-26 南京纳实医学科技有限公司 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808571A (zh) * 2005-01-19 2006-07-26 松下电器产业株式会社 声音信号分离***及方法
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
DE102011084035A1 (de) * 2011-10-05 2013-04-11 Nero Ag Vorrichtung, verfahren und computerprogramm zur bewertung einer wahrgenommenen audioqualität
EP2747081A1 (en) 2012-12-18 2014-06-25 Oticon A/s An audio processing device comprising artifact reduction
BR112015021520B1 (pt) * 2013-03-05 2021-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Aparelho e método para criar um ou mais sinais do canal de saída de áudio dependendo de dois ou mais sinais do canal de entrada de áudio
EP2790419A1 (en) * 2013-04-12 2014-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
GB2516483B (en) * 2013-07-24 2018-07-18 Canon Kk Sound source separation method
JP6143887B2 (ja) 2013-12-26 2017-06-07 株式会社東芝 方法、電子機器およびプログラム
WO2016033269A1 (en) * 2014-08-28 2016-03-03 Analog Devices, Inc. Audio processing using an intelligent microphone
US10397711B2 (en) 2015-09-24 2019-08-27 Gn Hearing A/S Method of determining objective perceptual quantities of noisy speech signals
MX2018003529A (es) * 2015-09-25 2018-08-01 Fraunhofer Ges Forschung Codificador y metodo para codificar una se?al de audio con ruido de fondo reducido que utiliza codificacion predictiva lineal.
KR20170101629A (ko) * 2016-02-29 2017-09-06 한국전자통신연구원 스테레오 오디오 신호 기반의 다국어 오디오 서비스 제공 장치 및 방법
EP3220661B1 (en) * 2016-03-15 2019-11-20 Oticon A/s A method for predicting the intelligibility of noisy and/or enhanced speech and a binaural hearing system
US10861478B2 (en) * 2016-05-30 2020-12-08 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
DK3252766T3 (da) * 2016-05-30 2021-09-06 Oticon As Audiobehandlingsanordning og fremgangsmåde til estimering af signal-til-støj-forholdet for et lydsignal
CN106531190B (zh) 2016-10-12 2020-05-05 科大讯飞股份有限公司 语音质量评价方法和装置
CN106847301A (zh) * 2017-01-03 2017-06-13 东南大学 一种基于压缩感知和空间方位信息的双耳语音分离方法
EP3474280B1 (en) * 2017-10-19 2021-07-07 Goodix Technology (HK) Company Limited Signal processor for speech signal enhancement
CN107993671A (zh) * 2017-12-04 2018-05-04 南京地平线机器人技术有限公司 声音处理方法、装置和电子设备
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation

Also Published As

Publication number Publication date
ES2966063T3 (es) 2024-04-18
MX2021007323A (es) 2021-08-24
JP2022514878A (ja) 2022-02-16
JP7314279B2 (ja) 2023-07-25
CN113574597B (zh) 2024-04-12
KR102630449B1 (ko) 2024-01-31
CA3124017A1 (en) 2020-06-25
CA3124017C (en) 2024-01-16
US20210312939A1 (en) 2021-10-07
KR20210110622A (ko) 2021-09-08
EP3899936B1 (en) 2023-09-06
EP3899936A1 (en) 2021-10-27
EP3671739A1 (en) 2020-06-24
CN113574597A (zh) 2021-10-29
WO2020127900A1 (en) 2020-06-25
EP3899936C0 (en) 2023-09-06

Similar Documents

Publication Publication Date Title
BR112021012308A2 (pt) Aparelho e método para separação de fonte com o uso de uma estimativa e controle de qualidade de som
JP5259759B2 (ja) サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置
WO2005117517A2 (en) Neuroevolution-based artificial bandwidth expansion of telephone band speech
KR20110088036A (ko) 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
Huang et al. Speech denoising via low‐rank and sparse matrix decomposition
RU2715026C1 (ru) Устройство кодирования для обработки входного сигнала и устройство декодирования для обработки кодированного сигнала
Abdullah et al. Towards more efficient DNN-based speech enhancement using quantized correlation mask
Taal et al. A low-complexity spectro-temporal distortion measure for audio processing applications
Kates Modeling the effects of single-microphone noise-suppression
Torcoli et al. Comparing the effect of audio coding artifacts on objective quality measures and on subjective ratings
JP6162254B2 (ja) 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法
Srinivasarao et al. Speech enhancement-an enhanced principal component analysis (EPCA) filter approach
Wang Speech enhancement in the modulation domain
Ghorpade et al. Single-channel speech enhancement using single dimension change accelerated particle swarm optimization for subspace partitioning
RU2782364C1 (ru) Устройство и способ отделения источников с использованием оценки и управления качеством звука
Gonzalez et al. Investigating the Design Space of Diffusion Models for Speech Enhancement
JP6673861B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
CN112530446A (zh) 频带扩展方法、装置、电子设备及计算机可读存储介质
Liu et al. MOS Prediction Network for Non-intrusive Speech Quality Assessment in Online Conferencing.
Li et al. Joint Noise Reduction and Listening Enhancement for Full-End Speech Enhancement
US20240127842A1 (en) Apparatus, Methods and Computer Programs for Audio Signal Enhancement Using a Dataset
Mahé et al. Correction of the voice timbre distortions in telephone networks: method and evaluation
WO2019208137A1 (ja) 音源分離装置、その方法、およびプログラム
WO2024083809A1 (en) Apparatus and method for quality determination of audio signals
JP6554853B2 (ja) 雑音抑圧装置及びプログラム