ES2926360T3 - Método y aparato para detectar señales de audio - Google Patents

Método y aparato para detectar señales de audio Download PDF

Info

Publication number
ES2926360T3
ES2926360T3 ES19197660T ES19197660T ES2926360T3 ES 2926360 T3 ES2926360 T3 ES 2926360T3 ES 19197660 T ES19197660 T ES 19197660T ES 19197660 T ES19197660 T ES 19197660T ES 2926360 T3 ES2926360 T3 ES 2926360T3
Authority
ES
Spain
Prior art keywords
subband
ssnr
audio signal
signal
snr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19197660T
Other languages
English (en)
Inventor
Zhe Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2926360T3 publication Critical patent/ES2926360T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Noise Elimination (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Las realizaciones de la presente invención proporcionan un método para detectar una señal de audio y un aparato, donde el método incluye: determinar una señal de audio de entrada como una señal de audio a determinar; determinar una relación señal/ruido segmental mejorada (SSNR) de la señal de audio, donde la SSNR mejorada es mayor que una SSNR de referencia; y comparar el SSNR mejorado con un umbral de decisión de detección de actividad de voz (VAD) para determinar si la señal de audio es una señal activa. De acuerdo con el método y el aparato provistos en las realizaciones de la presente invención, una voz activa y una voz inactiva pueden distinguirse con precisión. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Método y aparato para detectar señales de audio
Campo técnico
Las realizaciones de la presente invención se refieren al campo de las tecnologías de procesamiento de señales, y más específicamente, a un método para detectar una señal de audio y un aparato.
Antecedentes
La detección de actividad de voz (VAD) es una tecnología clave ampliamente utilizada en campos tales como las comunicaciones de voz y la interacción hombre-máquina. La VAD también puede denominarse detección de actividad de sonido (SAD). La VAD se utiliza para detectar si existe una señal activa en una señal de audio de entrada, donde la señal activa es relativa a una señal inactiva (tal como ruido ambiental de fondo y una voz muda). Las señales activas típicas incluyen una voz, música y similares. Un principio de la VAD es que uno o más parámetros de características se extraen de una señal de audio de entrada, uno o más valores de características se determinan según uno o más parámetros de características, y a continuación uno o más valores de características se comparan con uno o más umbrales.
En la técnica anterior, un método de detección de señal activa basado en una relación señal/ruido segmental (SSNR) incluye: dividir una señal de audio de entrada en múltiples señales de subbanda en una banda de frecuencia, calcular energía de la señal de audio en cada subbanda, y comparar la energía de la señal de audio en cada subbanda con la energía estimada de una señal de ruido de fondo en cada subbanda, con el fin de obtener una relación señal/ruido (SNR) de la señal de audio en cada subbanda; y a continuación determinar una SSNR según una SNR de subbanda de cada subbanda, y comparar la SSNR con un umbral de decisión de VAD predeterminado, donde si la SSNR excede el umbral de decisión de VAD, la señal de audio es una señal activa, o si la SSNR no excede el umbral de decisión de VAD, la señal de audio es una señal inactiva.
Un método típico para calcular la SSNR es sumar todos los SNR de subbanda de la señal de audio, y un resultado obtenido es la SSNR. Por ejemplo, la SSNR puede determinarse utilizando la fórmula 1.1:
donde k indica la sub- banda k-ésima, snr(k) indica una SNR de subbanda de la subbanda k-ésima, y N indica una cantidad total de subbanda de subbandas en las que se divide la señal de audio.
Cuando el método anterior para calcular la SSNR se utiliza para detectar una voz activa, puede producirse una detección errónea de una voz activa.
El documento US2013/191117A1 describe que en sistemas de procesamiento de voz, la compensación se hace para cambios repentinos en el ruido de fondo en el cálculo de la relación señal/ruido (SNR) promedio. El filtrado atípico de SNR puede utilizarse, solo o junto con la ponderación de la SNR promedio. Los pesos adaptativos pueden aplicarse sobre las SNR por banda antes de calcular la SNR promedio. La función de ponderación puede ser una función de nivel de ruido, tipo de ruido y/o valor de SNR instantáneo. Otro mecanismo de ponderación aplica un filtrado nulo o un filtrado atípico que establece que sea cero el peso en una banda particular. Esta banda particular se puede caracterizar como la que exhibe una SNR que es varias veces más elevada que las SNR en otras bandas.
El documento US 2013/304464A1 proporciona un método y un aparato para detectar de forma adaptativa una actividad de voz en una señal de audio de entrada compuesta de tramas. El método comprende las operaciones de: determinar una característica de ruido de la señal de entrada basándose en una trama recibida de la señal de audio de entrada; derivar un parámetro de detección de actividad de voz (VAD) basándose en la característica de ruido de la señal de audio de entrada; y comparar el parámetro VAD derivado con el valor umbral para proporcionar una decisión de detección de actividad de voz.
Weiwu Jiang y col. en “A new voice activity detection method using maximized sub-band SNR” (Un nuevo método de detección de actividad de voz que utilizan SNR de subbanda maximizada) presenta un método de detección de actividad de voz (VAD) novedoso que utiliza un Valor Máximo de la SNR de subbanda (MVSS) como la característica de detección. La nueva característica MVSS propuesta tiene diferentes distribuciones entre la señal de voz y la señal que no son de voz, que es útil para separar la señal de voz del ruido fuerte. Un umbral adaptativo se aplica para mejorar las precisiones VAD y seguir la señal ruidosa rápidamente sin cálculos complejos.
Compendio
Las realizaciones de la presente invención proporcionan un método para detectar una señal de audio y un aparato, que puede distinguir con precisión entre una voz activa y una voz inactiva.
La invención se define en las reivindicaciones adjuntas. A continuación, casos de la palabra “realización (realizaciones)”, que se refiere a realizaciones que no entran dentro del alcance de las reivindicaciones, se refieren a ejemplos que originalmente se han archivado pero que no representan realizaciones de la invención actualmente reivindicada; estos ejemplos se muestran aún, solamente para propósitos ilustrativos.
Según un primer aspecto, una realización de la presente invención proporciona un método implementado por ordenador para detectar una señal de audio, donde el método incluye: determinar una señal de audio de entrada como una señal de audio que se ha de determinar; determinar un relación señal/ruido segmental mejorada (SSNR) de la señal de audio, donde la SSNR mejorada es mayor que una SSNR de referencia; y comparar la SSNR mejorada con un umbral de decisión de detección de actividad de voz (VAD) para determinar si la señal de audio es una señal activa.
Según la invención, el método implementado por ordenador incluye además: determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que se determina que la señal de audio es una señal sin voz.
Según la invención, el método implementado por ordenador incluye además: determinar una SSNR de referencia de la señal de audio; y determinar la SSNR mejorada según la SSNR de referencia de la señal de audio.
Con referencia a una implementación del primer aspecto, la determinación de la SSNR mejorada según la SSNR de referencia de la señal de audio incluye: determinar la SSNR mejorada utilizando la siguiente fórmula: SSNR' = x * SSNR y, donde SSNR indica la SSNR de referencia, SSNR' indica la SSNR mejorada, y x e y indican los parámetros de mejora.
Según un segundo aspecto, una realización de la presente invención proporciona un método implementado por ordenador para detectar una señal de audio, donde el método incluye: determinar una señal de audio de entrada como una señal de audio que se ha de determinar; determinar un peso de una SNR de subbanda de cada subbanda en la señal de audio, donde un peso de una SNR de subbanda de una subbanda de porción de alta frecuencia cuya SNR de subbanda es mayor que un primer umbral predeterminado es mayor que un peso de una SNR de subbanda de otra subbanda; determinar una SSNR mejorada según la SNR de subbanda de cada subbanda y el peso de la SNR de subbanda de cada subbanda en la señal de audio, donde la SSNR mejorada es mayor que una SSNR de referencia; y comparar la SSNR mejorada con un umbral de decisión de VAD para determinar si la señal de audio es una señal activa.
Según un cuarto aspecto, una realización de la presente invención proporciona un aparato, donde el aparato incluye: una primera unidad de determinación, configurada para determinar una señal de audio de entrada como una señal de audio que se ha de determinar; una segunda unidad de determinación, configurada para determinar una SSNR mejorada de la señal de audio, donde la SSNR mejorada es mayor que una SSNR de referencia; y una tercera unidad de determinación, configurada para comparar la SSNR mejorada con un umbral de decisión de VAD para determinar si la señal de audio es una señal activa.
Según la invención, la primera unidad de determinación está configurada específicamente para determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que se determina que la señal de audio es una señal sin voz.
Según una realización, la segunda unidad de determinación está configurada específicamente para determinar un pero de una SNR de subbanda de cada subbanda en la señal de audio, donde un peso de una SNR de subbanda de una subbanda de porción de alta frecuencia cuya SNR de subbanda es mayor que el primer umbral predeterminado que es mayor que un peso de una SNR de subbanda de otra subbanda, y determina la SSNR mejorada según la SNR de subbanda de cada subbanda y el peso de la SNR de subbanda de cada subbanda en la señal de audio.
Según la invención, la segunda unidad de determinación está configurada específicamente para determinar una SSNR de referencia de la señal de audio; y determinar la SSNR mejorada según la SSNR de referencia de la señal de audio.
Según una realización, la segunda unidad de determinación está configurada específicamente para determinar la SSNR mejorada utilizando la siguiente fórmula: SSNR’ = x * SSNR y, donde SSNR indica la s Sn R de referencia, SSNR’ indica la SSNR mejorada y x e y indican los parámetros de mejora.
Según la invención, la primera unidad de determinación está configurada específicamente para determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que se determina que la señal de audio es una señal sin voz.
Según el método proporcionado en las realizaciones de la presente invención, se puede determinar una característica de una señal de audio, se determina una SSNR mejorada de la manera correspondiente según la característica de la señal de audio, y la SSNR mejorada se compara con un umbral de decisión de VAD, de manera que pueda reducirse una proporción de detección errónea de una señal activa.
Breve descripción de los dibujos
Para describir las soluciones técnicas en las realizaciones de la presente invención más claramente, a continuación se describen brevemente los dibujos adjuntos necesarios para describir las realizaciones de la presente invención.
Aparentemente, los dibujos adjuntos en la siguiente descripción muestran simplemente algunas realizaciones de la presente invención, y un experto en la técnica puede deducir otros dibujos a partir de estos dibujos anexos sin esfuerzos creativos.
La fig. 1 es un diagrama de flujo esquemático de un método para detectar una señal de audio según una realización de la presente invención;
La fig. 2 es un diagrama de flujo esquemático de un método para detectar una señal de audio según una realización de la presente invención;
La fig. 3 es un diagrama de flujo esquemático de un método para detectar una señal de audio según una realización de la presente invención;
La fig. 4 es un diagrama de flujo esquemático de un método para detectar una señal de audio según un ejemplo ilustrativo que no forma parte de la invención;
La fig. 5 es un diagrama de bloques estructural de un aparato según una realización de la presente invención;
La fig. 6 es un diagrama de bloques estructural de otro aparato según una realización de la presente invención;
La fig. 7 es un diagrama de bloques estructural de un aparato según una realización de la presente invención;
La fig. 8 es un diagrama de bloques estructural de otro aparato según una realización de la presente invención;
La fig. 9 es un diagrama de bloques estructural de otro aparato según un ejemplo ilustrativo que no forma parte de la invención; y
La fig. 10 es un diagrama de bloques estructural de otro aparato según un ejemplo ilustrativo que no forma parte de la invención.
Descripción de realizaciones
Lo siguiente describe clara y completamente las soluciones técnicas en las realizaciones de la presente invención con referencia a los dibujos adjuntos en las realizaciones preferidas de la presente invención. Aparentemente, las realizaciones descritas son simplemente algunas, pero no todas las realizaciones de la presente invención.
La fig. 1 es un diagrama de flujo esquemático de un método para detectar una señal de audio según una realización de la presente invención.
101. Determinar una señal de audio de entrada como una señal de audio que se ha de determinar.
102. Determinar una SSNR mejorada de la señal de audio, donde la SSNR mejorada es mayor que una SSNR de referencia.
103. Comparar la SSNR mejorada con un umbral de decisión de VAD para determinar si la señal de audio es una señal activa.
En esta realización de la presente invención, cuando la SSNR mejorada se compara con el umbral de decisión de VAD, se puede utilizar un umbral de decisión de VAD de referencia, o se puede utilizar un umbral de decisión de VAD reducido obtenido después de que se reduzca un umbral de decisión de VAD de referencia utilizando un algoritmo predeterminado. El umbral de decisión de VAD de referencia puede ser un umbral de decisión de VAD por defecto, y el umbral de decisión de VAD de referencia puede almacenarse previamente, o puede obtenerse temporalmente a través del cálculo, donde el umbral de decisión de VAD de referencia puede calcularse utilizando una tecnología existente bien conocida. Cuando el umbral de decisión de VAD de referencia se reduce utilizando el algoritmo predeterminado, el algoritmo predeterminado puede estar multiplicando el umbral de decisión de VAD de referencia por un coeficiente que sea menor que 1, o se puede utilizar otro algoritmo. Esta realización de la presente invención no impone limitación en un algoritmo específico utilizado.
Cuando se utiliza un método de cálculo SSNR convencional para calcular las SSNR de algunas señales de audio, las SSNR de estas señales de audio pueden ser inferiores a un umbral de decisión de VAD predeterminado. Sin embargo, en realidad, estas señales de audio son señales de audio activas. Esto es provocado por las características de estas señales de audio. Por ejemplo, en un caso en el que una SNR ambiental es relativamente baja, una SNR de subbanda de una parte de alta frecuencia se reduce significativamente. Además, ya que una teoría psicoacústica se utiliza generalmente para realizar la división de subbanda, la SNR de subbanda de la parte de alta frecuencia tiene una contribución relativamente baja a una SSNR. En este caso, para algunas señales, tal como una señal sin voz, cuya energía se centraliza principalmente en una parte de frecuencia relativamente alta, una SSNR obtenida a través del cálculo utilizando el método de cálculo SSNR convencional puede ser inferior al umbral de decisión de VAD, lo que provoca una detección errónea de una señal activa. Para otro ejemplo, para algunas señales de audio, la distribución de energía de estas señales de audio es relativamente plana en un espectro, pero la energía general de estas señales de audio es relativamente baja. Por lo tanto, en el caso en que una SNR ambiental es relativamente baja, una SSNR obtenida a través del cálculo utilizando el método de cálculo SSNR convencional puede ser inferior al umbral de decisión de VAD. En el método mostrado en la FIG. 1, se utiliza una manera de aumentar adecuadamente una SSNR, de manera que la SSNR puede ser mayor que un umbral de decisión de VAD. Por lo tanto, puede reducirse de manera eficaz una proporción de detección errónea de una señal activa.
La fig. 2 es un diagrama de flujo esquemático de un método para detectar una señal de audio según una realización de la presente invención.
201. Determinar una SNR de subbanda de una señal de audio de entrada.
Un espectro de la señal de audio de entrada se divide en N subbandas, donde N es un entero positivo mayor que 1. Específicamente, puede usarse una teoría psicoacústica para dividir el espectro de la señal de audio. En un caso en el que la teoría psicoacústica se utiliza para dividir el espectro de la señal de audio, un ancho de una subbanda más cercana a una baja frecuencia es más estrecho, y un ancho de una subbanda más cercana a una alta frecuencia es más amplio. Ciertamente, el espectro de la señal de audio también puede dividirse de otra manera, por ejemplo, una manera de dividir uniformemente el espectro de la señal de audio en N subbandas. Se calcula una SNR de subbanda de cada subbanda de la señal de audio de entrada, donde la SNR de subbanda es una relación de energía de la subbanda a energía de ruido de fondo en la subbanda. La energía del ruido de fondo en la subbanda generalmente es un valor estimado obtenido por estimación por un estimador de ruido de fondo. Cómo utilizar el estimador de ruido de fondo para estimar la energía de ruido de fondo correspondiente a cada subbanda es una tecnología bien conocida de este campo. Por lo tanto, no es necesario describir detalles en la presente memoria. Un experto en la técnica puede comprender que la SNR de subbanda puede ser una relación de energía directa, o puede ser otra forma de expresión de una relación de energía directa, tal como una SNR de subbanda logarítmica. Además, un experto en la técnica puede comprender además que la SNR de subbanda también puede ser una SNR de subbanda obtenida después de que se realice un procesamiento lineal o no lineal en una SNR de subbanda directa, o puede ser otra transformación de la SNR de subbanda. La relación de energía directa de la SNR de subbanda se muestra en la siguiente fórmula:
stu{k) = E(k)/ En(k) Fórmula 1.2
donde snr(k) indica una SNR de subbanda de la subbanda k-ésima, y E(k) y En(k) indican respectivamente la energía de la subbanda k-ésima y la energía del ruido de fondo en la subbanda k-ésima. Una SNR de subbanda logarítmica se puede indicar como: snrlog(k) = 10xlog10snr(k), donde snrlog(k) indica una SNR de subbanda logarítmica de la subbanda k-ésima, y snr(k) indica una SNR de subbanda que es de la subbanda k-ésima y se obtiene a través del cálculo utilizando la fórmula 1.2. Un experto en la técnica puede comprender además que la energía de subbanda utilizada para calcular una SNR de subbanda puede ser energía de la señal de audio de entrada en una subbanda, o puede ser energía obtenida después de la energía del ruido de fondo en una subbanda se resta de la energía de la señal de audio de entrada en la subbanda. El cálculo de la SNR es correcto sin desviarse del significado de la SNR.
202. Determinar la señal de audio de entrada como una señal de audio que se ha de determinar.
Según la invención, si la señal de audio de entrada es una señal de audio que se ha de determinar puede determinarse determinando si la señal de audio de entrada es una señal sin voz. Específicamente, la determinación de la señal de audio de entrada como una señal de audio que se ha de determinar incluye: determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que se determina que la señal de audio es una señal sin voz. Específicamente, un experto en la técnica puede comprender que puede haber múltiples métodos para detectar si la señal de audio es una señal sin voz. Por ejemplo, si la señal de audio es una señal sin voz puede determinarse detectando una tasa de cruce por cero en el dominio del tiempo (ZCR) de la señal de audio. Específicamente, en un caso en el que la ZCR de la señal de audio es mayor que un umbral de ZCR, se determina que la señal de audio es una señal sin voz, donde el umbral de ZCR se determina según una gran cantidad de experimentos.
203. Determinar una SSNR mejorada de la señal de audio, donde la SSNR mejorada es mayor que una SSNR de referencia.
La SSNR de referencia puede ser una SSNR obtenida a través del cálculo utilizando la fórmula 1.1. A partir de la fórmula 1.1 se puede ver que el procesamiento de ponderación no se realiza en una SNR de subbanda de ninguna subbanda cuando se está calculando la SSNR de referencia, es decir, los pesos de las SNR de subbanda de todas las subbandas son iguales cuando SSNR de referencia se está calculando.
Opcionalmente, en una realización, en un caso en el que la cantidad de subbandas de porción de alta frecuencia que se encuentran en la señal de audio y cuyas SNR de subbanda son mayores que el primer umbral predeterminado es mayor que la primera cantidad, o en un caso en el que la cantidad de subbandas de porción de alta frecuencia que se encuentran en la señal de audio y cuyas SNR de subbanda son mayores que el primer umbral predeterminado es mayor que la segunda cantidad, y la cantidad de subbandas de porción de baja frecuencia que se encuentran en la señal de audio y cuyas SNR de subbanda son menores que el segundo umbral predeterminado es mayor que la tercera cantidad, la determinación de una SSNR mejorada de la señal de audio incluye: determinar un peso de una SNR de subbanda de cada subbanda banda en la señal de audio, donde un peso de una subbanda de porción de alta frecuencia cuya SNR de subbanda es mayor que el primer umbral predeterminado es mayor que un peso de una SNR de subbanda de otra subbanda; y determinar la SSNR mejorada según la SNR de subbanda de cada subbanda y el peso de la SNR de subbanda de cada subbanda en la señal de audio.
Por ejemplo, si la señal de audio se divide en 20 subbandas, es decir, de la subbanda 0 a la subbanda 19, según la teoría psicoacústica, y las relaciones de señal/ruido de la subbanda 18 y la subbanda 19 son ambas mayores que un primer valor T1 predeterminado, se pueden agregar cuatro subbandas, es decir, la subbanda 20 a la subbanda 23. Específicamente, la subbanda 18 y la subbanda 19 cuyas relaciones señal/ruido son mayores que T1 pueden dividirse respectivamente en la subbanda 18a, la subbanda 18b y la subbanda 18c; y la subbanda 19a, la subbanda 19b y la subbanda 19c. En este caso, la subbanda 18 puede considerarse como una subbanda madre de la subbanda 18a, la subbanda 18b y la subbanda 18c, y la subbanda 19 puede considerarse como una subbanda madre de subbanda -banda 19a, subbanda 19b y subbanda 19c. Los valores de las relaciones señal/ruido de la subbanda 18a, la subbanda 18b y la subbanda 18c son los mismos que un valor de la relación señal/ruido de su subbanda madre y los valores de las relaciones señal/ruido de la subbanda 19a, la subbanda 19b y la subbanda 19c son las mismas que un valor de la relación señal/ruido de su subbanda madre. De esta manera, las 20 subbandas que se han obtenido originalmente a través de la división se vuelven a dividir en 24 subbandas. Ya que la VAD todavía está diseñada según las 20 subbandas durante la detección de señal activa, las 24 subbandas necesitan asignarse de nuevo a las 20 subbandas para determinar la SSNR mejorada. En conclusión, cuando la SSNR mejorada se determina aumentando la cantidad de subbandas de porción de alta frecuencia cuyas SNR de subbanda son mayores que el primer umbral predeterminado, el cálculo puede realizarse utilizando la siguiente fórmula:
Figure imgf000006_0001
Fórmula 1.3
donde SSNR' indica la SSNR mejorada, y snr(k) indica una SNR de subbanda de la subbanda k-ésima.
Si una SSNR obtenida a través del cálculo utilizando la fórmula 1.1 es la SSNR de referencia, la SSNR de referencia obtenida a través del cálculo es 2Íc=o s n r (k ) . Obviamente, para una señal de audio de un primer tipo, un valor de la SSNR mejorada obtenida a través del cálculo utilizando la fórmula 1.3 es mayor que un valor de la SSNR de referencia obtenida a través del cálculo utilizando la fórmula 1.1.
Para otro ejemplo, si la señal de audio se divide en 20 subbandas, es decir, de la subbanda 0 a la subbanda 19, según la teoría psicoacústica, snr(18) y snr(19) son ambas mayores que un primer valor T1 predeterminado y snr(0) a snr(17) son todas menores que un segundo umbral T2 predeterminado, la SSNR mejorada se puede determinar utilizando lo siguiente:
17
SSNR ' = ax x snr(\ 8 ) a , x snr{ 19 ) £ snr(k)
Fórmula 1.4
donde SSNR' indica la SSNR mejorada, snr(k) indica una SNR de subbanda de la subbanda k-ésima, a1 y a2 son parámetros de aumento de peso y valores de a1 y a2 hacen a1 x snr(18) a2 x snr(19) mayor que snr(18) snr(19). Obviamente, un valor de la SSNR mejorada obtenido a través del cálculo utilizando la fórmula 1.4 es mayor que el valor de la SSNR de referencia obtenido a través del cálculo utilizando la fórmula 1.1.
Opcionalmente, en otra realización, la determinación de una SSNR mejorada de la señal de audio incluye: determinar una SSNR de referencia de la señal de audio y determinar la SSNR mejorada según la SSNR de referencia de la señal de audio.
Opcionalmente, la SSNR mejorada se puede determinar utilizando la siguiente fórmula:
SSNR'= x* SSNR y Fórmula 1.5
donde SSNR indica la SSNR de referencia de la señal de audio, SSNR' indica la SSNR mejorada, y x e y indican parámetros de mejora. Por ejemplo, un valor de x puede ser 1,05, y un valor de y puede ser 1. Un experto en la técnica puede comprender que, los valores de x e y pueden ser otros valores adecuados que hacen que la SSNR mejorada sea mayor que la SSNR de referencia correctamente.
Opcionalmente, la SSNR mejorada se puede determinar utilizando la siguiente fórmula:
Fórmula 1.6
donde SSNR indica una SSNR original de la señal de audio, SSNR' indica la SSNR mejorada, y /(x) y h(y) indican funciones de mejora. Por ejemplo, /(x ) y h(y) pueden ser funciones relacionadas con una relación señal/ruido a largo plazo (LSNR) de la señal de audio, donde la LSNR de la señal de audio es una SNR promedio o una SNR ponderada dentro de un período de tiempo relativamente largo. Por ejemplo, cuando la lsnr es mayor que 20, f(lsnr) puede ser igual a 1.1, e y(lsnr) puede ser igual a 2; cuando la lsnr es menor que 20 y mayor que 15, f(lsnr) puede ser igual a 1,05, e y(lsnr) puede ser igual a 1; y cuando la lsnr es menor que 15, f(lsnr) puede ser igual a 1 e y(lsnr) puede ser igual a 0. Un experto en la técnica puede comprender que, /(x) y h(y) pueden estar en otras formas adecuadas que hacen que la SSNR mejorada sea mayor que la SSNR de referencia correctamente.
204. Comparar la SSNR mejorada con un umbral de decisión de VAD para determinar si la señal de audio es una señal activa.
Específicamente, cuando la SSNR mejorada se compara con el umbral de decisión de VAD, si la SSNR mejorada es mayor que el umbral de decisión de VAD, se determina que la señal de audio es una señal activa; o si la SSNR mejorada no es mayor que el umbral de decisión de VAD, se determina que la señal de audio es una señal inactiva.
Opcionalmente, en otra realización, antes de comparar la SSNR mejorada con un umbral de decisión de VAD, el método puede incluir además: utilizar un algoritmo predeterminado para reducir el umbral de decisión de VAD, con el fin de obtener un umbral de decisión de VAD reducido. En este caso, la comparación de la SSNR mejorada con un umbral de decisión de VAD incluye específicamente: comparar la SSNR mejorada con el umbral de decisión de VAD reducido para determinar si la señal de audio es una señal activa. Un umbral de decisión de VAD de referencia puede ser un umbral de decisión de VAD por defecto, y el umbral de decisión de VAD de referencia puede almacenarse previamente o puede obtenerse temporalmente a través del cálculo, donde el umbral de decisión de VAD de referencia puede calcularse utilizando una tecnología existente bien conocida. Cuando el umbral de decisión de VAD de referencia se reduce utilizando el algoritmo predeterminado, el algoritmo predeterminado puede estar multiplicando el umbral de decisión de VAD de referencia por un coeficiente que sea menor que 1, o se puede utilizar otro algoritmo. Esta realización de la presente invención no impone limitación en un algoritmo específico utilizado. El umbral de decisión de VAD puede reducirse adecuadamente utilizando el algoritmo predeterminado, de manera que la SSNR mejorada sea mayor que el umbral de decisión de VAD reducido. Por lo tanto, puede reducirse una proporción de detección errónea de una señal activa.
Según el método mostrado en la fig. 2, se determina una característica de una señal de audio, se determina una SSNR mejorada de manera correspondiente según la característica de la señal de audio, y la SSNR mejorada se compara con un umbral de decisión de VAD. De esta manera, puede reducirse una proporción de detección errónea de una señal activa.
La fig. 3 es un diagrama de flujo esquemático de un método para detectar una señal de audio según una realización de la presente invención.
301. Determinar una señal de audio de entrada como una señal de audio que se ha de determinar.
302. Determinar un peso de una SNR de subbanda de cada subbanda en la señal de audio, donde un peso de una SNR de subbanda de una subbanda de porción de alta frecuencia cuya SNR de subbanda es mayor que un primer umbral predeterminado es mayor que un peso de una SNR de subbanda de otra subbanda.
303. Determinar una SSNR mejorada según la SNR de subbanda de cada subbanda y el peso de la SNR de subbanda de cada subbanda en la señal de audio, donde la SSNR mejorada es mayor que una SSNR de referencia.
La SSNR de referencia puede ser una SSNR obtenida a través del cálculo utilizando la fórmula 1.1. A partir de la fórmula 1.1 se puede ver que el procesamiento de ponderación no se realiza sobre una SNR de subbanda de ninguna subbanda cuando se calcula la SSNR de referencia, es decir, los pesos de las SNR de subbanda de todas las subbandas son iguales cuando SSNR de referencia se está calculando.
Por ejemplo, si la señal de audio se divide en 20 subbandas, es decir, de la subbanda 0 a la subbanda 19, según una teoría psicoacústica, y las relaciones señal/ruido de la subbanda 18 y la subbanda 19 son ambas mayores que un primer valor T1 predeterminado, se pueden agregar cuatro subbandas, es decir, la subbanda 20 a la subbanda 23. Específicamente, la subbanda 18 y la subbanda 19 cuyas relaciones señal/ruido son mayores que T1 pueden dividirse respectivamente en la subbanda 18a, la subbanda 18b y la subbanda 18c; y la subbanda 19a, la subbanda 19b y la subbanda 19c. En este caso, la subbanda 18 puede considerarse como una subbanda madre de la subbanda 18a, la subbanda 18b y la subbanda 18c, y la subbanda 19 puede considerarse como una subbanda madre de subbanda -banda 19a, subbanda 19b y subbanda 19c. Los valores de las relaciones señal/ruido de la subbanda 18a, la subbanda 18b y la subbanda 18c son los mismos que un valor de la relación señal/ruido de su subbanda madre y los valores de las relaciones señal/ruido de la subbanda 19a, la subbanda 19b y la subbanda 19c son los mismos que un valor de la relación de señal a ruido de su subbanda madre. De esta manera, las 20 subbandas que se han obtenido originalmente a través de la división se vuelven a dividir en 24 subbandas. Ya que la VAD está diseñada aún según las 20 subbandas durante la detección de señal activa, las 24 subbandas necesitan asignarse de nuevo a las 20 subbandas para determinar la SSNR mejorada. En conclusión, cuando la SSNR mejorada se determina aumentando una cantidad de subbandas de porción de alta frecuencia cuyas SNR de subbanda son mayores que el primer umbral predeterminado, el cálculo puede realizarse utilizando la siguiente fórmula:
Figure imgf000008_0001
Fórmula 1.3
donde SSNR' indica la SSNR mejorada, y snr(k) indica una SNR de subbanda de la subbanda k-ésima.
Si una SSNR obtenida a través del cálculo utilizando la fórmula 1.1 es la SSNR de referencia, la SSNR de referencia obtenida a través del cálculo es 'Ek=o s n r (k ). Obviamente, para una señal de audio de un primer tipo, un valor de la SSNR mejorada obtenido a través del cálculo utilizando la fórmula 1.3 es mayor que un valor de la SSNR de referencia obtenido a través del cálculo utilizando la fórmula 1.1.
Para otro ejemplo, si la señal de audio se divide en 20 subbandas, es decir, de la subbanda 0 a la subbanda 19, según la teoría psicoacústica, snr(18) y snr(19) son ambas mayores que un primer valor T1 predeterminado y snr(0) a snr(17) son todos menores que un segundo umbral T2 predeterminado, la SSNR mejorada se puede determinar utilizando la siguiente fórmula:
17
SSNR' = ax x snr{\ 8) + a, x snr( 19) £ snr(k )
Fórmula 1.4
donde SSNR' indica la SSNR mejorada, snr(k) indica una SNR de subbanda de la subbanda k-ésima, a1 y a2 son parámetros que aumentan de peso y valores de a1 y a2 hacen a1 x snr(18) a2 x snr(19) mayor que snr(18) snr(19).
Obviamente, un valor de la SSNR mejorada obtenido a través del cálculo utilizando la fórmula 1.4 es mayor que el valor de la SSNR de referencia obtenido a través del cálculo utilizando la fórmula 1.1.
304. Comparar la SSNR mejorada con un umbral de decisión de VAD para determinar si la señal de audio es una señal activa.
Específicamente, cuando la SSNR mejorada se compara con el umbral de decisión de VAD, si la SSNR mejorada es mayor que el umbral de decisión de VAD, se determina que la señal de audio es una señal activa; o si la SSNR mejorada no es mayor que el umbral de decisión de VAD, se determina que la señal de audio es una señal inactiva.
Según el método mostrado en la fig. 3, se puede determinar una característica de una señal de audio, se determina una SSNR mejorada de una manera correspondiente según la característica de la señal de audio y la SSNR mejorada se compara con un umbral de decisión de VAD. Por lo tanto, puede reducirse una proporción de detección errónea de una señal activa.
Además, la determinación de una señal de audio de entrada como una señal de audio que se ha de determinar incluye: determinar la señal de audio como una señal de audio que se ha de determinar según una SNR de subbanda de la señal de audio.
En realizaciones de la fig. 1 a la fig. 3, si una señal de audio de entrada es una señal activa se determina como quien dice utilizando una SSNR mejorada. En un método mostrado en la fig. 4, si una señal de audio de entrada es una señal activa se determina como quien dice reduciendo un umbral de decisión de VAD.
La fig. 4 es un diagrama de flujo esquemático de un método para detectar una señal de audio según un ejemplo ilustrativo que no forma parte de la presente invención.
401. Determinar una señal de audio de entrada como una señal de audio que se ha de determinar.
Opcionalmente, la determinación de una señal de audio de entrada como una señal de audio que se ha de determinar incluye: determinar la señal de audio como una señal de audio que se ha de determinar según la SNR de subbanda que es de la señal de audio y determinado en la operación 201.
Opcionalmente, en un caso en el que la señal de audio se determina como una señal de audio que se ha de determinar según la SNR de subbanda de la señal de audio, la determinación de una señal de audio de entrada como una señal de audio que se ha de determinar incluye: determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que una cantidad de subbandas de porción de alta frecuencia que se encuentran en la señal de audio y cuyas SNR de subbanda son mayores que un primer umbral predeterminado es mayor que una primera cantidad.
Opcionalmente, en un caso en el que la señal de audio se determina como una señal de audio que se ha de determinar según la SNR de subbanda de la señal de audio, la determinación de una señal de audio de entrada como una señal de audio que se ha de determinar incluye: determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que una cantidad de subbandas de porción de alta frecuencia que se encuentran en la señal de audio y cuyas SNR de subbanda son mayores que un primer umbral predeterminado es mayor que una segunda cantidad, y una cantidad de subbandas de porción de baja frecuencia que se encuentran en la señal de audio y cuyas SNR de subbanda son menores que un segundo umbral predeterminado es mayor que una tercera cantidad.
Opcionalmente, en un caso en el que la señal de audio se determina como una señal de audio que se ha de determinar según la SNR de subbanda de la señal de audio, la determinación de una señal de audio de entrada como una señal de audio que se ha de determinar incluye: determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que una cantidad de subbandas que se encuentran en la señal de audio y cuyos valores de las SNR de subbanda son mayores que un tercer umbral predeterminado es mayor que una cuarta cantidad.
El primer umbral predeterminado y el segundo umbral predeterminado pueden obtenerse mediante la recopilación de estadísticas según una gran cantidad de muestras de voz. Específicamente, las estadísticas sobre las SNR de subbanda de las subbandas de porción de alta frecuencia se recopilan en una gran cantidad de muestras sin voz, incluyendo el ruido de fondo, y el primer umbral predeterminado se determina según las SNR de subbanda, de manera que las SNR de subbanda de la mayoría de las subbandas de porción de alta frecuencia en estas muestras de voz sin voz son mayores que el primer umbral predeterminado. De manera similar, las estadísticas sobre las SNR de subbanda de las subbandas de porción de baja frecuencia se recopilan en estas muestras de voz sin voz, y el segundo umbral predeterminado se determina según las SNR de subbanda, de manera que las SNR de subbanda de la mayoría de las subbandas de porción de baja frecuencia en estas muestras de voz sin voz son menores que el segundo umbral predeterminado.
El tercer umbral predeterminado también se obtiene mediante la recopilación de estadísticas. Específicamente, el tercer umbral predeterminado se determina según las SNR de subbanda de una gran cantidad de señales de ruido, de manera que las SNR de subbanda de la mayoría de las subbandas en estas señales de ruido son menores que el tercer umbral predeterminado.
La primera cantidad, la segunda cantidad, la tercera cantidad y la cuarta cantidad también se obtienen mediante la recopilación de estadísticas. La primera cantidad se utiliza como un ejemplo, donde en una gran cantidad de tramas de muestra de voz sin voz, incluyendo el ruido, se recopilan estadísticas sobre una cantidad de subbandas de subbandas de porción de alta frecuencia cuyas SNR de subbanda son mayores que el primer umbral predeterminado, y la primera cantidad se determina según la cantidad, de manera que una cantidad de subbandas de porción de alta frecuencia que se encuentran en la mayoría de estas tramas de muestra de voz sin voz y cuyas SNR de subbanda son mayores que el primer umbral predeterminado es mayor que la primera cantidad. Un método para adquirir la segunda cantidad es similar a un método para adquirir la primera cantidad. La segunda cantidad puede ser la misma que la primera cantidad, o la segunda cantidad puede ser diferente de la primera cantidad. De manera similar, para la tercera cantidad, en la gran cantidad de tramas de muestra de voz sin voz, incluyendo el ruido, se recopilan estadísticas sobre una cantidad de subbandas de subbandas de porción de baja frecuencia cuyas SNR de subbanda son menores que el segundo umbral predeterminado, y la tercera cantidad se determina según la cantidad, de manera que una cantidad de subbandas de porción de baja frecuencia que se encuentran en la mayoría de estas tramas de muestra de voz sin voz y cuyas SNR de subbanda son menores que el segundo umbral predeterminado es mayor que la tercera cantidad. Para la cuarta cantidad, en una gran cantidad de tramas de señal de ruido, se recopilan estadísticas sobre una cantidad de subbandas cuyas SNR de subbanda son menores que el tercer umbral predeterminado, y la cuarta cantidad se determina según la cantidad, de manera que una cantidad de subbandas que se encuentran en la mayoría de estas tramas de muestra de ruido y cuyas SNR de subbanda son menores que el tercer umbral predeterminado es mayor que la cuarta cantidad
Opcionalmente, si la señal de audio de entrada es una señal de audio que se ha de determinar puede determinarse determinando si la señal de audio de entrada es una señal sin voz. En este caso, no es necesario determinar la SNR de subbanda de la señal de audio cuando se determina si la señal de audio es una señal de audio que se ha de determinar. En otras palabras, la operación 201 no necesita realizarse cuando se determina si la señal de audio es una señal de audio que se ha de determinar. Específicamente, la determinación de una señal de audio de entrada como una señal de audio que se ha de determinar incluye: determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que se determina que la señal de audio es una señal sin voz. Específicamente, un experto en la técnica puede comprender que puede haber múltiples métodos para detectar si la señal de audio es una señal sin voz. Por ejemplo, si la señal de audio es una señal sin voz puede determinarse detectando una ZCR de dominio de tiempo de la señal de audio. Específicamente, en un caso en el que la ZCR de la señal de audio es mayor que un umbral de ZCR, se determina que la señal de audio es una señal sin voz, donde el umbral de ZCR se determina según una gran cantidad de experimentos.
402. Adquirir una SSNR de referencia de la señal de audio.
Específicamente, la SSNR de referencia puede ser una SSNR obtenida a través del cálculo utilizando la fórmula 1.1.
403. Utilizar un algoritmo predeterminado para reducir un umbral de decisión de VAD de referencia, con el fin de obtener un umbral de decisión de VAD reducido.
Específicamente, el umbral de decisión de VAD de referencia puede ser un umbral de decisión de VAD por defecto, y el umbral de decisión de VAD de referencia puede almacenarse previamente o puede obtenerse temporalmente a través del cálculo, donde el umbral de decisión de VAD de referencia puede calcularse utilizando una tecnología existente bien conocida Cuando el umbral de decisión de VAD de referencia se reduce utilizando el algoritmo predeterminado, el algoritmo predeterminado puede estar multiplicando el umbral de decisión de VAD de referencia por un coeficiente que sea menor que 1, o se puede utilizar otro algoritmo. Esta realización de la presente invención no impone limitación en un algoritmo específico utilizado. El umbral de decisión de VAD puede reducirse adecuadamente utilizando el algoritmo predeterminado, de manera que una SSNR mejorada sea mayor que el umbral de decisión de VAD reducido. Por lo tanto, puede reducirse una proporción de detección errónea de una señal activa.
404. Comparar la SSNR de referencia con el umbral de decisión de VAD reducido para determinar si la señal de audio es una señal activa.
Cuando se utiliza un método de cálculo de SSNR convencional para calcular las SSNR de algunas señales de audio, las SSNR de estas señales de audio pueden ser inferiores a un umbral de decisión de VAD predeterminado. Sin embargo, en realidad, estas señales de audio son señales de audio activas. Esto es provocado por las características de estas señales de audio. Por ejemplo, en un caso en el que una SNR ambiental es relativamente baja, una SNR de subbanda de una parte de alta frecuencia se reduce significativamente. Además, ya que una teoría psicoacústica se utiliza generalmente para realizar una división de subbanda, la SNR de subbanda de la parte de alta frecuencia tiene una contribución relativamente baja a una SSNR. En este caso, para algunas señales, como una señal sin voz, cuya energía se centraliza principalmente en una parte de frecuencia relativamente alta, una SSNR obtenida a través del cálculo utilizando el método de cálculo de SSNR convencional puede ser inferior al umbral de decisión de VAD, lo que provoca una detección errónea de una señal activa. Para otro ejemplo, para algunas señales de audio, la distribución de energía de estas señales de audio es relativamente plana en un espectro, pero la energía general de estas señales de audio es relativamente baja. Por lo tanto, en el caso en que una SNR ambiental es relativamente baja, una SSNR obtenida a través del cálculo utilizando el método de cálculo de SSNR convencional puede ser inferior al umbral de decisión de VAD. En el método mostrado en la fig. 4, se utiliza una manera de reducir un umbral de decisión de VAD, de manera que una SSNR obtenida a través del cálculo utilizando el método de cálculo de SSNR convencional es mayor que el umbral de decisión de VAD. Por lo tanto, puede reducirse de manera eficaz una proporción de detección errónea de una señal activa.
La fig. 5 es un diagrama de bloques estructural de un aparato según una realización de la presente invención. El aparato mostrado en la fig. 5 puede realizar todas las operaciones mostradas en la fig. 1 o en la fig. 2. Como se muestra en la fig. 5, un aparato 500 incluye una primera unidad 501 de determinación, una segunda unidad 502 de determinación y una tercera unidad 503 de determinación.
La primera unidad 501 de determinación está configurada para determinar una señal de audio de entrada como una señal de audio que se ha de determinar.
La segunda unidad 502 de determinación está configurada para determinar una relación señal/ruido segmental (SSNR) mejorada de la señal de audio, donde la SSNR mejorada es mayor que una SSNR de referencia.
La tercera unidad 503 de determinación está configurada para comparar la SSNR mejorada con un umbral de decisión de detección de actividad de voz (VAD) para determinar si la señal de audio es una señal activa.
El aparato 500 mostrado en la fig. 5 puede determinar una característica de una señal de audio de entrada, determinar una SSNR mejorada de una manera correspondiente según la característica de la señal de audio, y comparar la SSNR mejorada con un umbral de decisión de VAD, de manera que pueda reducirse una proporción de detección errónea de una señal activa.
Según la invención, la primera unidad 501 de determinación está configurada específicamente para determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que se determina que la señal de audio es una señal sin voz. Específicamente, un experto en la técnica puede comprender que puede haber múltiples métodos para detectar si la señal de audio es una señal sin voz. Por ejemplo, si la señal de audio es una señal sin voz puede determinarse detectando una ZCR de dominio de tiempo de la señal de audio. Específicamente, en un caso en el que la ZCR de la señal de audio es mayor que un umbral de ZCR, se determina que la señal de audio es una señal sin voz, donde el umbral de ZCR se determina según una gran cantidad de experimentos.
Además, la segunda unidad 502 de determinación está configurada específicamente para determinar un peso de una SNR de subbanda de cada subbanda en la señal de audio, donde el peso de una subbanda de porción de alta frecuencia cuya SNR de subbanda es mayor que el primer umbral predeterminado es mayor que el peso de una SNR de subbanda de otra subbanda, y determinar la SSNR mejorada según la SNR de cada subbanda y el peso de la SNR de subbanda de cada subbanda en la señal de audio.
Según la invención, la segunda unidad 502 de determinación está configurada específicamente para determinar una SSNR de referencia de la señal de audio, y determinar la SSNR mejorada según la SSNR de referencia de la señal de audio.
La SSNR de referencia puede ser una SSNR obtenido a través del cálculo utilizando la fórmula 1.1. Cuando se calcula la SSNR de referencia, los pesos de los SNR de subbanda que son de todas las subbandas y que están incluidos en la SSNR son los mismos en la SSNR.
Opcionalmente, en otra realización, la segunda unidad 502 de determinación está configurada específicamente para determinar la SSNR mejorada utilizando la siguiente fórmula:
Fórmula 1.7
donde SSNR indica la SSNR de referencia, SSNR' indica la SSNR mejorada, y x e y indican los parámetros de mejora. Por ejemplo, un valor de x puede ser 1,05, y un valor de y puede ser 1. Un experto en la técnica puede comprender que los valores de x e y pueden ser otros valores adecuados que hacen que la SSNR mejorada sea mayor que la SSNR de referencia correctamente.
Opcionalmente, en otra realización, la segunda unidad 502 de determinación está configurada específicamente para determinar la SSNR mejorada utilizando la siguiente fórmula:
Fórmula 1.8
donde SSNR indica la SSNR de referencia, SSNR' indica la SSNR mejorada, y /(x) y h(y) indican funciones de mejora. Por ejemplo, /(x) y h(y) pueden ser funciones relacionadas con LSNR de la señal de audio, donde la LSNR de la señal de audio es una SNR promedio o una SNR ponderada dentro de un período de tiempo relativamente largo. Por ejemplo, cuando la lsnr es mayor que 20, f(lsnr) puede ser igual a 1.1, e y(lsnr) puede ser igual a 2; cuando lsnr es menor que 20 y mayor que 15, f(lsnr) puede ser igual a 1,05, e y(lsnr) puede ser igual a 1; y cuando lsnr es menor que 15, f(lsnr) puede ser igual a 1, e y(lsnr) puede ser igual a 0. Un experto en la técnica puede comprender que /(x ) y h(y) pueden estar en otras formas adecuadas que hacen que la SSNR mejorada sea mayor que la SSNR de referencia correctamente.
La tercera unidad 503 de determinación está configurada específicamente para comparar la SSNR mejorada con el umbral de decisión de VAD para determinar, según un resultado de la comparación, si la señal de audio es una señal activa. Específicamente, si la SSNR mejorada es mayor que el umbral de decisión de VAD, se determina que la señal de audio es una señal activa, o si la SSNR mejorada es menor que el umbral de decisión de VAD, se determina que la señal de audio es una señal inactiva.
Opcionalmente, en otra realización, también se puede utilizar un algoritmo predeterminado para reducir un umbral de decisión de VAD de referencia para obtener un umbral de decisión de VAD reducido, y el umbral de decisión de VAD reducido se utiliza para determinar si la señal de audio es una señal activa. En este caso, el aparato 500 puede incluir además una cuarta unidad 504 de determinación, donde la cuarta unidad 504 de determinación está configurada para utilizar un algoritmo predeterminado para reducir el umbral de decisión de VAD, con el fin de obtener un umbral de decisión de VAD reducido. En este caso, la tercera unidad 503 de determinación está configurada específicamente para comparar la SSNR mejorada con el umbral de decisión de VAD reducido para determinar si la señal de audio es una señal activa.
La fig. 6 es un diagrama de bloques estructural de otro aparato según una realización de la presente invención. El aparato mostrado en la fig. 6 puede realizar todas las operaciones mostradas en la fig. 3. Como se muestra en la fig.
6, un aparato 600 incluye una primera unidad 601 de determinación, una segunda unidad 602 de determinación y una tercera unidad 603 de determinación.
La primera unidad 601 de determinación está configurada para determinar una señal de audio de entrada como una señal de audio que se ha de determinar.
La segunda unidad 602 de determinación está configurada para determinar un peso de una SNR de subbanda de cada subbanda en la señal de audio, donde un peso de una SNR de subbanda de una subbanda de porción de alta frecuencia cuya SNR de subbanda es mayor que un primer umbral predeterminado es mayor que un peso de una SNR de subbanda de otra subbanda y determinar una SSNR mejorada según la SNR de subbanda de cada subbanda y el peso de la SNR de subbanda de cada subbanda en la señal de audio, donde la SSNR mejorada es mayor que una SSNR de referencia.
La tercera unidad 603 de determinación está configurada para comparar la SSNR mejorada con un umbral de decisión de VAD para determinar si la señal de audio es una señal activa.
El aparato 600 mostrado en la fig. 6 puede determinar una característica de una señal de audio de entrada, determinar una SSNR mejorada de una manera correspondiente según la característica de la señal de audio y comparar la SSNR mejorada con un umbral de decisión de VAD, de manera que pueda reducirse una proporción de detección errónea de una señal activa.
Además, la primera unidad 601 de determinación está configurada específicamente para determinar la señal de audio como una señal de audio que se ha de determinar según una SNR de subbanda de la señal de audio.
La fig. 7 es un diagrama de bloques estructural de un aparato según una realización de la presente invención. El aparato mostrado en la fig. 7 puede realizar todas las operaciones mostradas en la fig. 1 o en la fig. 2. Como se muestra en la fig. 7, un aparato 700 incluye un procesador 701 y una memoria 702. El procesador 701 puede ser un procesador de propósito general, un procesador de señal digital (DSP), un circuito integrado específico de aplicación (ASIC), una matriz de puertas programables en campo (FPGA) u otro componente lógico programable, una puerta discreta o un componente lógico de transistor, o un componente de hardware discreto, que puede implementar o realizar los métodos, las operaciones y los diagramas de bloques lógicos descritos en las realizaciones de la presente invención. El procesador de propósito general puede ser un microprocesador o el procesador puede ser cualquier procesador convencional o similar. Las operaciones de los métodos descritos en las realizaciones de la presente invención pueden ejecutarse directamente mediante un procesador de decodificación de hardware, o ejecutarse mediante una combinación de módulos de hardware y software en un procesador de decodificación. El módulo de software puede ubicarse en un medio de almacenamiento maduro en la técnica, tal como una memoria de acceso aleatorio (RAM), una memoria flash, una memoria de solo lectura (ROM), una memoria de solo lectura programable, una memoria programable que se puede borrar eléctricamente, o un registro. El medio de almacenamiento está ubicado en la memoria 702. El procesador 701 lee una instrucción de la memoria 702 y completa las operaciones de los métodos anteriores en combinación con el hardware.
El procesador 701 está configurado para determinar una señal de audio de entrada como una señal de audio que se ha de determinar.
El procesador 701 está configurado para determinar una SSNR mejorada de la señal de audio, donde la SSNR mejorada es mayor que una SSNR de referencia.
El procesador 701 está configurado para comparar la SSNR mejorada con un umbral de decisión de VAD para determinar si la señal de audio es una señal activa.
El aparato 700 mostrado en la fig. 7 puede determinar una característica de una señal de audio de entrada, determinar una SSNR mejorada de una manera correspondiente según la característica de la señal de audio, y comparar la SSNR mejorada con un umbral de decisión de VAD, de manera que pueda reducirse una proporción de detección errónea de una señal activa.
Según la invención, el procesador 701 está configurado específicamente para determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que se determina que la señal de audio es una señal sin voz. Específicamente, un experto en la técnica puede comprender que puede haber múltiples métodos para detectar si la señal de audio es una señal sin voz. Por ejemplo, si la señal de audio es una señal sin voz puede determinarse detectando una ZCR de dominio de tiempo de la señal de audio. Específicamente, en un caso en el que la ZCR de la señal de audio es mayor que un umbral de ZCR, se determina que la señal de audio es una señal sin voz, donde el umbral de ZCR se determina según una gran cantidad de experimentos.
Además, el procesador 701 está configurado específicamente para determinar un peso de una SNR de subbanda de cada subbanda en la señal de audio, donde un peso de una subbanda de porción de alta frecuencia cuya SNR de subbanda es mayor que la primera el umbral predeterminado es mayor que un peso de una SNR de subbanda de otra subbanda y determinar la SSNR mejorada según la SNR de cada subbanda y el peso de la SNR de subbanda de cada subbanda en el audio señal.
Según la invención, el procesador 701 está configurado específicamente para determinar una SSNR de referencia de la señal de audio, y determinar la SSNR mejorada según la SSNR de referencia de la señal de audio.
La SSNR de referencia puede ser una SSNR obtenida a través del cálculo utilizando la fórmula 1.1. Cuando se calcula la SSNR de referencia, los pesos de los SNR de subbanda que son de todas las subbandas y que están incluidos en la SSNR son los mismos en la SSNR.
Opcionalmente, en otra realización, el procesador 701 está configurado específicamente para determinar la SSNR mejorada utilizando la siguiente fórmula:
Fórmula 1.7
donde SSNR indica la SSNR de referencia, SSNR' indica la SSNR mejorada, y x e y indican los parámetros de mejora. Por ejemplo, un valor de x puede ser 1,07, y un valor de y puede ser 1. Un experto en la técnica puede comprender que los valores de x e y pueden ser otros valores adecuados que hacen que la SSNR mejorada sea mayor que la SSNR de referencia correctamente.
Opcionalmente, en otra realización, el procesador 701 está configurado específicamente para determinar la SSNR mejorada utilizando la siguiente fórmula:
Fórmula 1.8 donde SSNR indica la SSNR de referencia, SSNR' indica la SSNR mejorada, y /(x) y h(y) indican funciones de mejora. Por ejemplo, /(x ) y h(y) pueden ser funciones relacionadas con una LSNR de la señal de audio, donde la LSNR de la señal de audio es una SNR promedio o una SNR ponderada dentro de un período de tiempo relativamente largo. Por ejemplo, cuando la lsnr es mayor que 20, f(lsnr) puede ser igual a 1.1, e y(lsnr) puede ser igual a 2; cuando la lsnr es menor que 20 y mayor que 17, f(lsnr) puede ser igual a 1,07, e y(lsnr) puede ser igual a 1; y cuando la lsnr es menor que 17, f(lsnr) puede ser igual a 1 e y(lsnr) puede ser igual a 0. Un experto en la técnica puede comprender que /(x) y h(y) pueden estar en otras formas adecuadas que hacen que la SSNR mejorada sea mayor que la SSNR de referencia correctamente.
El procesador 701 está configurado específicamente para comparar la SSNR mejorada con el umbral de decisión de VAD para determinar, según un resultado de la comparación, si la señal de audio es una señal activa. Específicamente, si la SSNR mejorada es mayor que el umbral de decisión de VAD, se determina que la señal de audio es una señal activa, o si la SSNR mejorada es menor que el umbral de decisión de VAD, se determina que la señal de audio es una señal inactiva.
Opcionalmente, en otra realización, también se puede utilizar un algoritmo predeterminado para reducir un umbral de decisión de VAD de referencia para obtener un umbral de decisión de VAD reducido, y el umbral de decisión de VAD reducido se utiliza para determinar si la señal de audio es una señal activa. En este caso, el procesador 701 puede configurarse adicionalmente para utilizar un algoritmo predeterminado para reducir el umbral de decisión de VAD, con el fin de obtener un umbral de decisión de VAD reducido. En este caso, el procesador 701 está configurado específicamente para comparar la SSNR mejorada con el umbral de decisión de VAD reducido para determinar si la señal de audio es una señal activa.
La fig. 8 es un diagrama de bloques estructural de otro aparato según una realización de la presente invención. El aparato mostrado en la fig. 8 puede realizar todas las operaciones mostradas en la fig. 3. Como se muestra en la fig.
8, un aparato 800 incluye un procesador 801 y una memoria 802. El procesador 801 puede ser un procesador de propósito general, un DSP, un ASIC, una FPGA u otro componente lógico programable, una puerta discreta o un componente lógico de transistor, o un componente de hardware discreto, que puede implementar o realizar los métodos, las operaciones y los diagramas de bloques lógicos descritos en las realizaciones de la presente invención. El procesador de propósito general puede ser un microprocesador o el procesador puede ser cualquier procesador convencional o similar. Las operaciones de los métodos descritos en las realizaciones de la presente invención pueden ejecutarse directamente mediante un procesador de decodificación de hardware, o ejecutarse mediante una combinación de módulos de hardware y software en un procesador de decodificación. El módulo de software puede ubicarse en un medio de almacenamiento maduro en la técnica, tal como una RAM, una memoria flash, una ROM, una memoria de solo lectura programable, una memoria programable que se puede borrar eléctricamente, o un registro. El medio de almacenamiento se encuentra en la memoria 802. El procesador 801 lee una instrucción de la memoria 802 y completa las operaciones de los métodos anteriores en combinación con el hardware.
El procesador 801 está configurado para determinar una señal de audio de entrada como una señal de audio que se ha de determinar.
El procesador 801 está configurado para determinar un peso de una SNR de subbanda de cada subbanda en la señal de audio, donde un peso de una SNR de subbanda de una subbanda de porción de alta frecuencia cuya SNR de subbanda es mayor que un primer umbral predeterminado es mayor que un peso de una SNR de subbanda de otra subbanda y determinar una SSNR mejorada según la SNR de subbanda de cada subbanda y el peso de la SNR de subbanda de cada subbanda en la señal de audio, donde la SSNR mejorada es mayor que una SSNR de referencia.
El procesador 801 está configurado para comparar la SSNR mejorada con un umbral de decisión de VAD para determinar si la señal de audio es una señal activa.
El aparato 800 mostrado en la fig. 8 puede determinar una característica de una señal de audio de entrada, determinar una SSNR mejorada de manera correspondiente según la característica de la señal de audio y comparar la SSNR mejorada con un umbral de decisión de VAD, de manera que pueda reducirse una proporción de detección errónea de una señal activa.
La fig. 9 es un diagrama de bloques estructural de otro aparato según un ejemplo ilustrativo que no forma parte de la presente invención. Un aparato 900 mostrado en la fig. 9 puede realizar todas las operaciones mostradas en la fig. 4. Como se muestra en la fig. 9, el aparato 900 incluye una primera unidad 901 de determinación, una segunda unidad 902 de determinación, una tercera unidad 903 de determinación y una cuarta unidad 904 de determinación.
La primera unidad 901 de determinación está configurada para determinar una señal de audio de entrada como una señal de audio que se ha de determinar.
La segunda unidad 902 de determinación está configurada para adquirir una SSNR de referencia de la señal de audio.
Específicamente, la SSNR de referencia puede ser una SSNR obtenida a través del cálculo utilizando la fórmula 1.1.
La tercera unidad 903 de determinación está configurada para utilizar un algoritmo predeterminado para reducir un umbral de decisión de VAD de referencia, con el fin de obtener un umbral de decisión de VAD reducido.
Específicamente, el umbral de decisión de VAD de referencia puede ser un umbral de decisión de VAD por defecto, y el umbral de decisión de VAD de referencia puede almacenarse previamente o puede obtenerse temporalmente a través del cálculo, donde el umbral de decisión de VAD de referencia puede calcularse utilizando una tecnología existente bien conocida. Cuando el umbral de decisión de VAD de referencia se reduce utilizando el algoritmo predeterminado, el algoritmo predeterminado puede estar multiplicando el umbral de decisión de VAD de referencia por un coeficiente que sea menor que 1, o se puede utilizar otro algoritmo. Este ejemplo no impone limitación en un algoritmo específico utilizado. El umbral de decisión de VAD puede reducirse adecuadamente utilizando el algoritmo predeterminado, de manera que la SSNR mejorada sea mayor que el umbral de decisión de VAD reducido. Por lo tanto, puede reducirse una proporción de detección errónea de una señal activa.
La cuarta unidad 904 de determinación está configurada para comparar la SSNR de referencia con el umbral de decisión de VAD reducido para determinar la señal de audio es una señal activa.
Opcionalmente, la primera unidad 901 de determinación está configurada específicamente para determinar la señal de audio como una señal de audio que se ha de determinar según una SNR de subbanda de la señal de audio.
Opcionalmente, en un caso en el que la primera unidad 901 de determinación determina la señal de audio como una señal de audio que se ha de determinar según la SNR de subbanda de la señal de audio, la primera unidad 901 de determinación está configurada específicamente para determinar el audio señal como una señal de audio que se ha de determinar en un caso en el que una cantidad de subbandas de porción de alta frecuencia que se encuentran en la señal de audio y cuyas SNR de subbanda son mayores que un primer umbral predeterminado es mayor que una primera cantidad .
Opcionalmente, en un caso en el que la primera unidad 901 de determinación determina la señal de audio como una señal de audio que se ha de determinar según la SNR de subbanda de la señal de audio, la primera unidad 901 de determinación está configurada específicamente para determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que una cantidad de subbandas de porción de alta frecuencia que se encuentran en la señal de audio y cuyas SNR de subbanda son mayores que un primer umbral predeterminado es mayor que una segunda cantidad, y una cantidad de subbandas de porción de baja frecuencia que se encuentran en la señal de audio y cuyas SNR de subbanda son inferiores a un segundo umbral predeterminado es mayor que una tercera cantidad.
Opcionalmente, en un caso en el que la primera unidad 901 de determinación determina la señal de audio como una señal de audio que se ha de determinar según la SNR de subbanda de la señal de audio, la primera unidad 901 de determinación está configurada específicamente para determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que una cantidad de subbandas que se encuentran en la señal de audio y cuyos valores de las SNR de subbanda son mayores que un tercer umbral predeterminado es mayor que una cuarta cantidad.
Opcionalmente, la primera unidad 901 de determinación está configurada específicamente para determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que se determina que la señal de audio es una señal sin voz. Específicamente, Un experto en la técnica puede comprender que puede haber múltiples métodos para detectar si la señal de audio es una señal sin voz. Por ejemplo, si la señal de audio es una señal sin voz puede determinarse detectando una ZCR de la señal de audio. Específicamente, en un caso en el que la ZCR de la señal de audio es mayor que un umbral de ZCR, se determina que la señal de audio es una señal sin voz, donde el umbral de ZCR se determina según una gran cantidad de experimentos.
El primer umbral predeterminado y el segundo umbral predeterminado pueden obtenerse mediante la recopilación de estadísticas según una gran cantidad de muestras de voz. Específicamente, se recopilan estadísticas sobre las SNR de subbanda de las subbandas de porción de alta frecuencia en una gran cantidad de muestras de voz sin voz, incluyendo el ruido de fondo, y el primer umbral predeterminado se determina según las SNR de subbanda, de manera que las SNR de subbanda de la mayoría de las subbandas de porción de alta frecuencia en estas muestras sin voz son mayores que el primer umbral predeterminado. De manera similar, se recopilan estadísticas sobre las SNR de subbanda de las subbandas de porción de baja frecuencia en estas muestras de voz sin voz, y el segundo umbral predeterminado se determina según las SNR de subbanda, de manera que las SNR de subbanda de la mayoría de las subbandas de porción de baja frecuencia en estas muestras de voz sin voz son menores que el segundo umbral predeterminado.
El tercer umbral predeterminado también se obtiene mediante la recopilación de estadísticas. Específicamente, el tercer umbral predeterminado se determina según las SNR de subbanda de una gran cantidad de señales de ruido, de manera que las SNR de subbanda de la mayoría de las subbandas en estas señales de ruido son menores que el tercer umbral predeterminado.
La primera cantidad, la segunda cantidad, la tercera cantidad y la cuarta cantidad también se obtienen mediante la recopilación de estadísticas. La primera cantidad se utiliza como un ejemplo, donde en una gran cantidad de muestras de voz, incluyendo el ruido, se recopilan estadísticas sobre una cantidad de subbandas de subbandas de porción de alta frecuencia cuyas SNR de subbanda son mayores que el primer umbral predeterminado, y la primera cantidad se determina según la cantidad, de manera que una cantidad de subbandas de porción de alta frecuencia que se encuentran en la mayoría de estas muestras de voz y cuyas SNR de subbanda son mayores que el primer umbral predeterminado es mayor que la primera cantidad . Un método para determinar la segunda cantidad es similar a un método para determinar la primera cantidad. La segunda cantidad puede ser la misma que la primera cantidad, o puede ser diferente de la primera cantidad. De manera similar, para la tercera cantidad, en la gran cantidad de muestras de voz, incluyendo el ruido, se recopilan estadísticas sobre una cantidad de subbandas de subbandas de porción de baja frecuencia cuyas SNR de subbanda son mayores que el segundo umbral predeterminado, y la tercera cantidad se determina según la cantidad, de manera que una cantidad de subbandas de porción de baja frecuencia que se encuentran en la mayoría de estas muestras de voz y cuyas SNR de subbanda son mayores que el segundo umbral predeterminado es mayor que la tercera cantidad. Para la cuarta cantidad, en la gran cantidad de muestras de voz, incluyendo el ruido, se recopilan estadísticas sobre una cantidad de subbandas cuyas SNR de subbanda son mayores que el tercer umbral predeterminado, y la cuarta cantidad se determina según la cantidad, de manera que una cantidad de subbandas que se encuentran en la mayoría de estas muestras de voz y cuyas SNR de subbanda son mayores que el tercer umbral predeterminado es mayor que la cuarta cantidad.
El aparato 900 mostrado en la fig. 9 puede determinar una característica de una señal de audio de entrada, reducir un umbral de decisión de VAD de referencia según la característica de la señal de audio y comparar una SSNR mejorada con un umbral de decisión de VAD reducido, de manera que pueda reducirse una proporción de detección errónea de una señal activa.
La fig. 10 es un diagrama de bloques estructural de otro aparato según un ejemplo ilustrativo que no forma parte de la presente invención. Un aparato 1000 mostrado en la fig. 10 puede realizar todas las operaciones mostradas en la fig.
4. Como se muestra en la FIG. 10, el aparato 1000 incluye un procesador 1001 y una memoria 1002. El procesador 1001 puede ser un procesador de propósito general, un DSP, un ASIC, una FPGA u otro componente lógico programable, una puerta discreta o un componente lógico de transistor, o un componente de hardware discreto, que puede implementar o realizar los métodos, las operaciones y los diagramas de bloques lógicos descritos en las realizaciones de la presente invención. El procesador de propósito general puede ser un microprocesador o el procesador puede ser cualquier procesador convencional o similar. Las operaciones de los métodos descritos en las realizaciones de la presente invención pueden ejecutarse directamente por un procesador de decodificación de hardware, o ejecutarse por una combinación de módulos de hardware y software en un procesador de decodificación. El módulo de software puede ubicarse en un medio de almacenamiento maduro en la técnica, tal como una RAM, una memoria flash, una ROM, una memoria de solo lectura programable, una memoria programable que se puede borrar eléctricamente, o un registro. El medio de almacenamiento está ubicado en la memoria 1002. El procesador 1001 lee una instrucción de la memoria 1002 y completa las operaciones de los métodos anteriores en combinación con el hardware.
El procesador 1001 está configurado para determinar una señal de audio de entrada como una señal de audio que se ha de determinar.
El procesador 1001 está configurado para adquirir una SSNR de referencia de la señal de audio.
Específicamente, la SSNR de referencia puede ser una SSNR obtenida a través del cálculo utilizando la fórmula 1.1.
El procesador 1001 está configurado para utilizar un algoritmo predeterminado para reducir un umbral de decisión de VAD de referencia, con el fin de obtener un umbral de decisión de VAD reducido.
Específicamente, el umbral de decisión de VAD de referencia puede ser un umbral de decisión de VAD por defecto, y el umbral de decisión de VAD de referencia puede almacenarse previamente o puede obtenerse temporalmente a través del cálculo, donde el umbral de decisión de VAD de referencia puede calcularse utilizando una tecnología existente bien conocida. Cuando el umbral de decisión de VAD de referencia se reduce utilizando el algoritmo predeterminado, el algoritmo predeterminado puede estar multiplicando el umbral de decisión de VAD de referencia por un coeficiente que sea menor que 1, o se puede utilizar otro algoritmo. Este ejemplo ilustrativo que no forma parte de la presente invención no impone limitación en un algoritmo específico utilizado. El umbral de decisión de VAD puede reducirse adecuadamente utilizando el algoritmo predeterminado, de manera que una SSNR mejorada sea mayor que el umbral de decisión de VAD reducido. Por lo tanto, puede reducirse una proporción de detección errónea de una señal activa.
El procesador 1001 está configurado para comparar la SSNR de referencia con el umbral de decisión de VAD reducido para determinar si la señal de audio es una señal activa.
Opcionalmente, el procesador 1001 está configurado específicamente para determinar la señal de audio como una señal de audio que se ha de determinar según una SNR de subbanda de la señal de audio.
Opcionalmente, en un caso en el que el procesador 1001 determina la señal de audio como una señal de audio que se ha de determinar según la SNR de subbanda de la señal de audio, el procesador 1001 está configurado específicamente para determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que una cantidad de subbandas de porción de alta frecuencia que se encuentran en la señal de audio y cuyas SNR de subbanda son mayores que un primer umbral predeterminado es mayor que una primera cantidad.
Opcionalmente, en un caso en el que el procesador 1001 determina la señal de audio como una señal de audio que se ha de determinar según la SNR de subbanda de la señal de audio, el procesador 1001 está configurado específicamente para determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que una cantidad de subbandas de porción de alta frecuencia que se encuentran en la señal de audio y cuyas SNR de subbanda son mayores que un primer umbral predeterminado es mayor que una segunda cantidad, y una cantidad de subbandas de porción de baja frecuencia que se encuentran en la señal de audio y cuyas SNR de subbanda son menores que un segundo umbral predeterminado es mayor que una tercera cantidad.
Opcionalmente, en un caso en el que el procesador 1001 determina la señal de audio como una señal de audio que se ha de determinar según la SNR de subbanda de la señal de audio, el procesador 1001 está configurado específicamente para determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que una cantidad de subbandas que se encuentran en la señal de audio y cuyos valores de las SNR de subbanda son mayores que un tercer umbral predeterminado es mayor que una cuarta cantidad.
Opcionalmente, el procesador 1001 está configurado específicamente para determinar la señal de audio como una señal de audio que se ha de determinar en un caso en el que se determina que la señal de audio es una señal sin voz. Específicamente, Un experto en la técnica puede comprender que puede haber múltiples métodos para detectar si la señal de audio es una señal sin voz. Por ejemplo, si la señal de audio es una señal sin voz puede determinarse detectando una ZCR de la señal de audio. Específicamente, en un caso en el que la ZCR de la señal de audio es mayor que un umbral de ZCR, se determina que la señal de audio es una señal sin voz, donde el umbral de ZCR se determina según una gran cantidad de experimentos.
El primer umbral predeterminado y el segundo umbral predeterminado pueden obtenerse mediante la recopilación de estadísticas según una gran cantidad de muestras de voz. Específicamente, se recopilan estadísticas sobre las SNR de subbanda de subbandas de porción de alta frecuencia en una gran cantidad de muestras de voz sin voz, incluyendo el ruido de fondo, y el primer umbral predeterminado se determina según las SNR de subbanda, de manera que las SNR de subbanda de la mayoría de las subbandas de porción de alta frecuencia en estas muestras sin voz son mayores que el primer umbral predeterminado. De manera similar, se recopilan estadísticas sobre las SNR de subbanda de las subbandas de porción de baja frecuencia en estas muestras de voz sin voz, y el segundo umbral predeterminado se determina según las SNR de subbanda, de manera que las SNR de subbanda de la mayoría de las subbandas de porción de baja frecuencia en estas muestras de voz sin voz son menores que el segundo umbral predeterminado.
El tercer umbral predeterminado también se obtiene mediante la recopilación de estadísticas. Específicamente, el tercer umbral predeterminado se determina según las SNR de subbanda de una gran cantidad de señales de ruido, de manera que las SNR de subbanda de la mayoría de las subbandas en estas señales de ruido son menores que el tercer umbral predeterminado.
La primera cantidad, la segunda cantidad, la tercera cantidad y la cuarta cantidad también se obtienen mediante la recopilación de estadísticas. La primera cantidad se utiliza como un ejemplo, donde en una gran cantidad de muestras de voz, incluyendo el ruido, se recopilan estadísticas sobre una cantidad de subbandas de subbandas de porción de alta frecuencia cuyas SNR de subbanda son mayores que el primer umbral predeterminado, y la primera cantidad se determina según la cantidad, de manera que una cantidad de subbandas de porción de alta frecuencia que se encuentran en la mayoría de estas muestras de voz y cuyas SNR de subbanda son mayores que el primer umbral predeterminado es mayor que la primera cantidad. Un método para determinar la segunda cantidad es similar a un método para determinar la primera cantidad. La segunda cantidad puede ser la misma que la primera cantidad, o puede ser diferente de la primera cantidad. De manera similar, para la tercera cantidad, en la gran cantidad de muestras de voz, incluyendo el ruido, se recopilan estadísticas sobre una cantidad de subbandas de subbandas de porción de baja frecuencia cuyas SNR de subbanda son mayores que el segundo umbral predeterminado, y la tercera cantidad se determina según la cantidad, de manera que una cantidad de subbandas de porción de baja frecuencia que se encuentran en la mayoría de estas muestras de voz y cuyas SNR de subbanda son mayores que el segundo umbral predeterminado es mayor que la tercera cantidad. Para la cuarta cantidad, en la gran cantidad de muestras de voz, incluyendo el ruido, se recopilan estadísticas sobre una cantidad de subbandas cuyas SNR de subbanda son mayores que el tercer umbral predeterminado, y la cuarta cantidad se determina según la cantidad, de manera que una cantidad de subbandas que se encuentran en la mayoría de estas muestras de voz y cuyas SNR de subbanda son mayores que el tercer umbral predeterminado es mayor que la cuarta cantidad.
El aparato 1000 mostrado en la fig. 10 puede determinar una característica de una señal de audio de entrada, reducir un umbral de decisión de VAD de referencia según la característica de la señal de audio y comparar una SSNR mejorada con un umbral de decisión de VAD reducido, de manera que pueda reducirse una proporción de detección errónea de una señal activa.
Un experto en la técnica puede ser consciente de que, en combinación con los ejemplos descritos en las realizaciones divulgadas en esta memoria descriptiva, las unidades y los pasos de algoritmo se pueden implementar mediante hardware electrónico o una combinación de software informático y hardware electrónico. Que las funciones estén realizadas mediante hardware o software depende de las aplicaciones particulares y de las condiciones de restricciones de diseño de las soluciones técnicas. Un experto en la técnica puede utilizar distintos métodos para implementar las funciones descritas para cada aplicación particular, aunque no se debería considerar que la implementación va más allá del alcance de la presente invención.
Un experto en la técnica puede comprender claramente que, con el propósito de una descripción conveniente y breve, para un proceso de trabajo detallado del sistema, aparato y unidad anteriores, se puede hacer referencia a un proceso correspondiente en las realizaciones del método anterior, y los detalles no se describen en la presente memoria nuevamente.
En las diversas realizaciones proporcionadas en la presente solicitud, debería comprenderse que el sistema, el aparato y el método descritos pueden implementarse de otras maneras. Por ejemplo, la realización del aparato descrita es simplemente ejemplar. Por ejemplo, la división de unidades es simplemente división de función lógica y puede ser otra división en la implementación real. Por ejemplo, una pluralidad de unidades o componentes pueden combinarse o integrarse en otro sistema, o algunas características pueden ignorarse o no realizarse. Además, los acoplamientos mutuos mostrados o descritos o los acoplamientos directos o las conexiones de comunicación pueden implementarse utilizando algunas interfaces. Los acoplamientos indirectos o las conexiones de comunicación entre los aparatos o unidades pueden implementarse de forma electrónica, mecánica o de otras formas.
Las unidades descritas como partes separadas pueden estar o no físicamente separadas, y las partes mostradas como unidades pueden ser o no unidades físicas, pueden estar ubicadas en una posición o pueden distribuirse en una pluralidad de unidades de red. Algunas o todas las unidades pueden seleccionarse según las necesidades reales para lograr los objetivos de las soluciones de las realizaciones.
Además, las unidades funcionales en las realizaciones de la presente invención pueden integrarse en una unidad de procesamiento, o cada una de las unidades puede existir solo físicamente, o dos o más unidades están integradas en una unidad.
Cuando las funciones se implementan en forma de una unidad funcional de software y se venden o utilizan como un producto independiente, las funciones pueden almacenarse en un medio de almacenamiento legible por ordenador. Basándose en tal comprensión, las soluciones técnicas de la presente invención esencialmente, o la parte que contribuye a la técnica anterior, o una parte de las soluciones técnicas pueden implementarse en forma de un producto de software. El producto de software se almacena en un medio de almacenamiento e incluye varias instrucciones para instruir a un dispositivo informático (que puede ser un ordenador personal, un servidor o un dispositivo de red) o un procesador para realizar todas o parte de las operaciones de los métodos descritos en las realizaciones de la presente invención. El medio de almacenamiento anterior incluye: cualquier medio que pueda almacenar código de programa, tal como una unidad flash USB, un disco duro extraíble, una ROM, una RAM, un disco magnético o un disco óptico.
Las descripciones anteriores son simplemente realizaciones específicas de la presente invención, pero no pretenden limitar el ámbito de protección de la presente invención.
Por lo tanto, el ámbito de protección de la presente invención está definido por las reivindicaciones.

Claims (15)

REIVINDICACIONES
1. Un medio de almacenamiento legible por ordenador que comprende unas instrucciones que, cuando se ejecutan en un ordenador, hacen que el ordenador lleve a cabo los pasos de un método, donde el método comprende los pasos de:
determinar una relación señal/ruido segmental SSNR mejorada de una señal de audio según una SSNR de referencia de la señal de audio cuando la señal de audio es una señal sin voz, donde la SSNR mejorada es mayor que la SSNR de referencia y la SSNR de referencia se calcula sumando todas las SNR de subbanda de la señal de audio; y
comparar la SSNR mejorada con un umbral de decisión de detección de actividad de voz VAD para determinar si la señal de audio es una señal activa.
2. El medio de almacenamiento legible por ordenador según la reivindicación 1, donde la determinación de la SSNR mejorada según la SSNR de referencia de la señal de audio comprende:
determinar la SSNR mejorada utilizando la siguiente fórmula:
SSNR'= x* SSNR y
donde SSNR indica la SSNR de referencia, SSNR’ indica la SSNR mejorada y x e y indican los parámetros de mejora.
3. El medio de almacenamiento legible por ordenador según la reivindicación 1 o 2, donde la señal de audio comprende 20 subbandas y las 20 subbandas van de la subbanda 0 a la subbanda 19.
4. Un medio de almacenamiento legible por ordenador que comprende unas instrucciones que, cuando se ejecutan en un ordenador, hacen que el ordenador lleve a cabo los pasos de un método, donde el método comprende los pasos de:
determinar una relación señal/ruido segmental, SSNR, mejorada según una relación señal/ruido, SNR, de subbanda de cada subbanda y un peso de la SNR de subbanda de cada subbanda en una señal de audio cuando la señal de audio es una señal sin voz, donde la SSNR mejorada es mayor que una SSNR de referencia, la SSNR de referencia se calcula sumando todas las SNR de subbanda de la señal de audio, y un peso de una SNR de subbanda de una subbanda de porción de alta frecuencia cuya SNR de subbanda es mayor que un primer umbral predeterminado es mayor que un peso de una SNR de subbanda de otra subbanda; y
comparar la SSNR mejorada con un umbral de decisión de detección de actividad de voz, VAD, para determinar si la señal de audio es una señal activa.
5. El medio de almacenamiento legible por ordenador según la reivindicación 4, donde la señal de audio comprende 20 subbandas, las 20 subbandas van de la subbanda 0 a la subbanda 19, y la subbanda 18 y la subbanda 19 son subbandas de porción de alta frecuencia.
6. Un aparato para detectar una señal activa, donde el aparato comprende un procesador (701) y una memoria (702), el procesador (701) está configurado para leer unas instrucciones de la memoria (702) y ejecutar los pasos de:
determinar una relación señal/ruido segmental SSNR mejorada de una señal de audio según una SSNR de referencia de la señal de audio cuando la señal de audio es una señal sin voz, donde la SSNR mejorada es mayor que la SSNR de referencia y la SSNR de referencia se calcula sumando todas las SNR de subbanda de la señal de audio; y
comparar la SSNR mejorada con un umbral de decisión de detección de actividad de voz VAD para determinar si la señal de audio es una señal activa.
7. El aparato según la reivindicación 6, donde el procesador (701) está configurado para determinar la SSNR mejorada utilizando la siguiente fórmula:
SSNR'= x* SSNR y
donde SSNR indica la SSNR de referencia, SSNR’ indica la SSNR mejorada y x e y indican los parámetros de mejora.
8. El aparato según la reivindicación 6 o 7, donde la señal de audio comprende 20 subbandas y las 20 subbandas van de la subbanda 0 a la subbanda 19.
9. Un aparato para detectar una señal activa, donde el aparato comprende un procesador (801) y una memoria (802), el procesador (801) está configurado para leer unas instrucciones de la memoria (802) y ejecutar los pasos de:
determinar una relación señal/ruido segmental, SSNR, mejorada según una relación señal/ruido, SNR, de subbanda de cada subbanda y un peso de la SNR de subbanda de cada subbanda en una señal de audio cuando la señal de audio es una señal sin voz, donde la SSNR mejorada es mayor que una SSNR de referencia, la SSNR de referencia se calcula sumando todas las SNR de subbanda de la señal de audio, y un peso de una SNR de subbanda de una subbanda de porción de alta frecuencia cuya SNR de subbanda es mayor que un primer umbral predeterminado es mayor que un peso de una SNR de subbanda de otra subbanda; y
comparar la SSNR mejorada con un umbral de decisión de detección de actividad de voz, VAD, para determinar si la señal de audio es una señal activa.
10. El aparato según la reivindicación 9, donde la señal de audio comprende 20 subbandas, las 20 subbandas van de la subbanda 0 a la subbanda 19, y la subbanda 18 y la subbanda 19 son subbandas de porción de alta frecuencia.
11. Un producto de programa que comprende instrucciones que, cuando se ejecutan en un ordenador, hacen que el ordenador lleve a cabo los pasos de un método, donde el método comprende los pasos de:
determinar una relación señal/ruido segmental SSNR mejorada de una señal de audio según una SSNR de referencia de la señal de audio cuando la señal de audio es una señal sin voz, donde la SSNR mejorada es mayor que la SSNR de referencia y la SSNR de referencia se calcula sumando todas las SNR de subbanda de la señal de audio; y comparar la SSNR mejorada con un umbral de decisión de detección de actividad de voz VAD para determinar si la señal de audio es una señal activa.
12 El producto de programa según la reivindicación 11, donde la determinación de la SSNR mejorada según la SSNR de referencia de la señal de audio comprende:
determinar la SSNR mejorada utilizando la siguiente fórmula:
SSNR'= x* SSNR y
donde SSNR indica la SSNR de referencia, SSNR’ indica la SSNR mejorada y x e y indican los parámetros de mejora.
13. El producto de programa según las reivindicaciones 11 o 12, donde la señal de audio comprende 20 subbandas y las 20 subbandas van de la subbanda 0 a la subbanda 19.
14. Un producto de programa que comprende unas instrucciones que, cuando se ejecutan en un ordenador, hacen que el ordenador lleve a cabo los pasos de un método, donde el método comprende los pasos de:
determinar una relación señal/ruido segmental, SSNR, mejorada según una relación señal/ruido, SNR, de subbanda de cada subbanda y un peso de la SNR de subbanda de cada subbanda en una señal de audio cuando la señal de audio es una señal sin voz, donde la SSNR mejorada es mayor que una SSNR de referencia, la SSNR de referencia se calcula sumando todas las SNR de subbanda de la señal de audio, y un peso de una SNR de subbanda de una subbanda de porción de alta frecuencia cuya SNR de subbanda es mayor que un primer umbral predeterminado es mayor que un peso de una SNR de subbanda de otra subbanda; y
comparar la SSNR mejorada con un umbral de decisión de detección de actividad de voz, VAD, para determinar si la señal de audio es una señal activa.
15. El producto de programa según la reivindicación 14, donde la señal de audio comprende 20 subbandas, las 20 subbandas van de la subbanda 0 a la subbanda 19, y la subbanda 18 y la subbanda 19 son subbandas de porción de alta frecuencia.
ES19197660T 2014-03-12 2014-12-01 Método y aparato para detectar señales de audio Active ES2926360T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410090386.XA CN104916292B (zh) 2014-03-12 2014-03-12 检测音频信号的方法和装置

Publications (1)

Publication Number Publication Date
ES2926360T3 true ES2926360T3 (es) 2022-10-25

Family

ID=54070889

Family Applications (2)

Application Number Title Priority Date Filing Date
ES19197660T Active ES2926360T3 (es) 2014-03-12 2014-12-01 Método y aparato para detectar señales de audio
ES14885786T Active ES2787894T3 (es) 2014-03-12 2014-12-01 Método y dispositivo para detectar la señal de audio

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES14885786T Active ES2787894T3 (es) 2014-03-12 2014-12-01 Método y dispositivo para detectar la señal de audio

Country Status (14)

Country Link
US (3) US10304478B2 (es)
EP (2) EP3660845B1 (es)
JP (2) JP6493889B2 (es)
KR (2) KR102005009B1 (es)
CN (3) CN107086043B (es)
AU (1) AU2014386442B9 (es)
CA (1) CA2940487C (es)
ES (2) ES2926360T3 (es)
MX (1) MX355828B (es)
MY (1) MY193521A (es)
PT (2) PT3660845T (es)
RU (1) RU2666337C2 (es)
SG (1) SG11201607052SA (es)
WO (1) WO2015135344A1 (es)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107086043B (zh) * 2014-03-12 2020-09-08 华为技术有限公司 检测音频信号的方法和装置
US10231070B2 (en) * 2016-04-29 2019-03-12 Huawei Technologies Co., Ltd. Voice input exception determining method, apparatus, terminal, and storage medium
CN107040359B (zh) * 2017-05-08 2021-01-19 海能达通信股份有限公司 一种语音呼叫过程中携带随路信令的方法、装置及设备
CN107393553B (zh) * 2017-07-14 2020-12-22 深圳永顺智信息科技有限公司 用于语音活动检测的听觉特征提取方法
CN107393558B (zh) * 2017-07-14 2020-09-11 深圳永顺智信息科技有限公司 语音活动检测方法及装置
CN107393550B (zh) * 2017-07-14 2021-03-19 深圳永顺智信息科技有限公司 语音处理方法及装置
CN107393559B (zh) * 2017-07-14 2021-05-18 深圳永顺智信息科技有限公司 检校语音检测结果的方法及装置
US11783809B2 (en) * 2020-10-08 2023-10-10 Qualcomm Incorporated User voice activity detection using dynamic classifier

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59182498A (ja) * 1983-04-01 1984-10-17 日本電気株式会社 音声検出回路
JPS63259596A (ja) 1987-04-16 1988-10-26 株式会社日立製作所 音声区間検出方式
JPH08506434A (ja) * 1993-11-30 1996-07-09 エイ・ティ・アンド・ティ・コーポレーション 通信システムにおける伝送ノイズ低減
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US6466906B2 (en) * 1999-01-06 2002-10-15 Dspc Technologies Ltd. Noise padding and normalization in dynamic time warping
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6324509B1 (en) 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP2001236085A (ja) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
JP3588030B2 (ja) * 2000-03-16 2004-11-10 三菱電機株式会社 音声区間判定装置及び音声区間判定方法
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
CN1175398C (zh) * 2000-11-18 2004-11-10 中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
EP1376539B8 (en) * 2001-03-28 2010-12-15 Mitsubishi Denki Kabushiki Kaisha Noise suppressor
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US6937980B2 (en) * 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
JP4281349B2 (ja) 2001-12-25 2009-06-17 パナソニック株式会社 電話装置
US7024353B2 (en) * 2002-08-09 2006-04-04 Motorola, Inc. Distributed speech recognition with back-end voice activity detection apparatus and method
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7162420B2 (en) * 2002-12-10 2007-01-09 Liberato Technologies, Llc System and method for noise reduction having first and second adaptive filters
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US8340309B2 (en) * 2004-08-06 2012-12-25 Aliphcom, Inc. Noise suppressing multi-microphone headset
CN100369113C (zh) * 2004-12-31 2008-02-13 中国科学院自动化研究所 利用增益自适应提高语音识别率的方法
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
EP1982324B1 (en) * 2006-02-10 2014-09-24 Telefonaktiebolaget LM Ericsson (publ) A voice detector and a method for suppressing sub-bands in a voice detector
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8311814B2 (en) * 2006-09-19 2012-11-13 Avaya Inc. Efficient voice activity detector to detect fixed power signals
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
US8326620B2 (en) * 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US7769585B2 (en) * 2007-04-05 2010-08-03 Avidyne Corporation System and method of voice activity detection in noisy environments
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
KR101335417B1 (ko) 2008-03-31 2013-12-05 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
WO2010091339A1 (en) 2009-02-06 2010-08-12 University Of Ottawa Method and system for noise reduction for speech enhancement in hearing aid
JP5337530B2 (ja) * 2009-02-25 2013-11-06 京セラ株式会社 無線基地局および無線通信方法
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
CN102044242B (zh) 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
CN102576528A (zh) * 2009-10-19 2012-07-11 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
EP2491548A4 (en) * 2009-10-19 2013-10-30 Ericsson Telefon Ab L M VOICE ACTIVITY METHOD AND DETECTOR FOR SPEECH ENCODER
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
CN102741918B (zh) * 2010-12-24 2014-11-19 华为技术有限公司 用于话音活动检测的方法和设备
ES2860986T3 (es) * 2010-12-24 2021-10-05 Huawei Tech Co Ltd Método y aparato para detectar adaptivamente una actividad de voz en una señal de audio de entrada
ES2665944T3 (es) * 2010-12-24 2018-04-30 Huawei Technologies Co., Ltd. Aparato para realizar una detección de actividad de voz
US9099098B2 (en) * 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise
WO2013118192A1 (ja) 2012-02-10 2013-08-15 三菱電機株式会社 雑音抑圧装置
JP5862349B2 (ja) * 2012-02-16 2016-02-16 株式会社Jvcケンウッド ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
CN103325380B (zh) * 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US20130282372A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9524735B2 (en) * 2014-01-31 2016-12-20 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection
CN107086043B (zh) * 2014-03-12 2020-09-08 华为技术有限公司 检测音频信号的方法和装置
US9775113B2 (en) * 2014-12-11 2017-09-26 Mediatek Inc. Voice wakeup detecting device with digital microphone and associated method

Also Published As

Publication number Publication date
JP2019053321A (ja) 2019-04-04
CN104916292A (zh) 2015-09-16
CN107293287A (zh) 2017-10-24
CN107086043B (zh) 2020-09-08
US20160379670A1 (en) 2016-12-29
AU2014386442B9 (en) 2017-11-23
PT3118852T (pt) 2020-03-06
EP3660845B1 (en) 2022-06-08
MX2016011750A (es) 2016-12-12
US20190279657A1 (en) 2019-09-12
MX355828B (es) 2018-05-02
KR101884220B1 (ko) 2018-08-01
RU2666337C2 (ru) 2018-09-06
ES2787894T9 (es) 2021-12-28
SG11201607052SA (en) 2016-10-28
EP3118852B1 (en) 2020-02-12
JP6793706B2 (ja) 2020-12-02
JP2017511901A (ja) 2017-04-27
CA2940487A1 (en) 2015-09-17
EP3118852A1 (en) 2017-01-18
KR20160120764A (ko) 2016-10-18
CN104916292B (zh) 2017-05-24
AU2014386442B2 (en) 2017-11-02
WO2015135344A1 (zh) 2015-09-17
EP3660845A1 (en) 2020-06-03
RU2016139717A (ru) 2018-04-12
ES2787894T3 (es) 2020-10-19
KR20180088503A (ko) 2018-08-03
US11417353B2 (en) 2022-08-16
US10304478B2 (en) 2019-05-28
EP3118852A4 (en) 2017-03-29
JP6493889B2 (ja) 2019-04-03
PT3660845T (pt) 2022-08-01
US20200312353A1 (en) 2020-10-01
CA2940487C (en) 2020-10-27
AU2014386442A1 (en) 2016-09-08
MY193521A (en) 2022-10-17
CN107086043A (zh) 2017-08-22
KR102005009B1 (ko) 2019-07-29
US10818313B2 (en) 2020-10-27
CN107293287B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
ES2926360T3 (es) Método y aparato para detectar señales de audio
ES2540075T3 (es) Método y dispositivo de codificación de voz transitoria, método y dispositivo de decodificación, sistema de procesamiento y medio de almacenamiento legible por ordenador
ES2959448T3 (es) Método y aparato de detección de actividad de voz
CN104637489B (zh) 声音信号处理的方法和装置
CN104091593B (zh) 采用感知语谱结构边界参数的语音端点检测算法
ES2610102T3 (es) Método y aparato para detectar una señal de voz
JP6067930B2 (ja) 複数のマイクロフォンのための自動利得整合
Wang et al. Joint noise and mask aware training for DNN-based speech enhancement with sub-band features
Eaton et al. A comparison of non-intrusive SNR estimation algorithms and the use of mapping functions
CN114913869A (zh) 一种对噪声影响低敏的鸟类声学多样性指数方法
Jang et al. A uniformly most powerful test for statistical model-based voice activity detection.
Lathoud et al. A spectrogram model for enhanced source localization and noise-robust ASR
Pinto et al. Speech modeling and noise removal using a perceptually modified Wiener filter