ES2553462T3

ES2553462T3 - Método de y aparato para evaluar inteligibilidad de una señal de voz degradada

Info

Publication number: ES2553462T3
Application number: ES12791581.7T
Authority: ES
Inventors: John Gerard Beerends
Original assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Current assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Priority date: 2011-11-17
Filing date: 2012-11-15
Publication date: 2015-12-09
Anticipated expiration: 2032-11-15
Also published as: WO2013073943A1; US9659579B2; EP2780909B1; PT2780909E; EP2780909A1; EP2595145A1; US20140316773A1

Abstract

Método para evaluar inteligibilidad de una señal de voz degradada recibida desde un sistema de transmisión de audio, al transmitir a través de dicho sistema de transmisión de audio una señal de voz de referencia con el fin de proporcionar dicha señal de voz degradada, en donde el método comprende: - muestrear dicha señal de voz de referencia en una pluralidad de tramas de señal de referencia, muestrear dicha señal de voz degradada en una pluralidad de tramas de señal degradadas, y formar pares de tramas al asociar dichas tramas de señal de referencia y dichas tramas de señal degradadas entre sí; - para cada par de tramas procesar previamente dichas tramas de señal de referencia y dichas tramas de señal degradadas para permitir una comparación entre dichas tramas de cada par de tramas; El método se caracteriza adicionalmente por: - proporcionar para cada par de tramas una o más funciones de diferencia que representan una diferencia entre dicha trama de señal degradada y dicha trama de señal de referencia asociada; - seleccionar por lo menos una de dichas funciones de diferencia para compensar dicha por lo menos una de dichas funciones de diferencia para uno o más tipos de perturbaciones, tales como proporcionar para cada par de tramas una o más funciones de densidad de perturbación adaptadas a un modelo de percepción auditivo humano, en donde dicha selección se realiza al comparar un nivel de perturbación de dicha señal degradada con un nivel de perturbación umbral; y - derivar de dichas funciones de densidad de perturbación de una pluralidad de pares de tramas un parámetro de calidad completo, dicho parámetro de calidad es por lo menos indicador de dicha inteligibilidad de dicha señal de voz degradada; en donde dicho método comprende una etapa de determinar por lo menos un parámetro de conmutación indicador de un nivel de potencia de audio de dicha señal degradada, y utilizar dicho por lo menos un parámetro de conmutación para determinar o adaptar dicho nivel de perturbación umbral que se utiliza en la realización de dicha selección de dicha por lo menos una de dichas funciones de diferencia para optimizar dicho método para las condiciones de nivel de potencia de audio de dicha señal degradada para evaluación de dicha inteligibilidad de dicha señal de voz degradada para dicha evaluación.

Description

imagen1

imagen2

imagen3

imagen4

imagen5

imagen6

imagen7

imagen8

imagen9

imagen10

de Bark inferior y superior (por debajo de 12 y por encima de 7 Bark, es decir, utilizando una superposición de 5 Bark) de la señal degradada y “castiga” cualquier desequilibrio grave, independientemente del hecho de que esto podría ser el resultado de un timbre de voz incorrecto del archivo de voz de referencia. Tenga en cuenta que una cadena transparente que utiliza señales de referencia mal grabadas, que contiene mucho ruido y/o un timbre de voz incorrecto,

5 por lo tanto, no proporcionaría la máxima puntuación MOS en una medición de calidad de voz de extremo a extremo POLQA. Esta compensación también tiene un impacto al medir la calidad de los productos que sean transparentes. Cuando se utilizan señales de referencia que muestran una desviación significativa del timbre “ideal” óptimo del sistema bajo prueba será juzgado como no transparente incluso si el sistema no introduce ninguna degradación en la señal de referencia.

10 El impacto de los picos graves en la perturbación se cuantifica en 130 y 130’ en el indicador PLANITUD que también se utiliza en el cálculo del MOS-LQO.

Las variaciones del nivel de ruido graves que se centran en la atención de los sujetos hacia el ruido se cuantifican en 15 131 y 131’ por un indicador de contraste de ruido derivado de las partes silenciosas de la señal de referencia.

En las etapas 133 y 133’, se realiza una operación de perturbaciones ponderadas dependientes de si o no coinciden con la voz hablada real. Con el fin de evaluar la inteligibilidad de la señal degradada, las perturbaciones que se perciben durante los períodos de silencio no se consideran tan perjudiciales como las perturbaciones que se perciben durante 20 voz hablada real. Por lo tanto, con base en el indicador VOLUMEN determinado en la etapa 33 (o etapa 35’ en la realización alternativa) a partir de la señal de referencia, un valor de ponderación se determina para ponderar cualesquier perturbaciones. El valor de ponderación se utiliza para ponderar la función de diferencia (es decir, las perturbaciones) para incorporar el impacto de las perturbaciones en la inteligibilidad de la señal de voz degradada en la evaluación. En particular, dado que el valor de ponderación se determina con base en el indicador VOLUMEN, el valor 25 de ponderación puede ser representado por una función dependiente de volumen. En la presente realización, el valor de ponderación dependiente de volumen se determina al comparar el valor de volumen con un umbral. Si el indicador de volumen excede el umbral de las perturbaciones percibidas se toman en consideración completamente al realizar la evaluación. Por otro lado, si el valor de volumen es menor que el umbral, el valor de ponderación se hace dependiente del indicador de nivel de volumen; es decir, en la presente realización el valor de ponderación es igual al indicador de

30 nivel de volumen (en el régimen en el que el VOLUMEN está por debajo del umbral). La ventaja es que para las partes débiles de la señal de voz, por ejemplo, en los extremos de las palabras habladas justo antes de una pausa o silencio, las perturbaciones se toman en cuenta parcialmente que son perjudiciales para la inteligibilidad.

A modo de ejemplo, se puede apreciar que una cierta cantidad de ruido percibido mientras se pronuncia la letra ‘f’ al

35 final de una palabra, puede provocar que un oyente perciba esto como la letra ‘s’. Esto podría ser perjudicial para la inteligibilidad. Por otra parte, el experto puede apreciar que también es posible (en una realización diferente) simplemente hacer caso omiso de cualquier ruido durante el silencio o pausas, al girar el valor de ponderación a cero cuando el valor de volumen está por debajo del umbral mencionado anteriormente. El método de ponderación de la perturbación en una manera dependiente de volumen se describe adicionalmente adelante en relación con la figura 6.

40 Se detectan saltos graves en la alineación y se cuantifica la alineación y el impacto en las etapas 136 y 136’ por un factor de compensación.

Por último, la perturbación y las densidades de perturbación agregadas se recortan en 137 y 137’ a un nivel máximo y la

45 varianza de la perturbación 138 y 138’ y los saltos de 140 y 140’ en el volumen se utilizan para compensar las estructuras de tiempo específicas de las perturbaciones.

Esto produce la densidad de perturbación final D(f)n 142 para perturbación regular y la densidad de perturbación final DA(f)n 143 para perturbación agregada.

50

Agregación de perturbación sobre tono, esfuerzo, y tiempo, Mapeo de Puntuación MOS Intermedia

Las densidades 143 de perturbación final D(f)n 142 y perturbación agregada DA(f)n e integran por trama sobre el eje de tono que resulta en dos perturbaciones diferentes por trama, uno derivado de la perturbación y otro derivado de la

55 perturbación agregado, utilizando una integración 153 y 159 L1 (ver Figura 4):

imagen11

con Wf una serie de constantes proporcionales al ancho de contenedores de Bark.

12

imagen12

imagen13

imagen14

imagen15

Claims

imagen1

imagen2

imagen3