ES2553462T3 - Método de y aparato para evaluar inteligibilidad de una señal de voz degradada - Google Patents

Método de y aparato para evaluar inteligibilidad de una señal de voz degradada Download PDF

Info

Publication number
ES2553462T3
ES2553462T3 ES12791581.7T ES12791581T ES2553462T3 ES 2553462 T3 ES2553462 T3 ES 2553462T3 ES 12791581 T ES12791581 T ES 12791581T ES 2553462 T3 ES2553462 T3 ES 2553462T3
Authority
ES
Spain
Prior art keywords
degraded
signal
frames
voice signal
intelligibility
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12791581.7T
Other languages
English (en)
Inventor
John Gerard Beerends
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Original Assignee
Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO filed Critical Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Application granted granted Critical
Publication of ES2553462T3 publication Critical patent/ES2553462T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

Método para evaluar inteligibilidad de una señal de voz degradada recibida desde un sistema de transmisión de audio, al transmitir a través de dicho sistema de transmisión de audio una señal de voz de referencia con el fin de proporcionar dicha señal de voz degradada, en donde el método comprende: - muestrear dicha señal de voz de referencia en una pluralidad de tramas de señal de referencia, muestrear dicha señal de voz degradada en una pluralidad de tramas de señal degradadas, y formar pares de tramas al asociar dichas tramas de señal de referencia y dichas tramas de señal degradadas entre sí; - para cada par de tramas procesar previamente dichas tramas de señal de referencia y dichas tramas de señal degradadas para permitir una comparación entre dichas tramas de cada par de tramas; El método se caracteriza adicionalmente por: - proporcionar para cada par de tramas una o más funciones de diferencia que representan una diferencia entre dicha trama de señal degradada y dicha trama de señal de referencia asociada; - seleccionar por lo menos una de dichas funciones de diferencia para compensar dicha por lo menos una de dichas funciones de diferencia para uno o más tipos de perturbaciones, tales como proporcionar para cada par de tramas una o más funciones de densidad de perturbación adaptadas a un modelo de percepción auditivo humano, en donde dicha selección se realiza al comparar un nivel de perturbación de dicha señal degradada con un nivel de perturbación umbral; y - derivar de dichas funciones de densidad de perturbación de una pluralidad de pares de tramas un parámetro de calidad completo, dicho parámetro de calidad es por lo menos indicador de dicha inteligibilidad de dicha señal de voz degradada; en donde dicho método comprende una etapa de determinar por lo menos un parámetro de conmutación indicador de un nivel de potencia de audio de dicha señal degradada, y utilizar dicho por lo menos un parámetro de conmutación para determinar o adaptar dicho nivel de perturbación umbral que se utiliza en la realización de dicha selección de dicha por lo menos una de dichas funciones de diferencia para optimizar dicho método para las condiciones de nivel de potencia de audio de dicha señal degradada para evaluación de dicha inteligibilidad de dicha señal de voz degradada para dicha evaluación.

Description

imagen1
imagen2
imagen3
imagen4
imagen5
imagen6
imagen7
imagen8
imagen9
imagen10
de Bark inferior y superior (por debajo de 12 y por encima de 7 Bark, es decir, utilizando una superposición de 5 Bark) de la señal degradada y “castiga” cualquier desequilibrio grave, independientemente del hecho de que esto podría ser el resultado de un timbre de voz incorrecto del archivo de voz de referencia. Tenga en cuenta que una cadena transparente que utiliza señales de referencia mal grabadas, que contiene mucho ruido y/o un timbre de voz incorrecto,
5 por lo tanto, no proporcionaría la máxima puntuación MOS en una medición de calidad de voz de extremo a extremo POLQA. Esta compensación también tiene un impacto al medir la calidad de los productos que sean transparentes. Cuando se utilizan señales de referencia que muestran una desviación significativa del timbre “ideal” óptimo del sistema bajo prueba será juzgado como no transparente incluso si el sistema no introduce ninguna degradación en la señal de referencia.
10 El impacto de los picos graves en la perturbación se cuantifica en 130 y 130’ en el indicador PLANITUD que también se utiliza en el cálculo del MOS-LQO.
Las variaciones del nivel de ruido graves que se centran en la atención de los sujetos hacia el ruido se cuantifican en 15 131 y 131’ por un indicador de contraste de ruido derivado de las partes silenciosas de la señal de referencia.
En las etapas 133 y 133’, se realiza una operación de perturbaciones ponderadas dependientes de si o no coinciden con la voz hablada real. Con el fin de evaluar la inteligibilidad de la señal degradada, las perturbaciones que se perciben durante los períodos de silencio no se consideran tan perjudiciales como las perturbaciones que se perciben durante 20 voz hablada real. Por lo tanto, con base en el indicador VOLUMEN determinado en la etapa 33 (o etapa 35’ en la realización alternativa) a partir de la señal de referencia, un valor de ponderación se determina para ponderar cualesquier perturbaciones. El valor de ponderación se utiliza para ponderar la función de diferencia (es decir, las perturbaciones) para incorporar el impacto de las perturbaciones en la inteligibilidad de la señal de voz degradada en la evaluación. En particular, dado que el valor de ponderación se determina con base en el indicador VOLUMEN, el valor 25 de ponderación puede ser representado por una función dependiente de volumen. En la presente realización, el valor de ponderación dependiente de volumen se determina al comparar el valor de volumen con un umbral. Si el indicador de volumen excede el umbral de las perturbaciones percibidas se toman en consideración completamente al realizar la evaluación. Por otro lado, si el valor de volumen es menor que el umbral, el valor de ponderación se hace dependiente del indicador de nivel de volumen; es decir, en la presente realización el valor de ponderación es igual al indicador de
30 nivel de volumen (en el régimen en el que el VOLUMEN está por debajo del umbral). La ventaja es que para las partes débiles de la señal de voz, por ejemplo, en los extremos de las palabras habladas justo antes de una pausa o silencio, las perturbaciones se toman en cuenta parcialmente que son perjudiciales para la inteligibilidad.
A modo de ejemplo, se puede apreciar que una cierta cantidad de ruido percibido mientras se pronuncia la letra ‘f’ al
35 final de una palabra, puede provocar que un oyente perciba esto como la letra ‘s’. Esto podría ser perjudicial para la inteligibilidad. Por otra parte, el experto puede apreciar que también es posible (en una realización diferente) simplemente hacer caso omiso de cualquier ruido durante el silencio o pausas, al girar el valor de ponderación a cero cuando el valor de volumen está por debajo del umbral mencionado anteriormente. El método de ponderación de la perturbación en una manera dependiente de volumen se describe adicionalmente adelante en relación con la figura 6.
40 Se detectan saltos graves en la alineación y se cuantifica la alineación y el impacto en las etapas 136 y 136’ por un factor de compensación.
Por último, la perturbación y las densidades de perturbación agregadas se recortan en 137 y 137’ a un nivel máximo y la
45 varianza de la perturbación 138 y 138’ y los saltos de 140 y 140’ en el volumen se utilizan para compensar las estructuras de tiempo específicas de las perturbaciones.
Esto produce la densidad de perturbación final D(f)n 142 para perturbación regular y la densidad de perturbación final DA(f)n 143 para perturbación agregada.
50
Agregación de perturbación sobre tono, esfuerzo, y tiempo, Mapeo de Puntuación MOS Intermedia
Las densidades 143 de perturbación final D(f)n 142 y perturbación agregada DA(f)n e integran por trama sobre el eje de tono que resulta en dos perturbaciones diferentes por trama, uno derivado de la perturbación y otro derivado de la
55 perturbación agregado, utilizando una integración 153 y 159 L1 (ver Figura 4):
imagen11
con Wf una serie de constantes proporcionales al ancho de contenedores de Bark.
12
imagen12
imagen13
imagen14
imagen15

Claims (1)

  1. imagen1
    imagen2
    imagen3
ES12791581.7T 2011-11-17 2012-11-15 Método de y aparato para evaluar inteligibilidad de una señal de voz degradada Active ES2553462T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP11189593.4A EP2595145A1 (en) 2011-11-17 2011-11-17 Method of and apparatus for evaluating intelligibility of a degraded speech signal
EP11189593 2011-11-17
PCT/NL2012/050807 WO2013073943A1 (en) 2011-11-17 2012-11-15 Method of and apparatus for evaluating intelligibility of a degraded speech signal

Publications (1)

Publication Number Publication Date
ES2553462T3 true ES2553462T3 (es) 2015-12-09

Family

ID=47228012

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12791581.7T Active ES2553462T3 (es) 2011-11-17 2012-11-15 Método de y aparato para evaluar inteligibilidad de una señal de voz degradada

Country Status (5)

Country Link
US (1) US9659579B2 (es)
EP (2) EP2595145A1 (es)
ES (1) ES2553462T3 (es)
PT (1) PT2780909E (es)
WO (1) WO2013073943A1 (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9692535B2 (en) 2012-02-20 2017-06-27 The Nielsen Company (Us), Llc Methods and apparatus for automatic TV on/off detection
US9830905B2 (en) * 2013-06-26 2017-11-28 Qualcomm Incorporated Systems and methods for feature extraction
CN103578479B (zh) * 2013-09-18 2016-05-25 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
EP2922058A1 (en) * 2014-03-20 2015-09-23 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating quality of a degraded speech signal
CN104485114B (zh) * 2014-11-27 2018-03-06 湖南省计量检测研究院 一种基于听觉感知特性的语音质量客观评估的方法
US10490206B2 (en) 2016-01-19 2019-11-26 Dolby Laboratories Licensing Corporation Testing device capture performance for multiple speakers
EP3223279B1 (en) 2016-03-21 2019-01-09 Nxp B.V. A speech signal processing circuit
KR102307355B1 (ko) * 2017-03-10 2021-09-30 삼성전자주식회사 잡음 환경의 통화 품질을 개선하는 방법 및 장치
CN108877839B (zh) * 2018-08-02 2021-01-12 南京华苏科技有限公司 基于语音语义识别技术的语音质量感知评估的方法及***
CN112637740B (zh) * 2020-12-18 2023-10-13 深圳Tcl新技术有限公司 信号调制方法、功放设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2148340C (en) * 1995-05-01 2004-12-07 Gianni Di Pietro Method and apparatus for automatically and reproducibly rating the transmission quality of a speech transmission system
WO2003076889A1 (en) * 2002-03-08 2003-09-18 Koninklijke Kpn N.V. Method and system for measuring a system's transmission quality
US8098833B2 (en) * 2005-12-28 2012-01-17 Honeywell International Inc. System and method for dynamic modification of speech intelligibility scoring
ATE470931T1 (de) * 2007-10-11 2010-06-15 Koninkl Kpn Nv Verfahren und system zur messung der sprachverständlichkeit eines tonübertragungssystems
US8015002B2 (en) * 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
US8949114B2 (en) * 2009-06-04 2015-02-03 Optis Wireless Technology, Llc Method and arrangement for estimating the quality degradation of a processed signal
EP2372700A1 (en) * 2010-03-11 2011-10-05 Oticon A/S A speech intelligibility predictor and applications thereof
JP5606764B2 (ja) * 2010-03-31 2014-10-15 クラリオン株式会社 音質評価装置およびそのためのプログラム
US9524733B2 (en) * 2012-05-10 2016-12-20 Google Inc. Objective speech quality metric
EP2733700A1 (en) * 2012-11-16 2014-05-21 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating intelligibility of a degraded speech signal
EP2922058A1 (en) * 2014-03-20 2015-09-23 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating quality of a degraded speech signal

Also Published As

Publication number Publication date
WO2013073943A1 (en) 2013-05-23
US9659579B2 (en) 2017-05-23
EP2780909B1 (en) 2015-08-26
PT2780909E (pt) 2015-11-30
EP2780909A1 (en) 2014-09-24
EP2595145A1 (en) 2013-05-22
US20140316773A1 (en) 2014-10-23

Similar Documents

Publication Publication Date Title
ES2553462T3 (es) Método de y aparato para evaluar inteligibilidad de una señal de voz degradada
ES2526126T3 (es) Método, producto de programa informático y sistema para determinar una calidad percibida de un sistema de audio
Feinberg et al. Manipulations of fundamental and formant frequencies influence the attractiveness of human male voices
ES2834929T3 (es) Llenado con ruido en la codificación de audio por transformada perceptual
US20150073785A1 (en) Method for voicemail quality detection
BRPI0711317A8 (pt) Método para fornecer informação audível a partir de um desfibrilador, e, desfibrilador externo automático
RU2011101617A (ru) Устройство и способ для вычисления числа огибающих спектра
US20090319268A1 (en) Method and apparatus for measuring the intelligibility of an audio announcement device
De Castro et al. Speech inconsistency index in Brazilian Portuguese-speaking children
EP4095854B1 (en) Weight function determination device and method for quantizing linear prediction coding coefficient
Kim et al. Test-retest reliability of word recognition score using Korean standard monosyllabic word lists for adults as a function of the number of test words
Schneider et al. Reaction time and decision difficulty in the perception of intonation
ATE456845T1 (de) Sprachdifferenzierung
Kallio et al. Creaky voice and utterance fluency measures in predicting perceived fluency and oral proficiency of spontaneous L2 Finnish
CN106504771A (zh) 一种适用于噪声环境的汉语语音清晰度评测算法
NO20080330L (no) Kalibreringssystem for anvendelse med testfilmer for lateral stromningsanalyse
CN103519785A (zh) 基于实时语音多维建模的语音障碍多维测量***及其方法
CN104301901B (zh) 移动通信***间干扰的检测方法、装置及***
CN102208190B (zh) 抑制非平稳噪声设备收敛时间的测量方法及装置
PT2780910E (pt) Método e aparelho para avaliar a inteligibilidade de um sinal de fala degradado
Xue et al. Towards a comprehensive assessment of speech intelligibility for pathological speech
Mertens Automatic labelling of pitch levels and pitch movements in speech corpora
Hunter et al. Overlap of hearing and voicing ranges in singing
US20100169079A1 (en) Psychoacoustic time alignment
Silva et al. Prosodic distinctions between the varieties of the Upper Xingu Carib language: Results of an acoustic analysis