CN106558319A - 一种适用于带宽有限传输条件的汉语语音清晰度评测算法 - Google Patents

一种适用于带宽有限传输条件的汉语语音清晰度评测算法 Download PDF

Info

Publication number
CN106558319A
CN106558319A CN201611012593.9A CN201611012593A CN106558319A CN 106558319 A CN106558319 A CN 106558319A CN 201611012593 A CN201611012593 A CN 201611012593A CN 106558319 A CN106558319 A CN 106558319A
Authority
CN
China
Prior art keywords
chinese
bandwidth
definition
frequency
rbf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611012593.9A
Other languages
English (en)
Inventor
章斯宇
孟子厚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN201611012593.9A priority Critical patent/CN106558319A/zh
Publication of CN106558319A publication Critical patent/CN106558319A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明提出一种适用于传输带宽有限条件的汉语听感清晰度客观评测方法,建立了以带宽或带频比为自变量的汉语单音节、声母、韵母和声调清晰度的客观评测模型。只需要测量传输***的传输带宽和中心频率就可以直接计算出相应的汉语语音清晰度值,该方法针对汉语的语音学和听感特性,适用于汉语传播为主的声传输***,同时计算结果还可以对传输***的带宽条件设置起到一定的指导作用。

Description

一种适用于带宽有限传输条件的汉语语音清晰度评测算法
技术领域
本发明属于声频测量领域,特别涉及一种适用于带宽有限传输条件的汉语语音清晰度客观评测算法。
背景技术
语音清晰度是衡量语音传输***性能优劣的重要评价指标,清晰度评测在通信、扩声、音质设计等领域广泛应用,一般用正确接收的语言单位(比如单音节)与全部发送语言单位的比值度量清晰度。清晰度的评测方法分为主观评测和客观评测两类,主观评测方法是组织人员进行现场清晰度测试打分,尽管主观评测结果直接准确,但实际操作困难,因此工程中更多采用客观评测方法。清晰度客观评测是用某个客观量评价***的清晰度,这个客观量是根据一定的计算模型计算得到的,并且是与主观评测结果高度相关的。声频技术领域使用的语音清晰度客观评测指标主要有:清晰度指数AI(Articulation Index),辅音损失率%Alcon(Articulation loss of consonant),语言传输指数STI(SpeechTransmission Index)等,这些客观评测方法均有其各自的计算模型,采用不同的信号处理方法,适用于不同的条件和场合。然而,将这些评测方法直接应用到汉语声传播环境的清晰度评测时会出现失效的问题,即客观评测结果与汉语语音清晰度主观测试结果不匹配,客观评测结果较差对应的汉语实际听闻感受可能尚可,而客观评测结果较好对应的汉语实际听感可能不佳。
分析现有技术评测汉语语音清晰度失效原因可知清晰度客观评测算法的可靠性与评测对象自身的特性有关,现有的清晰度客观评测方法是根据荷兰语或英语等印欧语系语言特性提出的,并没有考虑汉语的语音学和语言学特性。汉语属于汉藏语系,是一种声调语言,声调起到辨义作用,汉语以单音节为主,一个汉字就是一个单音节,每个音节包含声母、韵母和声调三个部分,有别于传统辅-元-辅的音节构造,由于存在较多的同音字,汉语的单字可以视作无语义,这些语音特点都与外语存在显著区别,因此在语音传输过程中各干扰要素对汉语语音清晰度的影响结果与外语会有所不同。此外,传统的清晰度客观评测算法是将语音传输***视作一个整体,馈给***一个标准测试信号,根据***的输出信号相对输入信号的变化衰减程度,进而给出一个具体的客观量值,计算过程中不涉及传输***中干扰因素的声学属性,因此不能反映传输***的声学特性是如何导致语音清晰度的下降,评测结果难以对清晰度降低的原因起到“诊断”和“治疗”作用,无法指导声传输***的功能设计。语音传输过程中影响清晰度的声学因素有很多,其中传输频带的带宽有限是一类主要的干扰条件,由于带宽限制语音信号的频率成分会产生损失,从而导致接收端清晰度下降。目前并没有专门针对传输频带受限并且考虑了汉语语音学和与语言学特性的清晰度评测方法。
发明内容
为了克服现有技术的缺陷,本发明提出一种适用于传输带宽有限条件的汉语听感清晰度客观评测方法,建立了以带宽或带频比为自变量的汉语单音节、声母、韵母和声调清晰度的客观评测模型。只需要测量传输***的传输带宽和中心频率就可以直接计算出相应的汉语语音清晰度值,该方法针对汉语的语音学和听感特性,适用于汉语传播为主的声传输***,同时计算结果还可以对传输***的带宽条件设置起到一定的指导作用。
提出一种带宽有限条件下汉语语音清晰度客观评测算法,包括测量能够表征影响汉语语音清晰度的传输带宽有限条件下的的客观声学参数的步骤,其特征在于,根据所建立的客观声学参数与汉语的主观听感清晰度间的对应函数关系,得到当前传输带宽有限条件下的汉语语音清晰度,其中,客观声学参数为自变量;其中,带频比RBF或***带宽B对应带宽有限条件下的客观声学参数。
进一步给出了若以传输带宽B为自变量,在带宽有限条件下的汉语单音节清晰度QF与传输带宽B之间的函数关系,以及汉语声母清晰度QFsm、韵母清晰度QFsm及声调清晰度QFsd与传输带宽B之间的函数关系。
最后给出了若以带频比RBF为自变量,在带宽有限条件下的汉语单音节清晰度QF与带频比RBF之间的函数关系以及汉语声母清晰度QFsm、韵母清晰度QFsm及声调清晰度QFsd与带频比RBF之间的函数关系。
附图说明
图1为本发明所用到的带宽有限传输条件下的汉语语音清晰度主观听感实验示意图
具体实施方式
本发明的思路是根据传输***带宽和中心频率与汉语实际听感清晰度的关系,提出一种符合汉语语音清晰度感知规律,适用于传输带宽有限条件下的汉语语音清晰度进行评测方法。通过开展不同频带条件的汉语语音清晰度主观听感实验,建立以带频比及带宽为客观变量的汉语语音清晰度函数模型,依据此计算模型可以实现传输带宽有限条件下的汉语语音清晰度评测,并能够根据清晰度预测结果对传输***的频带设置进行针对性的调整。需要说明的是本发明所指的汉语语音清晰度指的是汉语主观听感清晰度,具体指的是汉语单音节清晰度,语料使用的是不涉及语义的汉语单音节,与语言可懂度有所不同。
汉语语音清晰度主观听感实验示意图如图1所示,实验方法参照国家标准GB-T15508-1995《声学语言清晰度测试方法》进行。预先录制纯净的语音信号,按照不同的中心频率,不同的带宽条件进行滤波,以模拟受到频带限制作用的语音信号,实验中采用的中心频率范围250Hz~4kHz,按倍频程步进,各中心频率处按照按1/3倍频程向两端扩展形成不同的带宽条件,实验条件设置确保清晰度分布范围足够广。在听音室用隔声性能较好的监听耳机将这些处理后的语音信号回放给听音人进行清晰度测试。听音人听力正常,熟悉汉语普通话,听音人在答题纸上记录下自认为听到的音节拼音。比如听到:“序号X切哈宗”,被试记录“qièhāzōng”。只有当被试记录的拼音与实际播放的拼音一致时,才认为听对,否则记为错。为保证实验的信度,当某一被试记录表的得分与全体被试清晰度平均得分相差大于标准差3倍时,剔除掉该被试数据,重新计算清晰度得分。实验结束后通过多元回归分析的方法建立汉语节清晰度、声母清晰度、韵母清晰度、声调清晰度与混响时间的函数关系,从而得到汉语语音清晰度的客观评测模型。
本发明提出的传输带宽有限条件下的汉语语音清晰度客观评测算法模型可概括为式(1)和式(2)所示的函数形式,其中带宽B和带频比RBF对应的是带宽有限传递条件的客观控制变量。
QF=f(RBF) (1)
QF=f(B) (2)
本发明所指的带频比RBF是对传输频带带宽与中心频率的比值的修正,如式(3)所示,其中B=fH-fL为***带宽,是***的中心频率,a、b为常数,fH为频率上限,fL为频率下限,经主观实验评价比较,推荐a值取500,b值取800。
若以传输带宽B为自变量,本发明提出的汉语语音清晰度客观评测算法模型如式(4)~(7)
式中,QF是频带失真***中的汉语单音节清晰度,QFsm是频带失真***中的汉语声母清晰度,QFym是频带失真***中的汉语韵母清晰度,QFsd是频带失真***中的汉语声调清晰度,B是***带宽,R2为拟合精度。各公式后面对应不同的约束条件,BPF表示带通滤波,fc是带通滤波的中心频率,LPF表示低通滤波,HPF表示高通滤波。
若以带频比RBF为自变量,本发明提出的汉语语音清晰度客观评测算法模型如式(8)所示,该算法给出了汉语单音节清晰度QF、声母清晰度QFsm、韵母清晰度QFym、声调清晰度QFsd与带频比RBF的函数关系,二者呈指数关系,拟合精度R2可以达到0.90。
QF=-0.87×e-1.02×RBF+0.87 (8)
QFsm=-0.72×e-1.04×RBF+0.93 (9)
QFym=-0.87×e-1.46×RBF+0.96 (10)
QFsd=-0.30×e-2.10×RBF+0.95 (11)
本算法采用指数函数的形式,清晰度评测时,先确定传输***带宽和中心频率的的取值,随后根据公式计算,计算结果直接就是带宽有限条件下的汉语听感清晰度。
进一步的,本领域技术人员应当知晓,表征频带有限干扰条件的客观参量也存在除带频比RBF、带宽B以外的客观参量,本发明仅针对用带频比RBF、带宽B表征频带有限情况下的汉语语音清晰度评测,对于其存在的其他客观参量,本领域技术人员完全可以根据本发明给出的方法得到对应的评测算法。

Claims (7)

1.一种带宽有限条件下汉语语音清晰度客观评测算法,包括测量能够表征影响汉语语音清晰度的传输带宽有限条件下的的客观声学参数的步骤,其特征在于,根据所建立的客观声学参数与汉语的主观听感清晰度间的对应函数关系,得到当前传输带宽有限条件下的汉语语音清晰度,其中,客观声学参数为自变量。
2.如权利要求1所述的汉语语音清晰度客观评测算法,其特征在于,带频比RBF或传输带宽B对应带宽有限条件下的客观声学参数,其中,,B=fH-fL为***带宽,是***的中心频率,a、b为常数,fH为频率上限,fL为频率下限。
3.如权利要求2所述的汉语语音清晰度客观评测算法,其特征在于,a值取500,b值取800。
4.如权利要求2所述的汉语语音清晰度客观评测算法,其特征在于,若以传输带宽B为自变量,则在带宽有限条件下的汉语单音节清晰度QF与传输带宽B之间的函数关系如下:
其中,B是***带宽,R2为拟合精度。各公式后面对应不同的约束条件,BPF表示带通滤波,fc是带通滤波的中心频率,LPF表示低通滤波,HPF表示高通滤波。
5.如权利要求2所述的汉语语音清晰度客观评测算法,其特征在于,若以传输带宽B为自变量,则在带宽有限条件下的汉语声母清晰度QFsm、韵母清晰度QFsm及声调清晰度QFsd与传输带宽B之间的函数关系如下:
式中,QFsm是频带失真***中的汉语声母清晰度,QFym是频带失真***中的汉语韵母 清晰度,QFsd是频带失真***中的汉语声调清晰度,B是***带宽,R2为拟合精度。各公式后面对应不同的约束条件,BPF表示带通滤波,fc是带通滤波的中心频率,LPF表示低通滤波,HPF表示高通滤波。
6.如权利要求2所述的汉语语音清晰度客观评测算法,其特征在于,若以带频比RBF为自变量,则在带宽有限条件下的汉语单音节清晰度QF与带频比RBF之间的函数关系如下:QF=-0.87×e-1.02×RBF+0.87。
7.如权利要求2所述的汉语语音清晰度客观评测算法,其特征在于,若以带频比RBF为自变量,则在带宽有限条件下的汉语声母清晰度QFsm、韵母清晰度QFsm及声调清晰度QFsd与带频比RBF之间的函数关系如下
QFsm=-0.72×e-1.04×RBF+0.93
QFym=-0.87×e-1.46×RBF+0.96
QFsd=-0.30×e-2.10×RBF+0.95。
CN201611012593.9A 2016-11-17 2016-11-17 一种适用于带宽有限传输条件的汉语语音清晰度评测算法 Pending CN106558319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611012593.9A CN106558319A (zh) 2016-11-17 2016-11-17 一种适用于带宽有限传输条件的汉语语音清晰度评测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611012593.9A CN106558319A (zh) 2016-11-17 2016-11-17 一种适用于带宽有限传输条件的汉语语音清晰度评测算法

Publications (1)

Publication Number Publication Date
CN106558319A true CN106558319A (zh) 2017-04-05

Family

ID=58443186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611012593.9A Pending CN106558319A (zh) 2016-11-17 2016-11-17 一种适用于带宽有限传输条件的汉语语音清晰度评测算法

Country Status (1)

Country Link
CN (1) CN106558319A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102148033A (zh) * 2011-04-01 2011-08-10 华南理工大学 一种语言传输***清晰度测试方法
CN102194460A (zh) * 2010-03-11 2011-09-21 奥迪康有限公司 语音清晰度预测器及其应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194460A (zh) * 2010-03-11 2011-09-21 奥迪康有限公司 语音清晰度预测器及其应用
CN102148033A (zh) * 2011-04-01 2011-08-10 华南理工大学 一种语言传输***清晰度测试方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
尚楠等: ""混响和噪声对汉语语音清晰度影响的等效关系"", 《声学技术》 *
戴璐等: ""混响时间与汉语单音节清晰度关系的实验测量"", 《第十届全国人机语音通讯学术会议论文集》 *
章斯宇等: ""语言传输指数STI 评价汉语清晰度的失效性"", 《中国传媒大学学报(自然科学版)》 *

Similar Documents

Publication Publication Date Title
Hirsh et al. Intelligibility of different speech materials
Kataoka et al. The relationship between spectral characteristics and perceived hypernasality in children
US8565908B2 (en) Systems, methods, and apparatus for equalization preference learning
Maeda The role of the sinus cavities in the production of nasal vowels
Lien et al. Effects of phonetic context on relative fundamental frequency
US20110178799A1 (en) Methods and systems for identifying speech sounds using multi-dimensional analysis
CN111798852A (zh) 语音唤醒识别性能测试方法、装置、***及终端设备
CN106504771A (zh) 一种适用于噪声环境的汉语语音清晰度评测算法
Kallail et al. An acoustic comparison of isolated whispered and phonated vowel samples produced by adult male subjects
Letowski et al. Correlation Analysis of Speech Intelligibility Tests and Metrics for Speech Transmission
Helfer Binaural cues and consonant perception in reverberation and noise
Harrison Variability of formant measurements
Utianski et al. The effects of speech compression algorithms on the intelligibility of two individuals with dysarthric speech
JP4909263B2 (ja) バイノーラル音信号の主観的特性の判定法
CN106558319A (zh) 一种适用于带宽有限传输条件的汉语语音清晰度评测算法
CN106782611A (zh) 一种适用于混响环境的汉语语音清晰度评测算法
CN106531183A (zh) 一种基于传输***声学参量的汉语语音清晰度评测算法
JP6639857B2 (ja) 聴力検査装置、聴力検査方法および聴力検査プログラム
Siyu et al. Relationship between Chinese Mandarin intelligibility and speech transmission index STIPA under simulated tranmission conditions
Tanner et al. Velopharyngeal port status during classical singing
Johnson et al. Does time compression decrease intelligibility for female talkers more than for male talkers?
Liu et al. Auditory detection of non-speech and speech stimuli in noise: Effects of listeners' native language background
Risberg The transposer and a model of speech perception
Zhang et al. The measurement and analysis on Chinese Mandarin syllable and phoneme articulation in band-limited condition
Hedrick et al. Effect of F2 intensity on identity of/u/in degraded listening conditions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170405

RJ01 Rejection of invention patent application after publication