CN102044248A

CN102044248A - 一种针对流媒体音频质量的客观评测方法

Info

Publication number: CN102044248A
Application number: CN2009102356452A
Authority: CN
Inventors: 杨越; 谢湘; 魏耀都
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2009-10-10
Filing date: 2009-10-10
Publication date: 2011-05-04
Anticipated expiration: 2029-10-10
Also published as: CN102044248B

Abstract

本发明为一种针对流媒体音频质量的客观评测方法，在发送端获得原始音频，在接收端获得经过网络传输后引入了编解码器、丢包、延时抖动损伤的失真音频；针对带有网络特性的失真的音频进行预处理和对齐模块处理后，经过音频质量的感知评估PEAQ输出去掉延时和抖动的失真音频；对原始音频和对齐后的失真音频进行编解码器及丢包损伤质量评测；对于失真音频和对齐后的失真音频间的延时抖动带来的损伤进行网络损伤评估的客观质量评测；把这两部分损伤的质量评测值拟合，得到原始音频和经过网络传输后的失真音频的客观评测值。

Description

一种针对流媒体音频质量的客观评测方法

技术领域

本发明涉及通信网络质量的评测方法，尤其是对于流媒体音频质量的一种客观评测方法。

背景技术

21世纪是网络高速发展的时代，随着互联网的普及，利用网络传输音频信号的需求也越来越大。流媒体技术的出现，在一定程度上使互联网传输音频难的局面得到改善，其将过去传统媒体的“推”式传播，变为受众的“拉”式传播与实时传播。由于流媒体技术在一定程度上突破了网络带宽对多媒体信息传输的限制，因此被广泛运用于网上直播、网络会议、远程教育及企业培训等多种领域。为了更好的进行流媒体的传输，通常需要对于流媒体质量进行评测，同时也对流媒体音频的质量评测提出了新的挑战。

目前对于语音及音频质量的测试方法有两种：传统的主观评测方法和评测的新方法客观评测。主观评价是以人为主体来评价语音和音频的质量。在语音质量主观评价方法中，MOS评分用的最为广泛，它以平均意见分来衡量语音质量，用五个等级来表示语音的质量等级：优(5分)、良(4分)、一般(3分)、差(2分)、坏(1分)。主观听音测试方法包括：ACR：绝对等级评定，最常用的一种听音测试方法，等级评定是基于语句组的，语句组有一组无关的短句组成，每一个语句都通过一系列的标准处理。DCR：衰减等级评定，用于小衰减情况，适于评价类似的数字语音处理算法、***优化。CCR：比较等级评定，用于改进输入语音质量，如加噪等。在音频方面，按照音频信号编、解码后质量的高低，可将音频信号的质量评价分成两类：一种为对小损伤、高质量音频信号一般采用ITU-R BS.1116标准进行测试；另一种为对中等损伤、中等质量的音频信号一般采用ITU-R BS.1534(MUSHRA)，它是一种双盲的多激励音频信号听音比较测试方法，双盲指的是在待评测的语句中含有隐含的参考信号(通常为原始的高质量音频)和隐含的失真信号(称之为锚)。其评分等级范围为0到100，分值步进为1，每20分对应一个质量等级，分别对应质量级别的“极差”到“优异”，听音人员对待测音频信号进行评分比较排序，并可以任意选择听音顺序和听音次数。这个测试方法是一种多激励的对比听音测试，能够有效的区分出待测信号的质量等级。主观评价的优点是符合人对音频质量的感觉，缺点是费时费力费钱，且灵活性不够，重复性和稳定性较差，受人的主观影响较大等。

客观评测方法在语音方面：有ITU-T P.862(PESQ)建议，它是ITU提出的语音质量客观评价算法之一，它针对网络中出现的可变时间延迟和***引入的线性滤波这两方面做了改进，是目前与主观分值相关度最高的语音质量评测客观算法，该分值在0~4.5之间，通常情况下，输出分值在1.0~4.5之间，分值在2分或2分以下，表示语音质量比较差，难于听懂，但是其对于音频和抖动延时较大的情况下却不能给出很好的评价；在VoIP中获得了广泛应用的ITU-T G.107规范(E模型)，其优点是全面考虑了网络中如噪声回音延时编码器性能抖动等网络损伤因素给出一个单一的得分R并且具有相当的评估准确度，且其质量等级R值与客观MOS分的质量等级存在着一个非线性单调的映射关系，然而E-model却存在着对于大数量的可能输入参数的组合情况未经过足够的界内验证和充分的实验室测量，估测仍处在置疑和研究的阶段等的缺点。在音频方面：ITU-R综合六种已有的方法以及一些还在发展中并且很有潜力的评价方法，最终形成了ITU-RBS.1387(PEAQ)建议，其客观评价分值称为ODG，分值范围为0到-4间，质量等级为：无法感知的(0分)，可感知但不恼人(-1分)，轻微的恼人(-2分)，恼人的(-3分)，非常恼人(-4分)，然而它作为针对音频编解码器的提出的算法，存在“训练集问题”，对于高速率及质量较好的音频能够给出很好的评价，然而，对于质量较差(如速率较低或者丢包率很高)则不能给出与主观分值相关度较高的评价。由于PEAQ是基于帧到帧的比较，因此对于引入了延时抖动的音频，PEAQ不能自己对齐音频，找到原始帧对应的失真帧进行比较，因此不能给出正确的客观评测分值。

发明内容

本发明要解决的技术问题是，提供一种针对流媒体音频质量的客观评测方法，能够客观评测引入了编解码器、丢包、噪声等损伤的音频质量，而且还能够客观评测引入了网络传输损伤(如延时抖动等)的失真音频的质量。

本发明提供的一种针对流媒体音频质量的客观评测方法，包括以下步骤：

第一步：在发送端获得原始音频，在接收端获得经过网络传输后引入了编解码器、丢包、延时抖动损伤的失真音频；

第二步：针对带有网络特性的失真的音频进行预处理和对齐模块处理后，经过音频质量的感知评估PEAQ输出去掉延时和抖动的失真音频；

第三步：对原始音频和对齐后的失真音频进行编解码器及丢包损伤质量评测；

第四步：对于失真音频和对齐后的失真音频间的延时抖动带来的损伤进行网络损伤评估的客观质量评测；

第五步：把这两部分损伤的质量评测值拟合，得到原始音频和经过网络传输后的失真音频的客观评测值。

所述第一步中对其是否有网络延时抖动以及网络延时抖动的大小进行判断方法为：根据网络延时抖动大小定义对齐模块的搜索窗大小，并将其做为对齐模块的初始搜索窗值；并且根据划分的音频段和静默段信息，试验出传输的帧长。

所述得对齐模块利用基于帧到帧的互相关的办法，在失真音频中找到对应的帧，下一帧恢复到初始搜索窗值，如此循环，直到在失真音频中找到原始音频的每一帧的对应帧，若没有，则调整初始搜索窗值，继续搜索，直到得到的对齐失真音频的样点数等于原始音频的样点数，并输出对齐后的失真音频。

原始音频和经过对齐模块后得到的对齐后的失真音频进行编解码器及丢包损伤评估计算为音频质量的感知评估(PEAQ)计算。由于PEAQ的计算机制是逐帧比较的算法，如果因为经过网络传输引入了延时抖动等因素，可能导致每帧的延时抖动并不相同，未对齐的话会使得PEAQ后期的评测没有意义。即失真音频如果是没有对齐的音频，作为国际标准的客观评测算法PEAQ将给不出正确的客观分值，并且通过主观实验证明，若是没有对齐，PEAQ给出的客观分值与主观分值的相关度为-0.3，也就是说：不仅与主观分值不相关，趋势还是相反的。因此对齐模块对于正确评测流媒体音乐质量相当重要，并且必须经过对齐模块后，再用音频质量的感知评估计算模块来评测，才能得到与主观分值相关度较高的客观分值。

所述的音频质量的感知评估(PEAQ)计算采用下述步骤：

第一步：将输入信号从时域变换到听觉域Bark，BV依靠FFT加频域到Bark域映射的方法，AV依靠滤波器组滤波的方法，在映射的过程中，根据还音电平对信号进行幅度调节、利用外中耳模拟函数对信号进行加权；

第二步：按照心理声学理论对表示在Bark域的输入信号进行频域扩散和时域扩散，同时计算遮蔽门限；

第三步：进行幅度和模式调整，并计算失真阈值；

第四步：利用上述三步的输出，按各输出参数的定义计算所有输出参数MOVs；将MOVs通过信息融合的手段合成为评价参数。

所述PEAQ包括了基于快速傅立叶变换(FFT)和基于滤波器组的人耳模型。模型包括两个版本：一个是适用于高处理速度(低计算复杂度)需要的应用，被称之为基本版本。另一个版本是适用于高准确度测试需要的应用，被称之为高级版本。高级版本的优点是，它增加了滤波器组人耳模型的时间分辨度。基本版本使用11个MOVs做为计算模块的输出参数，而高级版本则使用5个MOVs值。这16个MOVs可以分为七大类：调制差异，噪声响度，带宽，掩噪比，相对扰动，检测可能，误差的谐音结构参数。这些输出参数MOVs可以非常精细的描述编解码损伤、丢包差错隐藏、噪声等等带来的损伤，然而它却不能够反应出由延时抖动带来的损伤，因此本发明还包括了失真音频和经过对齐模块后得到的对齐后的失真音频进行网络延时抖动损伤的评估计算模块。并且考虑到计算精度和复杂度的折中，我们选取PEAQ算法的基本版本作为本发明损伤评估模块计算算法。

所述失真音频和经过对齐模块得到的对齐后的失真音频进行网络延时抖动损伤的评估方法包括以下步骤：

第一步：用基于美尔频率倒谱系数MFCC的动态时间弯折DTW的最小代价，得到基于MFCC的DTW的最小代价映射到MUSHRA主观分值的拟合模型和DTW的最小代价对应的主观分值DTW-ODG；

第二步：用MUSHRA得到的主观分值拟合所述的音频质量的感知评估PEAQ的客观分值ODG和网络延时抖动损伤的客观分值DTW-ODG，得到最终的流媒体音频质量的客观评测分值IP-ODG。

附图说明

图1是本发明所述方法的结构图

图2是本发明所述方法中的预处理模块实施例流程图

图3是本发明所述方法中的音频对齐模块实施例流程图

图4是本发明所述方法中的损伤评估模块的实施例流程图

图5是本发明所述方法中的网络抖动评估模块实施例原理图

图6是本发明所述方法中的应用实施例原理图

具体实施方式

下面以本发明采用的AMR-WB+编解码标准，利用搭建起来的网络仿真平台模拟通信网络处理音频信息，其他模块皆采用C语言开发，具有很好的移植性。

为实现本发明目的的方法，第一步骤，保存原始音频和获得经过网络传输的失真音频；第二步骤，对原始音频和失真音频进行预处理模块，判断检测是否有网络延时抖动，如果有，则计算出帧长和网络延时抖动的大小，并且根据得出的帧长和网络延时抖动大小定义出对齐模块的搜索窗大小；第三步骤，根据所述第二步骤得出的搜索窗大小的结果，初始化对齐模块的搜索窗，然后再通过互相关来找出原始音频每一帧在失真音频中对应帧，并且为了对齐算法的精度，该搜索窗为动态增加的；第四步骤，用对于编解码器等损伤评测非常精细的国际标准客观评测算法PEAQ评测原始语音和对齐后的失真音频；第五步骤，对于失真音频和对齐后的失真音频之间的损伤，本发明用MUSHRA主观实验结果来训练拟合基于MFCC的DTW最小代价，来描述网络传输引入的延时抖动在听觉上造成的损伤；将PEAQ得到的客观分值和经过拟合后的DTW最小代价对应的客观分值进行简单的拟合，得到流媒体音频质量的客观分值。并且，我们可以很明显的看出，该分值肯定比PEAQ对未对齐的音频信号进行帧到帧的比较得出的ODG与主观分值高许多的主观实验，更加适合于客观评测有网络损伤的音频。

由图1可以看出，本发明所述方法的***包括，在发送端获得原始音频，在接收端获得经过了网络传输的失真音频；然后针对带有网络特性的失真音频进行预处理和对齐处理；然后对编解码器及丢包损伤进行的质量评测和延时抖动质量评测两部分客观评测模块；最后把这两部分损伤的质量评测值拟合得到最终的流媒体音频质量的评测分值。

图1是本发明所述方法的原理图。我们存储下步骤1的原始音频流，经过通信网络，本文的通信网络利用自己搭建起来的网络平台来模拟实际步骤2的通信网络，该平台具有丢包，抖动，延时等功能，由于选择的丢包及抖动模型都是按照ITU建议STUDY GROUP 12 DELAYED CONTRIBUTION 97(Packet LossDistributions and Packet Loss Models)及DELAYED CONTRIBUTION 98(Analysis，measurement and modelling of Jitter)来模拟的，能够很好的反应实际网络的情况。于是在输出端能够得到步骤3的失真音频流，为了更好的模拟实际情况，还引入AMR-WB+编解码器为例，这样对于丢包还引入编解码器的差错隐藏功能，使得输出的失真音频流能够很好的反映原始音频流经过网络传输之后的损伤。然后将存储下来的原始音频流和失真音频流通过步骤4的预处理模块，进行处理。

图2是本发明所述方法中的预处理模块实施例流程图。由图2可以看出，图1的步骤4的预处理模块主要是将存储下来的原始音频流和失真音频流经过步骤15的读入模块，读入音频信息，然后通过计算，判断帧长和初始窗值。其中，读入模块可以实现：输入音频信息的采样率可以为16000Hz或者48000Hz，格式可以为RAW、SRC或者WAV格式，其中WAV格式被默认为是44字节的头大小。基本上能够涵盖现在音频编解码器的输出格式。根据采样率，可以知道原始音频和失真音频的样点数，步骤18可以计算出原始音频和失真音频的样点数的差值，初步估算失真音频的延时抖动的大小，来定义初始搜索窗的大小。若差值不大，则说明延时抖动不是很严重，则初始搜索窗大小设置小一些，这样既可以减少计算量，又可以避免引入太多失真音频的下一帧信息影响计算结果；若延时抖动差值较大，则说明延时抖动非常严重，则初始搜索窗设的大一些，以保证能够在失真音频中搜索到与原始音频对应的每一帧。通过计算失真音频的能量信息，可以粗略的划分出失真音频的音频段和延时抖动段大小，然后可以用典型的帧长去试验音频段，可以估算出传输的包的帧长。

图3是本发明所述方法中的音频对齐模块实施例流程图。由图3可以看出，图1的步骤5的对齐模块主要是把失真音频的延时抖动去掉，使得原始音频的每一帧在PEAQ计算模块时能够对应比较相应的失真音频每一帧。具体过程如图3，首先进行步骤20初始化设定：设定初始搜索窗值N0，失真音频的起始位置lastEnd＝0，根据帧长L划分原始音频，得到帧数为M，原始音频总样点数记为SumRef，动态调整搜索窗值Count＝0。然后进行步骤21动态调整搜索窗：调整count并且调整搜索窗值N＝N0+count，i＝0(0…M-1)，j＝0(0…N-1)。步骤22：取原始音频的每一帧i对应的样点数，i++及步骤23：取对应的失真音频lastEnd+＝j为起始点的对应帧样点数。步骤24为对原始帧和失真帧做基于FFT的快速互相关算法，由于基于样点的互相关的计算量很大，因此采用基于FFT的快速互相关算法达到节约计算量和加快运算速度的效果；步骤25是为了保证在搜索窗内能够在失真音频中搜索到对应的帧，所以若没有搜索到，即搜索到的都为静默或者噪声帧，则互相关值为0或者一个小于阙值的互相关值，则增大搜索窗。步骤26则把最大互相关值和其对应失真帧的样点数存储下来，之后搜索窗内失真音频每一个起始点的帧计算出来的值都与存储下的最大互相关值比较，若比这个值大，则存储新的最大互相关值和其对应失真帧的样点数；若比这个值小，则维持这个值不变。如此循环，知道搜索窗减为0，即失真音频以搜索窗加上上一帧的结束点的值为起始点，后的一帧内比较找出最大互相关值及其对应的延迟样点数，即为与原始音频那一帧相对应的失真音频帧。直到原始音频所有的帧都遍历完后，也就是在失真音频中找到了对应的帧数，然后比较样点数是否一致，确定失真音频中是否有重叠的帧被引入，若不相等，则说明失真音频中有重叠的帧，则调整搜索窗的大小，返回步骤24，重新计算，直到找到所有的对应的帧，则算法结束。

图4是损伤评估模块的实施例流程图。该模块我们采用目前国际音频客观评测标准算法PEAQ进行说明。由图4可知，经过对齐模块后的失真音频，是消除了延时抖动损伤的音频信号，只存在编解码器，丢包、噪声等PEAQ可以很好评测的损伤因素。所述的PEAQ计算可以采用下述模块来进行处理：

1.预处理模块：将输入信号从时域变换到Bark域(即听觉域)，BV依靠FFT加频域到Bark域映射的方法，AV依靠滤波器组滤波的方法。在映射的过程中，还要根据还音电平对信号进行幅度调节、利用外中耳模拟函数对信号进行加权；

2.心理声学模块：按照心理声学理论对表示在Bark域的输入信号进行频域扩散和时域扩散，同时计算遮蔽门限；

3.感知模型模块：由于人的感觉和用幅度表示的声学信号并不是线性对应关系，为了更好地对人耳感觉加以模拟，还需要进行幅度和模式调整，并计算失真阈值；

4.计算模块：首先利用前面3个模块的输出，按各输出参数的定义计算所有输出参数(MOVs)；然后将MOVs通过信息融合的手段合成为一个惟一的评价参数，PEAQ的信息融合是通过具有一个隐层的人工神经网络(ANN)来实现的，最终得到了客观评价结果ODG。

所述PEAQ可以包括基于快速傅立叶变换(FFT)和基于滤波器组的人耳模型。模型包括两个版本：一个是适用于高处理速度(低计算复杂度)需要的应用，被称之为基本版本。另一个版本是适用于高准确度测试需要的应用，被称之为高级版本。基本版本使用11个MOVs做为最终映射得出的测试等级值，而高级版本则使用5个MOVs值。然后通过具有一个隐层的人工神经网络(ANN)得到客观评价结果ODG。

由于本发明主要是用来评测经过网络传输的音频信号，所以精确度要求不像编解码器客观评测的要求那么高，并且考虑到计算的速度问题，所以采用PEAQ的基本版本作为损伤评估模块算法。

图5是本发明所述方法中的网络抖动评估模块实施例原理图。由图5可以看出，首先应进行步骤32所说的MUSHRA主观实验，根据ITU-R BS.1534(MUSHRA)规定，本发明采用原始音频作为隐含的参考信号，原始音频经过低通滤波器滤完之后截止带宽为3.5kHz的失真信号作为锚，选择24个人的分值经过数据分析和预处理后作为用来训练DTW最小代价的主观分值。然后对未对齐失真语料和对齐后的失真语料进行步骤37：MFCC参数提取，然后把2者的MFCC参数做为步骤36：DTW计算的输入。将得到未对齐失真语料和对齐后的失真语料的MUSHRA分值差和计算出来的DTW最小代价进行三阶多项式拟合。得到DTW最小代价与主观分值的对应关系，由此可以对于任意的DTW最小代价可以计算出它对应的主观MUSHRA分值(0分到100分)，由于它可与ODG(-4分到0分)线性映射得到，本发明称之为：DTW-ODG。然后通过MUSHRA主观实验的结果再得到DTW-ODG与ODG映射公式，通过该公式，我们可以在得到损伤评估模块(PEAQ)的输出值ODG和网络损伤评估模块的输出值DTE-ODG之后，得到最终的流媒体音乐质量客观分值，本发明称之为：IP-ODG。

图6是图1所述方法中的应用实施例原理图。首先将获得的原始音频Ref1.wav，和经过了网络传输的失真音频Deg1.wav，损伤影响因素包括：丢包，延时抖动，还有AMR-WB+的编解码损伤以及AMR-WB+的丢包恢复模块等；然后经过本发明所述的预处理模块和对齐处理模块后输出对齐后的失真音频Deg1_New.wav；再对编解码器及丢包损伤进行的客观质量评测(PEAQ)和延时抖动质量评测两部分客观评测模块；最后把这两部分损伤的质量评测值拟合得到最终的流媒体音频质量的评测分值IP-ODG。由于现有的国际标准音频质量算法PEAQ不能够准确评测带有延时抖动损伤的音频，并且对于丢包比较大、或者速率比较低质量比较差的音频得到的主客观相关度很低。因此，该分数能够比现有的国际标准音频质量算法PEAQ能够得到更准确的分值，并且与主观分值有较为高的可接受的相关度。

Claims

1.一种针对流媒体音频质量的客观评测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种针对流媒体音频质量的客观评测方法，其特征在于：所述第一步中对其是否有网络延时抖动以及网络延时抖动的大小进行判断方法为：根据网络延时抖动大小定义对齐模块的搜索窗大小，并将其做为对齐模块的初始搜索窗值；并且根据划分的音频段和静默段信息，试验出传输的帧长。

3.根据权利要求1所述的一种针对流媒体音频质量的客观评测方法，其特征在于：所述得对齐模块利用基于帧到帧的互相关的办法，在失真音频中找到对应的帧，下一帧恢复到初始搜索窗值，如此循环，直到在失真音频中找到原始音频的每一帧的对应帧，若没有，则调整初始搜索窗值，继续搜索，直到得到的对齐失真音频的样点数等于原始音频的样点数，并输出对齐后的失真音频。

4.根据权利要求1或2或3所述的一种针对流媒体音频质量的客观评测方法，其特征在于：所述的音频质量的感知评估PEAQ计算采用下述步骤：

第三步：进行幅度和模式调整，并计算失真阈值；

5.根据权利要求1或2或3所述的一种针对流媒体音频质量的客观评测方法，其特征在于：所述失真音频和经过对齐模块得到的对齐后的失真音频进行网络延时抖动损伤的评估方法包括以下步骤：