CN1132152C

CN1132152C - 用于执行音频信号的传输质量的机器支持的评估的方法

Info

Publication number: CN1132152C
Application number: CN998101168A
Authority: CN
Inventors: P·朱里克
Original assignee: Ascom AG
Current assignee: Ascom Schweiz AG
Priority date: 1998-06-26
Filing date: 1999-06-21
Publication date: 2003-12-24
Anticipated expiration: 2019-06-21
Also published as: HK1039997B; EP0980064A1; US6651041B1; DE59903474D1; CA2334906C; RU2232434C2; AU4129199A; KR100610228B1; EP1088300B1; CN1315032A; KR20010086277A; ES2186362T3; CA2334906A1; HK1039997A1; TW445724B; WO2000000962A1; EP1088300A1

Abstract

一个源信号(例如语音样板)通过语音编码器1进行处理或者传输并且转换到接收信号(编码的语音信号)。源信号和接收信号分别属于预处理2和心理声音模型3。随后是一个距离计算4，其评估信号的相似性。最后，进行MOS计算以得到可以与人类听觉相比较的结果。根据本发明，为了评估传输质量，一个频谱相似值被确定，其是根据源信号和接收信号的频谱的协方差的计算以及两个所述的频谱的标准的背离的协方差的除法进行。此方法能够在考虑人类听觉处理的情况下得到客观的评估。

Description

用于执行音频信号的传输质量的机器支持的评估的方法

技术领域

本发明用于执行音频信号，尤其是语音信号的传输质量的机器支持的评估的方法，其中在一个频域内确定要传输的源信号和要传输的接收信号的频谱。

背景技术

语音信道的传输质量的评估随着移动无线电话的上升的扩散和地理的覆盖。需要一种方法，其是客观的(即不依赖于特定个体的判断)并且能够自动地运行。

经过在标准的0.3-3.4kHz频带中的通信信道进行的完美的语音传输给出98％句的理解。然而，具有在终端中的语音编码器的移动无线通信网络的介入能够大大削弱语音的理解性。另外，确定削弱的程度表现了一定的难度。

语音质量相对于位率、回声或者音量而言是一个不清楚的概念。既然用户的满意能够直接根据语音如何好地被传输进行测量，编码方法需要被选择并且涉及到语音质量进行优化。为了评估一个语音编码方法，一般执行非常精细的音频测试。在此情况下，该结果远离了可重复性并且依赖于测试聆听者的动机。因此需要一个硬件的替换，其通过合适的物理测量测量语音性能特征，该特征近可能好地与客观得到的结果相关联(平均意见程度，MOS)。

EP0 644 674 A2公开了一种用于评估语音传输通道的传输质量的方法，该通道能够以自动的水平得到一个强烈相关人类感觉的评估。这意味着该***能够进行传输质量的评估并且当其被一个受过训练的测试聆听者使用时可以作为一个标度。该主要的思想是使用了神经网络。后者使用一个语音样板进行训练。最后的结果是进行完整的质量评估。对于质量损失的原因能够说明。

现在的语音编码方法进行数据压缩并且使用非常低的比特率。为此原因，简单的已知的面对对象的方法，例如信噪比(SNR)降低。

发明内容

本发明的任务是给出一开始所述类型的方法，其能够得到一个面对对象的评估(语音质量预告)，并且考虑了人类听觉的处理。

实现此任务的方法以下特征定义。根据本发明，为了评估传输质量，一个频谱相似值根据源信号和接收信号的频谱的协方差的计算以及两个所述的频谱的标准偏差的协方差的分割被确定。

具有一定范围的分级语音样板的测试以及相关的听觉判断(MOS)已经示出了与根据本发明的方法所得到的听觉值具有非常良好的相关性。与建立在神经网络上的已知的步骤相比，本方法具有下面的优点：

●对存储和CPU资源的较少的要求。这对于实时的实现是重要的。

●为了使用新的语音样板不需要复杂的***训练。

●没有固有在***中的次最佳的参考。能够使用此措施测量的最好的语音质量相应于语音样板的质量。

优选的，频谱相似值通过一个系数进行加权，该系数作为接收的和源信号的频谱的能量之间的比例的函数，在接收信号的能量大于源信号的能量的情况下比在接收信号的能量小于源信号的能量的情况下，较大程度地降低了相似值。以此方法，在接收信号中的额外的信号内容比丢失的信号内容具有较大的负加权。

根据特别优选的实施例，加权系数也依赖于接收信号的信号能量。对于接收信号相对于源信号的频谱的能量的任何的比例，如果接收信号的信号能量较大，该相似值被相应较大程度地降低。作为一个结果，接收信号对相似值的干扰的影响作为接收信号的能量的函数进行控制。最后，至少两个程度的窗口被确定，一个低于一定的阈值并且一个高于此阈值。优选的，在特殊的三种情况下，程度窗口高于阈值确定。此相似值根据接收信号位于的程度窗口被降低。该程度越大，该降低越大。

本发明原则上可以用于任何的音频信号。如果音频信号还有不活动的阶段(这是典型地具有语音信号的情况)，可以推荐分开对于活动的和不活动的阶段进行质量评估。其能量超出预定阈值的信号部分被分配给活动阶段，而其他的部分作为间歇(不活动的阶段)进行分类。上述的频谱相似性然后只对于活动的阶段进行计算。

对于不活动的阶段(例如语音间歇)，一个质量函数能够被使用，其作为间歇能量的函数下降。

A^{\frac{\log 10 (Epa)}{\log 10 (E \max)}}

A是合适选择的常数，并且Emax是间歇能量的最大的可能值。

整个的传输质量(即所述的实际传输质量)由活动的和不活动的阶段的质量的加权的线性组合给出。在此情况下，加权系数依赖于活动阶段出现在整个信号的比例，并且尤其是在非线性的情况下，活动的阶段是优选的方式。在例如50％的比例情况下，活动阶段的质量可以是例如90％的级别。

间歇或者在间歇中的干扰因此分开考虑并且比活动的信号间歇具有较低的程度。这考虑了如下的事实，基本上没有信息在间歇中传输，但是如果干扰发生在间歇中，其是能够不高兴地感觉到。

根据特别优选的实施例，源和接收信号的时域采样值在数据帧中被组合，该数据帧通过从几毫秒到十几毫秒(例如16ms)相互重叠。此重叠-至少部分地-形成了固有在人类听觉***中的时间掩蔽。

如果-在变换到频域之后-目前的帧的频谱具有加入到其中的前一个的削弱的频谱。该频谱分量在此情况下优选进行不同的加权。在前面帧中的低频的分量比具有较高频率的分量进行更大的加权。

可以推荐在进行时间掩蔽之前通过由值α＜1(例如α＝0.3)进行求幂来执行频谱分量的压缩。这是因为如果多个频率在相同的时间发生在一个频带中，一个过度反应产生在听觉***中，即整个的音量大于各个频率的总和的音量地被感觉到。作为最后的结果，这表示压缩分量。

另外一个用于得到在根据本发明的方法的评估结果和主观的人类感觉之间的良好相关的措施存在于由一个不同步的“弄脏函数(smearingfunction)”对一个帧的频谱进行卷积。这种数学运算可以应用到源信号以及接收信号并且是在相似性被确定之前。

该弄脏函数在频率/响度图形中优选是一个三角函数，它的左边缘陡于右边缘。

在卷积之前，该频谱另外可以通过由值ε＞1(例如ε＝4/3)的求幂进行扩展。人类耳朵的响度函数的特征以此被模拟。

下面的详细说明和整套的权利要求给出了另外有利的实施例和本发明的特征的组合。

附图说明

下面的附图用于解释示出的实施例：

图1是用于解释处理原则的轮廓方框图；

图2用于进行质量评估的方法的各个步骤的方框图；

图3示出了加重平均窗口的例子；

图4示出了用于计算频率/音调转换的加权函数的表达；

图5示出了电话滤波器的频率响应的表达；

图6示出了用于二维音域(Ln是音量而N是响度)的相等音量曲线的表达；

图7示出了时间掩蔽的示意性表达；

图8示出了作为1kHz音调的声音程度(phon)的函数的响度函数(宋)的表达；

图9示出了弄脏函数的表达；

图10示出了以在源信号中的语音比例的函数形式的语音系数的图形的表达；

图11示出了在间歇阶段中的语音能量的函数形式的在间歇阶段中的质量的图形表达；

图12示出了以能量比例函数形式的增益恒量的图形表达；

图13示出了用于实现作为频率分量的函数的时间掩蔽的加权系数的图形表达。

原则上，在附图中相同的部分给出相同的参考符号。

具体实施方式

下面参考附图详细解释具体的所示出的实施例。

图1示出了处理的原则。一个语音样板被作为源信号x(i)。其被语音编码器1处理或者传输并且被转换为接收信号y(i)(编码的语音信号)。所述的信号是数字的形式。采样的频率例如是8kHz并且数字量化16位。该数据格式优选是PCM(没有压缩)。

源和接收信号分开从属于预处理2和心理声音模型3。随后是距离计算4，其评估了信号的相似性。最后，进行MOS计算5以得到可以与人类评估相比较的结果。

图2解释了下面描述的步骤。源信号和接收信号进行了相同的处理途径。为了简化的目的，该过程只进行一次。清楚的是两个信号被分开地处理直到距离测量被确定。

源信号是基于一个句子，其被以如此的方式选择，它的声音频率统计近可能地相应于发出的语音。为了阻止上下文的倾听，使用没有意义的音节，其作为试验字表进行参考。该语音样板应该具有一个语音程度，其近可能是恒定的。该语音样板的长度位于3和8秒之间(典型地为5秒)。

信号的预处理：在第一步中，源信号进入到矢量x(i)并且接收信号进入到矢量y(i)。这两个信号需要按照时间和程度进行同步。该直流分量通过从每一个样板值减去平均值进行去除：

x (i) = x (i) - \frac{1}{N} Σ_{k = 1}^{N} x (k)

y (i) = y (i) - \frac{1}{N} Σ_{k = 1}^{N} yk - - - (1)

该信号另外规格化到共同的RMS(根均方)程度，因为在信号中的恒定增益没有考虑：

x (i) = x (i) \cdot \frac{1}{\sqrt{\frac{1}{N} Σ_{k = 1}^{N} {x (k)}^{2}}}

y (i) = y (i) \cdot \frac{1}{\sqrt{\frac{1}{N} Σ_{k = 1}^{N} {y (k)}^{2}}} - - - (2)

下面的步骤是用于形成帧：两个信号被分成32ms长度的部分(在8kHz的256样板值)。这些帧在所有后面的处理步骤中是处理单元。该帧优选是50％(128样板值)是重叠的。

随后是汉明窗6(参考图2)。在第一个处理步骤中，该帧是从属于时间加权。所谓的汉明窗(图3)被产生，以此一个帧的信号值被相乘。

hamm (k) = 0.54 - 0.46 \cdot \cos (\frac{2 π (k - 1)}{255}), 1 \leq k \leq 255 - - - (3)

此窗口的目的是通过将暂时的无限的信号与窗口函数相乘来将暂时的无限的信号转换成暂时的受限制的信号，该窗口函数(等于零)在一个特殊的范围之外消失。

x(i)＝x(i)*hamm(i)，y(i)＝y(i)*hamm(i)，1≤i≤255(4)

通过离散的傅立叶变换(图2：DFT 7)将时域中的源信号x(t)转换到频域中。为了暂时的已经由窗口建立的具有i＝0，1，2，……N-1，离散的值序列x(i)，当周期为N时用于源信号x(i)的复数的傅立叶变换C(j)如下所示：

c_{x} (j) = Σ_{n = 0}^{N - 1} x (i) \cdot \exp (- j \cdot \frac{2 π}{N} \cdot n \cdot j) 0 \leq j \leq N - 1 - - - (5)

同样的操作也用于编码的信号，或者接收信号y(i)：

c_{y} (j) = Σ_{n = 0}^{N - 1} y (i) \cdot \exp (- j \cdot \frac{2 π}{N} \cdot n \cdot j) 0 \leq j \leq N - 1 - - - (6)

在下面的步骤中，频谱的幅值被计算(图2：采样幅值8)。指数x一直表示源信号并且y表示接收信号：

{Px}_{j} = \sqrt{c_{x} (j) \cdot conjg (c_{x} (j))},

{Py}_{j} = \sqrt{c_{y} (j) \cdot conjg (c_{y} (j))} - - - (7)

然后进行到临界频带的分割(图2：bark变换9)。

在此情况下，使用了E.Zwicker，心理声音，1982年的匹配模型。在人类耳朵中的基部隔膜将频谱分成临界的频组。这些频组在响度的感觉中起到重要的作用。在低频时，频组具有恒定的带宽100Hz，并且在高于500Hz的频率中，其与频率成比例地上升(大约等于各个中间频率的20％)。这大约相应于人类听力的性能，也在频带中处理信号，尽管这些频带是可变的，也就是说，他们的中间频率通过各自的声音情况来表示。

下面的表示出了在音调z、频率f、频组宽度ΔF和FFT指数之间的关系。该FFT指数相应于FFT结果，256。只有100-4000Hz的带宽对下面的计算有兴趣。

Z[Bark]	F(low)[Hz]	ΔF[Hz]	FFT Index
Z[Bark]	F(low)[Hz]	ΔF[Hz]	FFT Index	0	0	100
1	100	100	3	0	0	100
1	100	100	3	2	200	100	6
3	300	100	9	2	200	100	6
3	300	100	9	4	400	100	13
5	510	110	16	4	400	100	13
5	510	110	16	6	630	120	20
7	770	140	25	6	630	120	20
7	770	140	25	8	920	150	29
9	1080	160	35	8	920	150	29
9	1080	160	35	10	1270	190	41
11	1480	210	47	10	1270	190	41
11	1480	210	47	12	1720	240	55
13	2000	280	65	12	1720	240	55
13	2000	280	65	14	2320	320	74
15	2700	380	86	14	2320	320	74
15	2700	380	86	16	3150	450	101
17	3700	550	118	16	3150	450	101
17	3700	550	118	18	4400	700
19	5300	900		18	4400	700
19	5300	900		20	6400	1100
21	7700	1300		20	6400	1100
21	7700	1300		22	9500	1800
23	12000	2500		22	9500	1800
23	12000	2500		24	15500	3500

在此使用的窗口表示一个简化。所有的频组具有1Bark的宽度ΔZ(z)。在Bark中的音调的标度z根据下面的公式进行计算：

Z = 13 \cdot \arctan (0.76 \cdot f) + 3.5 \cdot \arctan [{(\frac{f}{7.5})}^{2}], - - - (8)

其中f的单位是[kHz]并且z的单位是[Bark]。

一个Bark中的音调的差别大约相应于在基部隔膜(150个发细胞)上的1.3毫米的部分。实际上的频率/音调转换能够简单地根据下面的公式进行：

{Px}_{i}^{'} [j] = \frac{1}{{Δf}_{j}} * Σ_{I_{f} [j]}^{I_{l} [j]} q (f) * {Px}_{i} [k],

{Py}_{i}^{'} [j] = \frac{1}{{Δf}_{j}} * Σ_{I_{f} [j]}^{I_{l} [j]} q (f) * {Py}_{i} [k] - - - (9)

l_f[j]是用于频带j的Hz标度上的第一个样板的指数，而1_l[j]是最后的样板的指数。Δf_j表示在Hz中的频带j的带宽。q(f)是加权函数(图5)。因为离散的傅立叶变换只给出了在离散点(频率)上的频谱值。该频带限制分别依赖于此频率。在频带限制上的值在每一个相邻的窗口中只给出了半个加权。该频带限制是位于N*8000/256Hz。

N＝3，6，9，13，16，20，25，29，35，41，47，55，65，74，86，101，118

对于0.3-3.4kHz的电话带宽，在音调标度上使用了17个值，其然后相应于该输入。从所得到的128个FFT值中，相应于频率范围0Hz到94Hz的第一个2和相应于频率范围3700Hz到4000Hz的最后的10被省略。

两个信号然后由一个滤波器滤波，它的频率响应相应于相应电话设备的接收曲线(图2电话频带滤波10)：

Pfx₁[j]＝Filt[j]·Px_i′[j]，Pfy_i[j]＝Filt[j]·Py_i″[j] (10)

其中Filt[j]是在电话设备的频带特性的频带j中的频率相应(根据ITU-T建议附件D/P.830定义)。

图5以图形表示了此滤波器的(对数)值。

昉曲线也可以优选地被计算(图2：昉曲线计算11)。如下所示：

任何声音的音量被定义为1kHz音调的水平，通过在平波的测试各例上的前入射，使相同的音量感觉作为声音被测量(参考E.Zwicker，心理声音，1982年)。用于不同频率的相同音量的曲线以此被参考。这些曲线被表示在图6中。

在图6中看到，例如在3昉音量的100Hz音调具有25dB的声音水平。然而，对于40昉的音量，相同的音调具有50dB的声音水平。也能够看到，例如对于100Hz的音调，该声音水平一定高于对于4kHz音调的30dB，以使二者能够在耳朵里产生相同的响度。通过将信号Px与Py由附加的函数进行相乘可以得到在按照本发明的模块里的近似。

当多个频谱分量在一个频带中在相同的时间产生时，人耳会有过度的反应，也就是说，被感觉到的整个的音量大于各个音量的线性之和。各个的频谱分量被压缩。压缩的特定响度具有单位的1宋。为了进行昉/宋的变换(参考图2)，在此情况下，在Bark中的输入通过指数α＝0.3进行压缩：

Px_i′[j]＝(Pfx_i′[j])^α，Py_i′[j]＝(Pfy_i′[j])^α (11)

优选所示的实施例的一个重要的方面是时间掩蔽的模型化。

人类的耳朵不能够分辨非常连续到达的两个短的测试声音。图7示出了依赖于时间的处理。200ms周期的掩蔽掩藏了短的音调脉冲。该掩蔽开始的时间被标记为零。左侧的时间为负的。在掩蔽结束的地方开始第二个时间标度。示出了三个时间范围。预掩蔽也发生在掩蔽开始之前。直接在这之后是同时的掩蔽，并且在掩蔽结束之后是后-掩蔽阶段。对于后掩蔽(回响)给出了逻辑的解释。预掩蔽甚至发生在掩蔽开始之前。听觉的感觉不是直接产生的。需要处理时间以产生感觉。高的声音被给予快的处理，并且在听力的阈值上的弱声音需要长的处理时间。预掩蔽持续大约20ms并且后掩蔽为100ms。因此后掩蔽起到主要的影响。后掩蔽依赖于掩蔽的周期以及掩藏声音的频谱。

通过在信号处理中的帧的重叠可以得到时间掩蔽的粗略的近似。对于32ms的帧长度(256的取样值和8kHz的取样频率)而言，重叠的时间是16ms(50％)。这对于中间和高的频率是足够的。对于低频此掩蔽以是非常长的(＞100ms)。这也可以作为前面的帧的削弱的频谱的附加进行实现(图2：时间掩蔽15)。此削弱在此情况下在每一个频带中是不同的：

{Px}_{i}^{''} [j] = \frac{({Px}_{i}^{'} [j] + {Px}_{i - 1}^{'} [j] * coeff (j))}{1 + coeff (j)},

{Py}_{i}^{''} [j] = \frac{({Py}_{i}^{'} [j] + {Py}_{i - 1}^{'} [j] * coeff (j))}{1 + coeff (j)} - - - (12)

其中coeff(j)是加权系数，其根据下面的公式进行计算：

coeff (j) = \exp (- \frac{FrameLength}{\frac{(2 \cdot Fc)}{((2 \cdot NoOfBarks + 1) - 2 \cdot (j - 1)) \cdot η}})

j = 1,2,3, . . ., NoOfBarks - - - (13)

其中FrameLength是在样板值例如256中的帧的长度，NoOfBarks是在一个帧(在此例如是17)中的Bark值的数量。Fc是取样频率并且η＝0.001。

通过在图13中的例子表示了用于实现作为频率分量的函数的时间掩蔽的加权系数。能够清楚地看到加权系数随着Bark的指数(即上升的频率)的上升而下降。

时间掩蔽在此只以后掩蔽的形式提供。预掩蔽在此描述中是被忽略的。

在另外的处理阶段中，信号的频谱是“涂上”的(图2中的频率涂污13)。对此的背景是人类的耳朵不能够清楚地分辨相邻的两个频率分量。频率涂上的程度依赖于有问题的频率，他们的幅值和其他的系数。

耳朵的感觉变化是响度。它表示了一个被测量的声音高于或者低于一个标准的声音多少。以此方式发现的感觉变化作为比例响度表示。1kHz音调的声音水平已经被证明作为标准声音是有利的。1宋响度被设计为具有40dB水平的1kHz的音调。在E.Zwicker，心理声音，1982年中，下面描述了响度函数的定义：

Lautheit = 2^{\frac{L_{1 kHz} - 40}{10}} [dB]

图8示出了作为声音水平(昉)的函数的用于1kHz的响度函数(宋)。

在此实施例的范围中，此响度函数大约如下所示：

Px_i[j]＝(Px_i″[j])^ε，Py_i[j]＝(Py_i″[j])^ε (14)

其中ε＝4/3。

频谱在此点上扩展(图2：响度函数转换14)。

现在存在的频谱通过离散序列的系数进行卷积(卷积)。此结果相应于在频率轴上的频谱的涂污。两个频率x和y的卷积相应于在时间范围内的序列的相对复杂的卷积或者傅立叶变换的相乘。在时域内，公式为：

c = conv (x, y), c (k) = Σ_{j = 0}^{n - 1} x (j) \cdot y (k + 1 - j), - - - (15)

m是序列x的长度，n是序列y的长度。结果c具有的长度为k＝m+n-1，j＝max(1，k+1-n)：min(k，m)。

在频域内：

conv(x，y)＝FFT^-1(FFT(x)*FFT(y)). (16)

在此实施例中x通过具有长度17(m＝17)的信号P_x ^m和P_y ^m替换，并且y是由具有长度9(n＝9)的涂污(smearing)函数Λ替换。以此，结果具有的长度为17+9-1＝25(k＝25)。Ex_i＝conv(Px_i，Λ(f))，Ey_i＝conv(Py_i，Λ(f)) (17)

Λ( )是如图9所示的涂污函数，它是不对称的。它的左边沿从在频率分量1处的-30响度开始上升到在频率分量4处的响度0。然后在频率分量9处以直线下降到响度-30。因此，涂污函数是不对称的三角函数。

心理声音模型3(参考图1)以此被包含。质量计算如下。

在源信号和接收信号的加权频谱之间的距离如下计算：Q_TOT＝η_sp·Q_sp+η_pa·Q_pa，η_sp+η_pa＝1 (18)

其中Q_sp是在语音相位(有效信号相位)之间的距离并且Qpa是在间歇相位(无效信号相位)之间的距离。η_sp是语音系数并且η_pa是间歇系数。

首先通过找到语音有效处的信号序列进行源信号的信号分析。以此形成所谓的能量轮廓：

SPEECH_THR被用于定义阈值，低于它则语音是无效的。它通常存在于+10dB到AD转换器的最大的动态响应。在16位解的情况下，SPEECH_THR＝-96.3+10＝-86.3dB，在PACE中，SPEECH_THR＝-80dB。

质量直接与源信号和接收信号之间的相似性Q_TOT成比例。Q_TOT＝1表示源信号和接收信号正好是相同的。对Q_TOT＝0，这两个信号几乎没有相似性。语音系数η_sp根据下面的公式被计算：

η_{sp} = - μ \cdot {(\frac{μ - 1}{μ})}^{P_{sp}} + μ, 0 \leq P_{sp} \leq 1 - - - (19)

其中μ＝1.01并且Psp是语音比例。

如图10所示，如果语音比例较大，则语音序列的影响较大(语音系数较大)。例如，在μ＝1.01和Psp＝0.5(50％)处，系数η_sp＝0.91。在此信号中语音序列的影响是91％并且间歇序列的是9％(100-91)。在μ＝1.07处，语音序列的影响是较小的(80％)。

间歇系数如下被计算：

η_pa＝1-η_sp (20)

在间歇阶段的质量以如在语音阶段中的质量相同的方式没有被计算。

Q_pa是描述了在间歇阶段中的信号能量的函数。当此能量上升时，值Q_pa变为较小的(其相应于在质量中的变坏)：

Q_{pa} = - k_{n} \cdot {(\frac{k_{n} + 1}{k_{n}})}^{\frac{\log 10 (E_{ps})}{\log 10 (E_{\max})}} + k_{n} + 1 + m - - - (21)

k_n是预定的衡量并且在此具有值0.01。E_pa是用于接收信号的间歇阶段中的RMS信号能量。只有当此能量大于在源信号中的间歇阶段的RMS信号能量时，它才会对Q_pa值有影响。以此，E_pa＝max(Eref_pa，E_pa)。最小的E_pa是2。E_max是用于给出的数字解的最大的RMS信号能量(对于16位的解，E_max＝32768)。在公式(21)中的值m是用于E_pa＝2的修正系数，以致于Q_pa＝1。此修正系数如下计算：

m = k_{n} \cdot {(\frac{k_{n} + 1}{k_{n}})}^{\frac{\log 10 (E_{\min})}{\log 10 (E_{nax})}} - k_{n} - - - (22)

对于E_amx＝32768，E_min＝2和kn＝0.01，值m＝0.003602。要素kn*(kn+1/kn)能够基本上考虑作为合适选择的衡量A。

图11表示了在间歇阶段中的信号的RMS能量和Qpa之间的关系。

语音相位的质量通过在源信号和接收信号的频谱之间的“距离”进行确定。

首先确定四个程度的窗口。窗口No.1从-96.3dB延伸到-70dB，窗口No.2从-70dB延伸到-46dB，窗口No.3从-46dB延伸到-26dB，窗口No.4从-26B延伸到0dB。在程度位于第一窗口中的信号作为间歇被中断并且没有包含在计算Q_sp中。到四个程度窗口的子分配提供了多个解。相似的过程发生在人类耳朵中。也能够控制干扰在作为能量的函数的信号中的影响。相应于最高能量的窗口4被给予最大的加权。在源信号的频谱和接收信号的频谱之间的距离在用于语音帧k和程度窗口Q_sp(i，k)的语音阶段中以如下的方式进行计算：

Q_{sp} (i, k) = \frac{G_{(i, k)} \cdot n \cdot Σ_{j = 1}^{n} (Ex {(k)}_{j} - \overset{&OverBar;}{Ex (k)}) \cdot ({Ey (k)}_{j} - \overset{&OverBar;}{Ey (k)})}{\sqrt{n \cdot Σ_{j = 1}^{n} {Ex (k)}_{j}^{2} - {(Σ_{j = 1}^{n} {Ex (k)}_{j})}^{2}} \cdot \sqrt{n \cdot Σ_{j = 1}^{n} {Ey (k)}_{j}^{2} - {(Σ_{j = 1}^{n} {Ey (k)}_{j})}^{2}}}, - - - (23)

其中在帧k中Ex(k)是源信号的频谱并且Ey(k)是接收信号的频谱。n表示一个帧的频谱的解。n相应于在一个时帧(例如17)中的Bark值的数量。在帧k中的平均频谱被标记为E(k)。Gi，k是帧和窗口关系的增益衡量，它的值是依赖于能量比例Py/Px。

G_i，k值的以能量比例的函数形式的图形表示示出在图12中。

当此增益等于1(在接收信号中的能量等于在源信号中的能量)时，G_i，k＝1。

当在接收信号中的能量等于在源信号中的能量时，G_i，k是等于1。这在Qsp上没有影响。所有的值都导致较小的G_i，k或者Qsp，这相应于从源信号的较大的距离(接收信号的质量较低)。当接收信号的能量大于源信号的能量：log10(Py/Px)＞1时，增益衡量根据下面的等式计算：

G = 1 - ϵ_{HI} \cdot {(\log 10 (\frac{Py}{Px}))}^{0.7} .

当此能量比例(Py/Px)＜1时，那么：

G = 1 - ϵ_{LO} \cdot {(\log 10 (\frac{Py}{Px}))}^{0.7} .

用于各个程度窗口的ε_HI和ε_LO的值能够在下表中找到。

-Nr.i	ε_HI	ε_LO	θ	γ_SD
-Nr.i	ε_HI	ε_LO	θ	γ_SD	2	0.05	0.025	0.15	0.1
3	0.07	0.035	0.25	0.3	2	0.05	0.025	0.15	0.1
3	0.07	0.035	0.25	0.3	4	0.09	0.045	0.6	0.6

所述的增益衡量在接收信号中引起额外的内容以将该距离升高到比丢失的内容大的程度。

从公式(23)能够看到分子相应于协方差函数并且分母相应于两个标准背离的乘积。因此，对于第k个帧和程度窗口，距离等于：

Q_{sp} (i, k) = G_{(i, k)} \cdot \frac{{Cov}_{k} (Px, Py)}{σ_{x} (k) \cdot σ_{y} (k)} - - - (24)

从上表可以看到的用于每一个程度窗口的值θ和γ_SD是需要的，以用于将各个值Q_sp(i，k)转换成单一的距离Q_sp。

作为信号的内容的函数，三个Q_sp(i)矢量被得到，他们的长度可以是不同的。在第一个近似中，用于各个程度窗口i的平均值如下计算：

Q_{i} = \frac{1}{N} Σ_{j = 0}^{N} Q_{sp} {(i)}_{j}, - - - (25)

N是矢量Q_sp(i)的长度或者用于各个语音窗口i的语音帧的数量。Q_sp(i)的标准的背离SDi如下计算：

{SD}_{i} = \sqrt{\frac{Σ Q_{sp} (i) - {(Σ Q_{sp} (i))}^{2}}{N}}, - - - (26)

SD表示了在编码信号中的干扰的贡献。等于脉冲串一样的噪音，例如脉冲噪音，SD值是相对大的，而等于一致分布的噪音，它是小的。人类的耳朵也可以更强烈地感觉到脉冲串一样的干扰。一个典型的情况是通过模拟的语音传输网络例如AMPS形成。

信号如何分布的影响以此通过如下的方式实现：

Ksd(i)＝1+SD_i·γ_SD(i)， (27)

具有下列的定义

Ksd(i)＝1，Ksd(i)＞1

Ksd(i)＝0，für Ksd(i)＜0.并且最后

Qsd_i＝Ksd(i)*Q_i， (28)

语音相位的质量，Q_sp根据下式作为各个窗口质量的加权的组合被计算：

Q_{sp} = Σ_{i = 2}^{4} U_{i} \cdot {Qsd}_{i}, - - - (29)

加权系数U_i使用下式被确定

U_i＝η_sp·p_i， (30)

η_sp是根据公式19的语音系数并且P_i相应于窗口i信号的加权的属于程度并且被使用下式计算

p_{i} = \frac{Q_{i}}{Σ_{l = 2}^{4} O_{l}}

O_{r} = \frac{N_{i}}{N_{sp}} \cdot θ_{i} \cdot

N_i是在窗口i中的语音帧的数量，N_sp是整个语音帧的数量并且所有的θ的总和一直等于1：

Σ_{i = 2}^{4} θ_{i} = 1 .

即：Ni/NSP或者θi越大，在各个语音帧中的干扰越多。

当然，对于独立于信号水平的增益衡量，值ε_HI、ε_LO、θ和γ_SD对于每一个窗口也能够选择为相等。

图2示出了由距离测量计算16得到的相应的处理步骤。质量计算17建立了值Qtot(公式18)。

最后到MOS计算5。这种转换是需要的以能够在正确的质量标度上表示Qtot。具有MOS单元的质量标度定义在ITU T P.800“用于传输质量的客观确定的方法”，08/96。进行统计的足够数量的测量。所有的测量值在图中作为各个点表示。一个趋势曲线然后以通过所有的点的二级多项式的形式画出。

MOS_o＝a·(MOS_PACE)²+b·MOS_PACE+c (31)

这个MOSo值(MOS客观的)现在相应于预定的MOS值。在最好的情况下，两个值是相等的。

描述的方法能够通过示出的硬件和/或软件实现。这些公式能够没有困难地编程。源信号的处理优先进行，并且只有预处理的结果和心理声音被存储。接收信号能够例如在线处理。为了能够在信号频谱上进行距离计算，能够求助于源信号的相应存储的值。

根据本发明的方法能够在条件变化的情况下通过各种语音样板进行测试。样板的长度在4和16秒之间变化。

下面的语音传输是在实际的网络中进行的测试：

● 一般的ISDN连接。

● GSM-FR<->GSM-FR单独

● 通过具有ADPCM(G.726)或者LD-CELP(G.728)编解码器的DCME的各种传输

所有的连接都运行在不同的语音水平。

该模拟含有：

● 具有各种位错误率的CDMA编解码器(IS-95)

● 具有接通的回声取消器的TDMA编解码器(IS-54和IS-641)

● 另外的背景噪音和各种频率响应

每一个测试含有一系列评估的语音样板和相关的听觉判断(MOS)。在根据本发明的方法和听觉值之间所得到的修正是非常高的。

总而言之，可以宣布

● 时间掩蔽的模型化

● 频率掩蔽的模型化

● 用于距离计算的所述的模型

● 在间歇阶段的距离的模型化

● 能量比例在质量上的影响的模型化提供了非常好地与客观感觉相关的通用的评估***。

Claims

1.用于对音频信号，尤其是语音信号的传输质量进行机器辅助评估的方法，在频域内确定要传输的源信号的频谱和被传输的接收信号的频谱，其特征在于，为了评估传输质量，一个频谱的相似值通过两个频谱的标准背离的乘积由源信号和接收信号的频谱的协方差的相除进行确定。

2.根据权利要求1的方法，其特征在于，该频谱相似值通过一个增益系数进行加权，该系数作为接收信号和源信号的能量之间的比例的函数，在接收信号的能量大于源信号的能量的情况下比在接收信号的能量小于源信号的能量的情况下，较大程度地降低了相似值。

3.根据权利要求2的方法，其特征在于，当接收信号的能量较高时，该增益系数较大程度地降低了作为接收信号的能量的函数的相似值。

4.根据权利要求1至3的其中之一的方法，其特征在于，不活动的阶段是从源信号和接收信号中得到，并且频谱相似值只对于剩余的活动阶段进行确定。

5.根据权利要求4的方法，其特征在于，对于不活动的阶段，一个质量值被确定，其根据在不活动阶段的能量Epa的变化具有如下的特征：

A^{\frac{\log 10 (Epa)}{\log 10 (E \max)}}

其中，A表示合适选择的常数，Emax表示不活动的阶段能量最大可能性。

6.根据权利要求5的方法，其特征在于，传输质量是由活动阶段的相似值和不活动阶段的质量值的加权的线性组合进行计算。

7.根据权利要求1的方法，其特征在于，在变换到频域之前，源信号和接收信号分别被以如下的方式分为时帧，连续的帧重叠到直到50％的程度。

8.根据权利要求7的方法，其特征在于，为了进行一个帧的频谱的时间掩蔽，前一个帧的削弱的频谱被加入其中。

9.根据权利要求8的方法，其特征在于，在进行时间掩蔽之前，频谱的分量通过一个具有小于1的值的取幂进行压缩。

10.根据权利要求1的方法，其特征在于，源信号和接收信号的频谱在确定相似值之前通过频率不同步的涂污函数分别进行卷积。

11.根据权利要求10的方法，其特征在于，频谱的分量在卷积之前通过具有大于1的值的求幂进行扩展。