CN106531189A

CN106531189A - 一种智能口语测评方法

Info

Publication number: CN106531189A
Application number: CN201611181451.5A
Authority: CN
Inventors: 潘奕君
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2017-03-22

Abstract

本发明提供一种智能口语测评方法，使用计算机的录音设备获取用户的口语语音数据信息，提取用户语音数据中的用户语音特征；将用户语音特征与标准语音特征进行对齐，并将用户语音特征中的母音，辅音分别对应与标准语音特征的母音，辅音进行对比，形成对比数据信息；将对比数据信息进行评分；将对比数据信息及评分结果储存至数据库中。使用户能够获悉到自己的口语与标准的口语有哪些词语发音不准确。这样给学习者带来了学习语言的便捷性，提高外语学习的效率，增加用户学习兴趣。

Description

一种智能口语测评方法

技术领域

本发明涉及语言沟通领域，尤其涉及一种智能口语测评方法。

背景技术

随着全球经济一体化的发展，英语作为国际通用语言，越来越显示出其重要的作用。商务往来、文化交流、跨国旅游等活动日益频繁，越来越多的人需要学习一门外语，这样口语交际能力的提高已经成为了外语学习的迫切需求。如何提高外语的学习效果，更好地满足用户对外语学习的需求，已经成为目前亟待解决的问题。

发明内容

为了克服上述现有技术中的不足，本发明的目的在于，提供一种智能口语测评方法，方法包括：

S1：使用计算机的录音设备获取用户的口语语音数据信息，提取用户语音数据中的用户语音特征；

S2：将用户语音特征与标准语音特征进行对齐，并将用户语音特征中的母音，辅音分别对应与标准语音特征的母音，辅音进行对比，形成对比数据信息；

S3：将对比数据信息进行评分；

S4：将对比数据信息及评分结果储存至数据库中。

优选地，步骤S1之前还包括：设置标准朗读文本，获取标准朗读文本的标准语音特征；

将标准语音特征按时间进行分段，分为n段，以20ms为一时间分段；

将每一时间段标准语音特征分为静态特征及动态特征；

将每一时间段标准语音特征的频谱能量进行分解，分解出每一时间段标准语音特征的母音节的频谱能量分布以及辅音节的频谱能量分布；

设置每一时间段内标准语音特征的母音节MFCC特征向量，辅音节MFCC特征向量；

将每一时间段内标准语音特征的母音节MFCC特征向量，辅音节MFCC特征向量储存至数据库中。

优选地，步骤S1还包括：

S11将用户语音数据按时间进行分段，分为n段，以20ms为一时间分段，对每一时间段用户语音数据加矩形窗，或汉明窗处理得到分段语音信号X_n，n为分段数；

S12对分段语音信号X_n进行短时傅里叶变换，变换为频域信号，将短时时域信号转化为频域信号Y_n，并通过Q_n＝│Y_n│²计算其短时能量谱Q_n；

S13采用先进先出的方式将短时能量谱Q_n从矢量空间S移动至带通滤波器进行滤波；由于每一个频带中分量的作用在人耳中是叠加的，因此将每个滤波器频带内的能量进行叠加，这时第k个滤波器输出功率谱x'(k)；

S14将每个滤波器的输出取对数，得到相应频带的对数功率谱；并进行反离散余弦变换，得到M个MFCC系数，一般M取13～15个；MFCC系数为：

S15将得到的每一时间段的用户语音MFCC特征作为静态特征，再将所述静态特征做一阶和二阶差分，得到相应的动态特征。

优选地，步骤S1还包括：

获取每一语音段频率范围的频谱能量(f_k)，该语音段内的频率上限值k₁,下限值k₂，获取语音段内的频谱能量比值PN_n；

优选地，步骤S1还包括：

若语音段内频谱能量(f_k)≥第一阈值，该语音段内频谱能量比值PN_n≥第二阈值，则判断此语音段为母音节；第一阈值0.1-0.5，第二阈值取60％-85％；

以具有母音节的频谱能量为基准，判断具有母音节的频谱能量之前的频谱能量的过零率是否大于第三阈值，若大于第三阈值，则断定该频谱能量为母音前的辅音节，第三阈值取100；

以具有母音节的频谱能量为基准，判断具有母音节的频谱能量之后的频谱能量的过零率是否大于第三阈值，若大于第三阈值，则判断该频谱能量为母音后的辅音；

若具有母音节的频谱能量之后的频谱能量的过零率大于第三阈值，且该频谱能量为语音段的最后一帧，则判断为鼻尾辅音。

优选地，步骤S2还包括：

设置每一时间段内用户语音特征的母音节MFCC特征向量，辅音节MFCC特征向量；

使用DTW算法，得到一条误差最小的对齐路径以，得到一条误差最小的对齐路径和对应的DTW距离；

基于该对齐路径和对应的DTW距离，将相同时间段内用户语音特征的母音节MFCC特征向量与标准语音特征的母音节MFCC特征向量进行语音比较以及将相同时间段内用户语音特征的辅音节MFCC特征向量与标准语音特征的辅音节MFCC特征向量进行语音比较，得出用户语音特征与标准语音特征之间的发音差别。

优选地，步骤S2还包括：

设置每一时间段内标准语音特征的母音节标准语音特征向量为P₁＝[p₁(1),p₁(2),…,p₁(R)]，一阶差分向量为P_Δ1＝[p_Δ1(1),p_Δ1(2),…,p_Δ1(R)](R为标准语音特征的母音节语音长度)，P_Δ1(n)＝|p₁(n)-p₁(n-1)|,n＝1,2,…,R,p₁(0)＝0；

设置每一时间段内标准语音特征的辅音节标准语音特征向量为P’₁＝[p’₁(1)，p’₁(2)，…，p’₁(R)]，一阶差分向量为P’_Δ1＝[p’_Δ1(1)，p’_Δ1(2)，…，p’_Δ1(R)](R为标准语音特征的语音长度)，P’_Δ1(n)＝|p’₁(n)-p’₁(n-1)|，n＝1，2，…，R，p’₁(0)＝0；

优选地，步骤S2还包括：

设置每一时间段内用户语音特征的母音节特征向量为P₂＝[p₂(1),p₂(2),…,p₂(T)]，其一阶差分向量为P_Δ2＝[p_Δ2(1),p_Δ2(2),…,p_Δ2(T)](T为待评价语音的长度)，P_Δ2(n)＝|p₂(n)-p₂(n-1)|,n＝1,2,…,T,p₂(0)＝0；

设置每一时间段内用户语音特征的辅音节特征向量为P’₂＝[p’₂(1)，p’₂(2)，…，p’₂(T)]，其一阶差分向量为P’_Δ2＝[p’_Δ2(1)，p’_Δ2(2)，…，p’_Δ2(T)](T为待评价语音的长度)，

P’_Δ2(n)＝|p’₂(n)-p’₂(n-1)|，n＝1，2，…，T，p’₂(0)＝0；

使用DTW算法，得到一条误差最小的对齐路径以，得到一条误差最小的对齐路径，进行每一时间段内的母音节和辅音节比较；

比较得出母音节的差距d_p，以及变化量的差距Δd_p，比较得出辅音节的差距d’_p，以及变化量的差距Δd’_p，来获得用户语音特征与标准语音特征的相似度，即：

d_p＝|p₁(n)-p₂(m)|

d’_p＝|p’₁(n)-p’₂(m)|

Δd_p＝|Δp₁(n)-Δp₂(m)|

Δd’_p＝|Δp’₁(n)-Δp’₂(m)|

其中，Δp_i(n)＝|p_i(n)-p_i(n-1)|

Δp’_i(n)＝|p’_i(n)-p’_i(n-1)|。

优选地，步骤S3还包括：评分s为：

s＝ω1(ω11s11+ω12s12+……+ω1js1j)+ω2(ω21s21+ω22s22+……+ω2js2j)+……+ωn(ωn1sn1+ωn2sn2+……+ωnjsnj)

其中，ω1，ω2，ωn分别代表每一语音段的权重；

j代表每一语音段内母音节加辅音节的总数量；

ω11，ω12……ω1j分别代表第一个语音段内音节的权重；

s11，s12……+s1j，代表第一个语音段内的各个音节；

ω21，ω22……ω2j分别代表第二个语音段内音节的权重；

s21，s22……+s2j，代表第二个语音段内的各个音节；

ωn1，ωn2……ωnj分别代表第n个语音段内音节的权重；

sn1，sn2……+snj，代表第n个语音段内的各个音节。

从以上技术方案可以看出，本发明具有以下优点：

智能口语测评方法使得用户与计算机获取同样的一片文本，进行朗读对比，使用户能够获悉到自己的口语与标准的口语有哪些词语发音不准确，还需要在哪些词语进行改进及进一步学习。这样给学习者带来了学习语言的便捷性，提高外语学习的效率，增加用户学习兴趣。

附图说明

图1为智能口语测评方法的流程图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将运用具体的实施例及附图，对本发明保护的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本专利中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本专利保护的范围。

本发明提供一种智能口语测评方法，如图1所示，本方法采用一标准朗读文本，计算机先获取该标准朗读文本的内容，并获取标准朗读文本的标准读音。本发明所涉及的方法是基于计算机硬件配合相应的程序实现。这样用户与计算机获取同样的一片文本，进行朗读对比，使得用户能够获悉到自己的口语与标准的口语有哪些词语发音不准确，还需要在哪些词语进行改进及进一步学习。这样给学习者带来了学习语言的便捷性，提高外语学习的效率，增加用户学习兴趣。

方法包括：

S3：将对比数据信息进行评分；

S4：将对比数据信息及评分结果储存至数据库中。

步骤S1之前还包括：设置标准朗读文本，获取标准朗读文本的标准语音特征；

将每一时间段标准语音特征分为静态特征及动态特征；

步骤S1还包括：

本实施例中，步骤S1还包括：

步骤S1还包括：

以具有母音节的频谱能量为基准，判断具有母音节的频谱能量之前的频谱能量的过零率是否大于第三阈值，若大于第三阈值，则断定该频谱能量为母音前的辅音，第三阈值取100；

将用户的每一语音段进行分解得出母音节，辅音节以及在语音段的最后一帧是否有鼻尾辅音，鼻尾辅音即为鼻音。

在计算机预先设置了标准朗读文本中每一语音段的母音节，辅音节以及在语音段的最后一帧是否有鼻尾辅音，鼻尾辅音即为鼻音。将用户朗读的每一语音段的母音节，辅音节以及在语音段的最后一帧的鼻尾辅音，分别与标准语音特征进行比较。

本实施例中，步骤S2还包括：

步骤S2还包括：

d_p＝|p₁(n)-p₂(m)|

d’_p＝|p’₁(n)-p’₂(m)|

Δd_p＝|Δp₁(n)-Δp₂(m)|

Δd’_p＝|Δp’₁(n)-Δp’₂(m)|

其中，Δp_i(n)＝|p_i(n)-p_i(n-1)|

Δp’_i(n)＝|p’_i(n)-p’_i(n-1)|。

步骤S3还包括：评分s为：

其中，ω1，ω2，ωn分别代表每一语音段的权重；

j代表每一语音段内母音节加辅音节的总数量；

ω11，ω12……ω1j分别代表第一个语音段内音节的权重；

s11，s12……+s1j，代表第一个语音段内的各个音节；

在第一个语音段内如果第一个音节是辅音节则s11为辅音节，如果第一个音节是母音节则s11为母音节；如果第一个音节是辅音节则s12为辅音节，如果第一个音节是母音节则s12为母音节；每一个语音段以此类推。

ω21，ω22……ω2j分别代表第二个语音段内音节的权重；

s21，s22……+s2j，代表第二个语音段内的各个音节；

ωn1，ωn2……ωnj分别代表第n个语音段内音节的权重；

sn1，sn2……+snj，代表第n个语音段内的各个音节。

各个权重参数，是经由大量的实验得出，也可以由每一语音段的权重比例分配得知。也可以根据每一语音段对于文本的重要性设定。也可以由研发人员基于大量实验后得出最佳效果进行设定。

Claims

1.一种智能口语测评方法，其特征在于，方法包括：

S3：将对比数据信息进行评分；

S4：将对比数据信息及评分结果储存至数据库中。

2.根据权利要求1所述的智能口语测评方法，其特征在于，方法包括：

将每一时间段标准语音特征分为静态特征及动态特征；

3.根据权利要求1所述的智能口语测评方法，其特征在于，方法包括：

步骤S1还包括：

C_{n} = Σ_{k = 1}^{M} \log x (k) \cos ((2 k + 1) \frac{π}{M});

4.根据权利要求1所述的智能口语测评方法，其特征在于，方法包括：

步骤S1还包括：

{PN}_{n} = \frac{Σ_{k_{1}}^{k_{2}} h (f_{k})}{\underset{k}{Σ} h (f_{k})} \times 100 % .

5.根据权利要求4所述的智能口语测评方法，其特征在于，方法包括：

步骤S1还包括：

6.根据权利要求5所述的智能口语测评方法，其特征在于，方法包括：

步骤S2还包括：

7.根据权利要求5所述的智能口语测评方法，其特征在于，方法包括：

步骤S2还包括：

设置每一时间段内标准语音特征的辅音节标准语音特征向量为P’₁＝[p’₁(1)，p’₁(2)，…，p’₁(R)]，一阶差分向量为P’_Δ1＝[p’_Δ1(1)，p’_Δ1(2)，…，p’_Δ1(R)](R为标准语音特征的语音长度)，P’_Δ1(n)＝|p’₁(n)-p’₁(n-1₎|，n＝1，2，…，R，p’₁(0)＝0。

8.根据权利要求7所述的智能口语测评方法，其特征在于，方法包括：

步骤S2还包括：

设置每一时间段内用户语音特征的母音节特征向量为^P ₂＝[p₂(1),p₂(2),…,p₂(T)]，其一阶差分向量为P_Δ2＝[p_Δ2(1),p_Δ2(2),…,p_Δ2(T)](T为待评价语音的长度)，P_Δ2(n)＝|p₂(n)-p₂(n-1)|,n＝1,2,…,T,p₂(0)＝0；

d_p＝|p₁(n)-p₂(m)|

d’_p＝|p’₁(n)-p’₂(m)|

Δd_p＝|Δp₁(n)-Δp₂(m)

Δd’_p＝|Δp’₁(n)-Δp’₂(m)|

其中，Δp_i(n)＝|p_i(n)-p_i(n-1)|

Δp’_i(n)＝|p’_i(n)-_pp’_i(n-1)|。

9.根据权利要求1所述的智能口语测评方法，其特征在于，方法包括：

步骤S3还包括：评分s为：

其中，ω1，ω2，ωn分别代表每一语音段的权重；

j代表每一语音段内母音节加辅音节的总数量；

ω11，ω12……ω1j分别代表第一个语音段内音节的权重；

s11，s12……+s1j，代表第一个语音段内的各个音节；

ω21，ω22……ω2j分别代表第二个语音段内音节的权重；

s21，s22……+s2j，代表第二个语音段内的各个音节；

ωn1，ωn2……ωnj分别代表第n个语音段内音节的权重；

sn1，sn2……+snj，代表第n个语音段内的各个音节。