CN103559894A - 口语评测方法及*** - Google Patents

口语评测方法及*** Download PDF

Info

Publication number
CN103559894A
CN103559894A CN201310554431.8A CN201310554431A CN103559894A CN 103559894 A CN103559894 A CN 103559894A CN 201310554431 A CN201310554431 A CN 201310554431A CN 103559894 A CN103559894 A CN 103559894A
Authority
CN
China
Prior art keywords
voice
evaluation
feature
score
test feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310554431.8A
Other languages
English (en)
Other versions
CN103559894B (zh
Inventor
王士进
刘丹
魏思
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xunfei Yi Heard Network Technology Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201310554431.8A priority Critical patent/CN103559894B/zh
Publication of CN103559894A publication Critical patent/CN103559894A/zh
Application granted granted Critical
Publication of CN103559894B publication Critical patent/CN103559894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及语音信号处理技术领域,公开了一种口语评测方法及***,该方法包括:接收待评测的语音信号;利用至少两种不同的语音识别***分别获取所述语音信号中各基本语音单元对应的语音片断;对获取的语音片断进行融合,得到对应所述语音信号的有效语音片断序列;从所述有效语音片断序列中提取评测特征;根据所述评测特征进行评分。利用本发明,可以提高口语评测的准确性,减少异常评分。

Description

口语评测方法及***
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种口语评测方法及***。
背景技术
作为人际交流的重要媒介,口语语言在实际生活中占有极其重要的地位。随着社会经济的不断发展和全球化趋势的加剧,人们对语言学***评测方法使教师和学生在教学时间和空间上受到很大限制,在师资力量、教学场地、经费支出等方面也存在诸多硬件上的差距和不平衡;人工评测无法避免评估者自身的个体偏差,从而不能保证评分标准的统一,有时甚至无法准确反映被测者的真实水平;而对于大规模口语测试,则需要大量的人力、物力和财力支持,限制了经常性、规模性的评估测试。为此,业界相继开发出了一些语言教学和评测***。
在现有技术中,口语评测***通常采用单识别器对接收到的语音信号进行语音识别(如问答题)或者语音文本对齐(如朗读题),从而获取各基本语音单元对应的语音片断。随后***从各语音片断中分别提取描述各基本语音单元发音标准度或流畅度等衡量口语评测标准的特征,最后基于所述特征通过预测分析得到评测最终得分。
在安静的环境下使用高保真的录音设备时,语音识别***由于能提供较高的识别准确率因而后续口语评测也能提供较为客观准确的结果。然而在实际应用中特别是对于大规模口语考试,录音环境不可避免会受到考场噪声、环境噪声等因素的影响,语音识别准确率下降导致口语评测过程中会出现一定比例的异常评分语音。显然这种现象使得大规模口语考试中计算机自动评分很难真正实用,限制了口语评测***的应用范围和推广,对很多至关重要的考试无法应用,否则一旦出现异常评分就会造成评卷事故。
发明内容
本发明实施例提供一种口语评测方法及***,以提高口语评测的准确性,减少异常评分。
为此,本发明提供如下技术方案:
一种口语评测方法,包括:
接收待评测的语音信号;
利用至少两种不同的语音识别***分别获取所述语音信号中各基本语音单元对应的语音片断;
对获取的语音片断进行融合,得到对应所述语音信号的有效语音片断序列;
从所述有效语音片断序列中提取评测特征;
根据所述评测特征进行评分。
优选地,所述对获取的语音片断进行融合,得到对应所述语音信号的有效语音片断序列包括:
将不同语音识别***得到的语音片断对应的文本分别与预先构建的标准答案网络进行动态匹配,获取最优匹配结果;
根据所述最优匹配结果依次生成不同对应单元的集合,所述对应单元是指其对应的不同语音识别***得到的语音片断在时间上存在重叠性,并且能够正确匹配标准答案网络的识别结果单元;
确定所述集合中的最优单元;
依次拼接所述集合中的最优单元,得到对应所述语音信号的有效语音片断序列。
优选地,所述确定所述集合中的最优单元包括:
分别计算所述集合中各对应单元的语音片断的声学模型概率或发音后验概率;
选择具有最大声学模型概率或发音后验概率的对应单元作为所述集合中的最优单元。
优选地,所述评测特征对应一种特征类型,所述特征类型为以下任意一种:完整性特征、发音准确性特征、流利性特征、韵律特征;
所述根据所述评测特征进行评分包括:
加载与所述评测特征的特征类型相对应的评分预测模型;
计算所述评测特征相应于所述评分预测模型的相似度,并将所述相似度作为所述语音信号的得分。
优选地,所述评测特征包括对应不同特征类型的至少两组评测特征,所述特征类型为以下任意一种:完整性特征、发音准确性特征、流利性特征、韵律特征;
所述根据所述评测特征进行评分包括:
对于每组评测特征,加载与所述评测特征的特征类型相对应的评分预测模型;
计算所述评测特征相应于所述评分预测模型的相似度,并将所述相似度作为所述评测特征的得分;
根据每组评测特征的得分计算所述语音信号的得分。
一种口语评测***,包括:
接收模块,用于接收待评测的语音信号;
语音片断获取模块,用于利用至少两种不同的语音识别***分别获取所述语音信号中各基本语音单元对应的语音片断;
融合模块,用于对所述语音片断获取模块获取的语音片断进行融合,得到对应所述语音信号的有效语音片断序列;
特征提取模块,用于从所述有效语音片断序列中提取评测特征;
评分模块,用于根据所述评测特征进行评分。
优选地,所述融合模块包括:
匹配单元,用于将不同语音识别***得到的语音片断对应的文本分别与预先构建的标准答案网络进行动态匹配,获取最优匹配结果;
集合生成单元,用于根据所述最优匹配结果依次生成不同对应单元的集合,所述对应单元是指其对应的不同语音识别***得到的语音片断在时间上存在重叠性,并且能够正确匹配标准答案网络的识别结果单元;
确定单元,用于确定所述集合中的最优单元;
拼接单元,用于依次拼接所述集合中的最优单元,得到对应所述语音信号的有效语音片断序列。
优选地,所述确定单元包括:
计算单元,用于分别计算所述集合中各对应单元的语音片断的声学模型概率或发音后验概率;
选择单元,用于选择具有最大声学模型概率或发音后验概率的对应单元作为所述集合中的最优单元。
优选地,所述评测特征对应一种特征类型,所述特征类型为以下任意一种:完整性特征、发音准确性特征、流利性特征、韵律特征;
所述评分模块包括:
加载单元,用于加载与所述评测特征的特征类型相对应的评分预测模型;
计算单元,用于计算所述评测特征相应于所述评分预测模型的相似度,并将所述相似度作为所述语音信号的得分。
优选地,所述评测特征包括对应不同特征类型的至少两组评测特征,所述特征类型为以下任意一种:完整性特征、发音准确性特征、流利性特征、韵律特征;
所述评分模块包括:
加载单元,用于对每组评测特征,加载与所述评测特征的特征类型相对应的评分预测模型;
第一计算单元,用于计算所述评测特征相应于所述评分预测模型的相似度,并将所述相似度作为所述评测特征的得分;
第二计算单元,用于根据每组评测特征的得分计算所述语音信号的得分。
本发明实施例提供的口语评测方法及***,对待评测的语音信号采用多种语音识别方式进行识别,得到多个语音片断序列;然后对这些语音片断序列进行融合获得有效语音片断序列,最后根据所述有效语音片断序列进行口语评测获得评测结果。该方法及***通过提高语音识别结果的准确率以及口语评测考察对象的有效性和合理性,极大降低了评分异常的比例,从而更好地满足了大规模口语考试的应用需求。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例口语评测方法的流程图;
图2是本发明实施例中不同语音识别***识别结果的匹配信息示意图;
图3是本发明实施例中构建评分预测模型的流程图;
图4是本发明实施例口语评测***的结构示意图;
图5是本发明实施例口语评测***中融合模块的一种具体实现结构示意图;
图6是本发明实施例中评分模块的一种具体实现结构示意图;
图7是本发明实施例中评分模块的另一种具体实现结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对现有技术中受环境因素影响语音识别准确率下降会导致口语评测过程中出现一定比例的异常评分语音的问题,本发明实施例提供一种口语评测方法及***,首先对待评测的语音信号采用多种语音识别方式进行识别,得到多个语音片断序列;然后对这些语音片断序列进行融合获得有效语音片断序列,最后根据所述有效语音片断序列进行口语评分获得评测结果。
如图1所示,是本发明实施例口语评测方法的流程图,包括以下步骤:
步骤101,接收待评测的语音信号。
步骤102,利用至少两种不同的语音识别***分别获取所述语音信号中各基本语音单元对应的语音片断。
所述基本语音单元可以是音节、音素等。不同的语音识别***将基于不同的声学特征(如基于MFCC特征的声学模型、基于PLP特征的声学模型等)或采用不同的声学模型(如带区分度住处的HMM-GMM声学模型、基于DBN的神经网络声学模型等)对语音信号解码。这样,可以得到对应所述语音信号的语音片断序列。
具体地,对于问答题等没有文本标注的语音信号可以通过连续语音识别获取所述语音信号对应的文本以及对应的各基本语音单元片断。而对于朗读题等具有标准答案的语音信号则采用语音对齐方式获得各基本语音单元的时间边界。
由于不同的语音识别***具有不同的解码优势,其识别结果之间往往具有一定的互补性。
步骤103,对获取的语音片断进行融合,得到对应所述语音信号的有效语音片断序列。
由于单个语音识别***可能会导致部分错误的识别结果,而具有互补特性的语音识别***由于具有一定的互补性,因此可以较大程度上避免这一问题,进而通过对各语音片断的合理选择提高各语音片断评分的准确性和合理性。
在本发明实施例中,可以首先将不同语音识别***得到的语音片断对应的文本分别与预先构建的标准答案网络进行动态匹配,获取最优匹配结果。具体地,可以将所述文本在标准答案网络中采用DTW(Dynamic Time Warping,动态时间归整)算法计算历史路径的累积概率,在搜索结束的时候选择具有最大概率的历史路径为最优路径。比如,语音识别***1得到的识别结果是“ABCDE”,和标准答案网络匹配,获得最优匹配结果“A(+)BC(+)D(+)E(+)”,即A,C,D,E单元和答案匹配上,而B没有匹配上。
然后,综合所述最优匹配结果生成有效单元序列,所述有效单元是指能够和标准答案网络,且其对应的不同语音识别***得到的语音片断在时间上存在重叠性的识别结果单元。确定各有效单元序列所对应的有效语音片断,依次拼接所述最优单元对应的语音片断,得到对应所述语音信号的有效语音片断序列。
在确定各有效单元对应的有效语音片断时,由于不同的识别结果中都可能存在有效单元及对应的语音片断,为此,可以首先根据所述最优匹配结果依次生成不同对应单元的集合,分别计算所述集合中各单元对应的语音片断的声学模型概率或发音后验概率,选择具有最大概率得分的对应单元作为所述集合中的最优单元。然后将得到的各集合中的最优单元对应的语音片断按时间顺序拼接,即可得到对应所述语音信号的有效语音片断序列。
例如:假设有两个语音识别***分别输出如图2所示的识别结果,其中语音识别***1得到的识别结果是“ABCDE”,而语音识别***2得到的识别结果是“AFCGE”。将上述两种识别结果分别和标准答案网络匹配,获得最优匹配结果“A(+)BC(+)D(+)E(+)”和“A(+)F(+)C(+)GE(+)”。所述(+)即为可以和标准答案匹配,即为正确识别结果。图2中竖线用于描述各语音片断的时间边界。
通过融合得到的有效语音片断序列为“A F C D E”。显然融合后的识别结果准确度比单个语音识别***的识别结果准确度有了明显的提升。
步骤104,从所述有效语音片断序列中提取评测特征。
需要说明的是,在实际应用中,可以根据应用需要,提取某一特征类型的评测特征,比如:完整性特征、发音准确性特征、流利性特征、韵律特征等特征类型的评测特征,并根据所述评测特征进行评分。
当然,也可以同时提取多种特征类型的评测特征,也就是说,提取的评测特征可以有两组或多组,每组评测特征对应了一种特征类型,比如:完整性特征、发音准确性特征、流利性特征、或韵律特征等。
所述完整性特征用于描述所述语音片断序列对应的语音单元序列相应于标准答案的文本完整度。
在本发明实施例中,可以通过将所述基本语音单元序列与预先构建的标准答案网络进行匹配,获得最优路径,将最优路径和语音单元序列的匹配度作为完整性特征。
需要说明的是,针对不同的题型,所述标准答案网络的形式可以不同,比如,对朗读题就是题面,问答题就是一些关键词,看图说话或者表述题等就是一些核心句子等。
问答题以及表述题等由于其答案具有一定的不确定性,属于半开放题型,因而其标准答案往往根据关键字词设置多个不同答案,在形式上标准答案网络可以是多个答案词条。
对于开放题型,其标准答案往往是包含关键字词的句子。显然关键字词的重要性要高于其他辅助字词,所以可以对关键字词设置较大的权重,而对其他辅助字词设置较小的权重,以提高语义匹配的合理性。因此,对于开放题型,还可以根据各标准答案中关键字词的出现概率构建一个带权重的标准答案网络,并在所述标准答案网络内搜索获得和语音单元序列具有最高相似度的最优路径,进而将语音单元序列中和最优路径中单元一致的对应各语音单元的匹配度作为完整性特征。所述匹配度是指各匹配的语音单元所对应的加权权重。
所述发音准确性特征用于描述各语音片断的发音标准度。具体地,可以分别计算各语音片断相应于预设的发音声学模型的相似度,将所述相似度作为发音准确性特征。
所述流利性特征用于描述用户语句表述的通顺性,包括但不限于语句平均语速(如语音时长和语音单元个数的比例等)、语句平均语流长度、语句有效停顿比例等。此外,为了补偿不同发音人在语速上的差异,还可以采用音素段特征,对所有发音部分进行归一化后共同组成流利性特征。具体地,可以通过统计上下文无关音素的时长离散概率分布,计算归一化后时长评分的对数概率,得到音素的段长评分。
所述韵律特征用于描述用户发音的韵律特点,包括基频变化起伏等特征。具体地,可以提取各语音片断的基频特征序列,随后获取其动态变化特征,如提取一阶差分、二阶差分等作为韵律特征。
上述对应不同特征类型的评测特征分别从不同角度描述了当前用户发音的特点,彼此具有一定的互补性。
步骤105,根据所述评测特征进行评分。
对于不同特征类型的评测特征可以分别加载对应的评分预测模型并计算所述评测特征相应于该评分预测模型的相似度。
需要说明的是,在实际应用中,还可以根据不同题型加载相应的评分预测模型,对应不同题型的同一特征类型的评分预测模型可以相同,也可以不同,从而进一步提高评分的细致度和准确性。各评分预测模型的构建将在后面详细说明。
如果只提取了一种特征类型的评测特征,则可将上述计算得到的所述评测特征相应于评分预测模型的相似度作为所述语音信号的得分。
如果提取了多种特征类型的评测特征,则需要将上述计算得到的相似度作为相应评测特征的得分,然后再根据每组评测特征的得分计算所述语音信号的得分。具体地,可以从实际应用出发,考虑到不同类型的评测特征的得分具有一定的相关性,基于线性回归的转换方法,计算总得分,即按以下公式计算语音信号的得分:
S = 1 N Σ i = 1 N w i s i
其中,wi是各评测特征的相关参数,wi为正数,由***预先设置且满足
Figure BDA0000410864650000092
si是各评测特征的综合得分;N是综合得分的个数。
可见,本发明实施例的口语评测方法,对待评测的语音信号采用多种语音识别方式进行识别,得到多个语音片断序列;然后对这些语音片断序列进行融合获得有效语音片断序列,最后根据所述有效语音片断序列进行口语评测获得评测结果。该方法通过提高语音识别结果的准确率以及口语评测考察对象的有效性和合理性,极大降低了评分异常的比例,从而更好地满足了大规模口语考试的应用需求。
前面提到,在计算评测特征的得分时,需要加载与所述评测特征的特征类型相对应的评分预测模型。需要说明的是,所述评分预测模型可以预先离线构建。
如图3所示,是本发明实施例中构建评分预测模型的流程图,包括以下步骤:
步骤301,采集评分训练数据。
具体地,可以对每个题目分别收集多个用户的答题语音数据,作为评分训练数据。
步骤302,对所述训练数据进行人工标注,包括文本标注和切分、以及口语评测人工打分等。
所述文本标注是指从语音到文本的转换。切分是指通过人工监听,对连续语音信号进行划分,确定各基本语音单元对应的语音片断。口语评测人工打分是指通过人工测听的方式对口语水平进行评分。
在实际应用中,可以分别对上述不同的评测特征分别评分,所述评测特征包括完整性特征、发音准确性特征、流利性特征、韵律特征等。
步骤303,根据标注结果分别提取不同特征类型的评测特征。
也就是说,根据标注结果中的基本语音单元及对应的语音片断,从所述语音片断中按照前面介绍的方式分别提取不同特征类型的评测特征。
步骤304,利用所述评测特征分别构建与所述特征类型相关的评分预测模型。
具体地,可以利用预测技术在人工评分的指导下训练得到评分预测模型的参数,得到评分预测模型。进一步地,还可以根据不同考试题型分别建立与题型相关的评分预测模型。
相应地,本发明实施例还提供一种口语评测***,如图4所示,是该***的一种结构示意图。
在该实施例中,所述***包括:接收模块401,语音片断获取模块402,融合模块403,特征提取模块404和评分模块405。其中:
接收模块401,用于接收待评测的语音信号。
语音片断获取模块402,用于利用至少两种不同的语音识别***分别获取所述语音信号中各基本语音单元对应的语音片断。
对于问答题等没有文本标注的语音信号,可以通过连续语音识别获取所述语音信号对应的文本以及对应的各基本语音单元片断。而对于朗读题等具有标准答案的语音信号,可以采用语音对齐方式获得各基本语音单元的时间边界。
由于不同的语音识别***具有不同的解码优势,其识别结果之间往往具有一定的互补性。
融合模块403,用于对所述语音片断获取模块402获取的语音片断进行融合,得到对应所述语音信号的有效语音片断序列。
特征提取模块404,用于从所述有效语音片断序列中提取评测特征。
评分模块405,用于根据所述评测特征进行评分。
由于单个语音识别***可能会导致部分错误的识别结果,而具有互补特性的语音识别***由于具有一定的互补性,因此可以较大程度上避免这一问题,进而通过对各语音片断的合理选择提高各语音片断评分的准确性和合理性。
为此,在本发明实施例中,所述融合模块403的一种具体实现结构如图5所示。
在该实施例中,所述融合模块包括:
匹配单元501,用于将不同语音识别***得到的语音片断对应的文本分别与预先构建的标准答案网络进行动态匹配,获取最优匹配结果;
集合生成单元502,用于根据所述最优匹配结果依次生成不同对应单元的集合,所述对应单元是指其对应的不同语音识别***得到的语音片断在时间上存在重叠性,并且能够正确匹配标准答案网络的识别结果单元;
确定单元503,用于确定所述集合中的最优单元;
拼接单元504,用于依次拼接所述集合中的最优单元,得到对应所述语音信号的有效语音片断序列。
上述确定单元503可以包括:计算单元和选择单元(未图示)。其中:所述计算单元用于分别计算所述集合中各对应单元的语音片断的声学模型概率或发音后验概率;所述选择单元用于选择具有最大声学模型概率或发音后验概率的对应单元作为所述集合中的最优单元。
通过上述融合模块对语音片断的融合,使得融合后的识别结果准确度比单个语音识别***的识别结果准确度有较大的提升。
可见,本发明实施例的口语评测***,对待评测的语音信号采用多种语音识别方式进行识别,得到多个语音片断序列;然后对这些语音片断序列进行融合获得有效语音片断序列,最后根据所述有效语音片断序列进行口语评测获得评测结果。该方法通过提高语音识别结果的准确率以及口语评测考察对象的有效性和合理性,极大降低了评分异常的比例,从而更好地满足了大规模口语考试的应用需求。
需要说明的是,在实际应用中,特征提取模块404可以根据应用需要,提取某一特征类型的评测特征,比如:完整性特征、发音准确性特征、流利性特征、韵律特征等特征类型的评测特征,并根据所述评测特征进行评分。当然,也可以同时提取多种特征类型的评测特征,也就是说,提取的评测特征可以有两组或多组,每组评测特征对应了一种特征类型,比如:完整性特征、发音准确性特征、流利性特征、或韵律特征等。
上述各种类型的评测特征的具体含义及提取方式在前面已有说明,在此不再赘述。这些对应不同特征类型的评测特征分别从不同角度描述了当前用户发音的特点,彼此具有一定的互补性。
下面分别说明针对提取的评测特征不同时,所述评分模块的具体实现方式。
如图6所示,是本发明实施例中评分模块的一种具体实现结构示意图。
在该实施例中,所述评分模块包括:
加载单元601,用于加载与评测特征的特征类型相对应的评分预测模型;
计算单元602,用于计算所述评测特征相应于所述评分预测模型的相似度,并将所述相似度作为所述语音信号的得分。
该实施例的评分模块,针对特征提取模块提取的某一特征类型的评测特征,通过计算该评测特征相应于评分预测模型的相似度,并将所述相似度作为所述语音信号的得分。
如图7所示,是本发明实施例中评分模块的另一种具体实现结构示意图。
在该实施例中,所述评分模块包括:
加载单元701,用于对每组评测特征,加载与所述评测特征的特征类型相对应的评分预测模型;
第一计算单元702,用于计算所述评测特征相应于所述评分预测模型的相似度,并将所述相似度作为所述评测特征的得分;
第二计算单元703,用于根据每组评测特征的得分计算所述语音信号的得分。
考虑到不同类型的评测特征的得分具有一定的相关性,第二计算单元703可以基于线性回归的转换方法,计算总得分,即按以下公式计算语音信号的得分:
S = 1 N Σ i = 1 N w i s i
其中,wi是各评测特征的相关参数,wi为正数,由***预先设置且满足
Figure BDA0000410864650000122
si是各评测特征的综合得分;N是综合得分的个数。
该实施例的评分模块,针对特征提取模块提取的多种不同特征类型的评测特征,通过计算该评测特征相应于评分预测模型的相似度,得到每组评测特征的得分,继而根据每组评测特征的得分计算得到语音信号的得分,进一步提高了口语评测的有效性和合理性,极大地降低了评分异常的比例。
需要说明的是,上述与不同评测特征的特征类型相对应的评分预测模型可以预先离线构建,在前面已有详细说明,在此不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的,其中所述作为分离部件说明的模块或单元可以是或者也可以不是物理上分开的,作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的口语评测***中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种口语评测方法,其特征在于,包括:
接收待评测的语音信号;
利用至少两种不同的语音识别***分别获取所述语音信号中各基本语音单元对应的语音片断;
对获取的语音片断进行融合,得到对应所述语音信号的有效语音片断序列;
从所述有效语音片断序列中提取评测特征;
根据所述评测特征进行评分。
2.根据权利要求1所述的方法,其特征在于,所述对获取的语音片断进行融合,得到对应所述语音信号的有效语音片断序列包括:
将不同语音识别***得到的语音片断对应的文本分别与预先构建的标准答案网络进行动态匹配,获取最优匹配结果;
根据所述最优匹配结果依次生成不同对应单元的集合,所述对应单元是指其对应的不同语音识别***得到的语音片断在时间上存在重叠性,并且能够正确匹配标准答案网络的识别结果单元;
确定所述集合中的最优单元;
依次拼接所述集合中的最优单元,得到对应所述语音信号的有效语音片断序列。
3.根据权利要求2所述的方法,其特征在于,所述确定所述集合中的最优单元包括:
分别计算所述集合中各对应单元的语音片断的声学模型概率或发音后验概率;
选择具有最大声学模型概率或发音后验概率的对应单元作为所述集合中的最优单元。
4.根据权利要求1所述的方法,其特征在于,所述评测特征对应一种特征类型,所述特征类型为以下任意一种:完整性特征、发音准确性特征、流利性特征、韵律特征;
所述根据所述评测特征进行评分包括:
加载与所述评测特征的特征类型相对应的评分预测模型;
计算所述评测特征相应于所述评分预测模型的相似度,并将所述相似度作为所述语音信号的得分。
5.根据权利要求1所述的方法,其特征在于,所述评测特征包括对应不同特征类型的至少两组评测特征,所述特征类型为以下任意一种:完整性特征、发音准确性特征、流利性特征、韵律特征;
所述根据所述评测特征进行评分包括:
对于每组评测特征,加载与所述评测特征的特征类型相对应的评分预测模型;
计算所述评测特征相应于所述评分预测模型的相似度,并将所述相似度作为所述评测特征的得分;
根据每组评测特征的得分计算所述语音信号的得分。
6.一种口语评测***,其特征在于,包括:
接收模块,用于接收待评测的语音信号;
语音片断获取模块,用于利用至少两种不同的语音识别***分别获取所述语音信号中各基本语音单元对应的语音片断;
融合模块,用于对所述语音片断获取模块获取的语音片断进行融合,得到对应所述语音信号的有效语音片断序列;
特征提取模块,用于从所述有效语音片断序列中提取评测特征;
评分模块,用于根据所述评测特征进行评分。
7.根据权利要求6所述的***,其特征在于,所述融合模块包括:
匹配单元,用于将不同语音识别***得到的语音片断对应的文本分别与预先构建的标准答案网络进行动态匹配,获取最优匹配结果;
集合生成单元,用于根据所述最优匹配结果依次生成不同对应单元的集合,所述对应单元是指其对应的不同语音识别***得到的语音片断在时间上存在重叠性,并且能够正确匹配标准答案网络的识别结果单元;
确定单元,用于确定所述集合中的最优单元;
拼接单元,用于依次拼接所述集合中的最优单元,得到对应所述语音信号的有效语音片断序列。
8.根据权利要求7所述的***,其特征在于,所述确定单元包括:
计算单元,用于分别计算所述集合中各对应单元的语音片断的声学模型概率或发音后验概率;
选择单元,用于选择具有最大声学模型概率或发音后验概率的对应单元作为所述集合中的最优单元。
9.根据权利要求6所述的***,其特征在于,所述评测特征对应一种特征类型,所述特征类型为以下任意一种:完整性特征、发音准确性特征、流利性特征、韵律特征;
所述评分模块包括:
加载单元,用于加载与所述评测特征的特征类型相对应的评分预测模型;
计算单元,用于计算所述评测特征相应于所述评分预测模型的相似度,并将所述相似度作为所述语音信号的得分。
10.根据权利要求6所述的***,其特征在于,所述评测特征包括对应不同特征类型的至少两组评测特征,所述特征类型为以下任意一种:完整性特征、发音准确性特征、流利性特征、韵律特征;
所述评分模块包括:
加载单元,用于对每组评测特征,加载与所述评测特征的特征类型相对应的评分预测模型;
第一计算单元,用于计算所述评测特征相应于所述评分预测模型的相似度,并将所述相似度作为所述评测特征的得分;
第二计算单元,用于根据每组评测特征的得分计算所述语音信号的得分。
CN201310554431.8A 2013-11-08 2013-11-08 口语评测方法及*** Active CN103559894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310554431.8A CN103559894B (zh) 2013-11-08 2013-11-08 口语评测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310554431.8A CN103559894B (zh) 2013-11-08 2013-11-08 口语评测方法及***

Publications (2)

Publication Number Publication Date
CN103559894A true CN103559894A (zh) 2014-02-05
CN103559894B CN103559894B (zh) 2016-04-20

Family

ID=50014121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310554431.8A Active CN103559894B (zh) 2013-11-08 2013-11-08 口语评测方法及***

Country Status (1)

Country Link
CN (1) CN103559894B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103928023A (zh) * 2014-04-29 2014-07-16 广东外语外贸大学 一种语音评分方法及***
CN104318921A (zh) * 2014-11-06 2015-01-28 科大讯飞股份有限公司 音段切分检测方法及***、口语评测方法及***
CN104464757A (zh) * 2014-10-28 2015-03-25 科大讯飞股份有限公司 语音评测方法和语音评测装置
CN104978971A (zh) * 2014-04-08 2015-10-14 安徽科大讯飞信息科技股份有限公司 一种口语评测方法及***
CN105845134A (zh) * 2016-06-14 2016-08-10 科大讯飞股份有限公司 自由朗读题型的口语评测方法及***
CN107894882A (zh) * 2017-11-21 2018-04-10 马博 一种移动终端的语音输入方法
CN107945788A (zh) * 2017-11-27 2018-04-20 桂林电子科技大学 一种文本相关的英语口语发音错误检测与质量评分方法
CN108597538A (zh) * 2018-03-05 2018-09-28 标贝(北京)科技有限公司 语音合成***的评测方法和***
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
CN109273023A (zh) * 2018-09-20 2019-01-25 科大讯飞股份有限公司 一种数据评测方法、装置、设备及可读存储介质
CN109300474A (zh) * 2018-09-14 2019-02-01 北京网众共创科技有限公司 一种语音信号处理方法及装置
CN109308118A (zh) * 2018-09-04 2019-02-05 安徽大学 基于eog的中文眼写信号识别***及其识别方法
CN109697988A (zh) * 2017-10-20 2019-04-30 深圳市鹰硕音频科技有限公司 一种语音评价方法及装置
WO2020181800A1 (zh) * 2019-03-12 2020-09-17 平安科技(深圳)有限公司 预测问答内容的评分的装置、方法及存储介质
CN111833853A (zh) * 2020-07-01 2020-10-27 腾讯科技(深圳)有限公司 语音处理方法及装置、电子设备、计算机可读存储介质
CN111916108A (zh) * 2020-07-24 2020-11-10 北京声智科技有限公司 一种语音评测方法及装置
CN112331180A (zh) * 2020-11-03 2021-02-05 北京猿力未来科技有限公司 一种口语评测方法及装置
CN112951274A (zh) * 2021-02-07 2021-06-11 脸萌有限公司 语音相似度确定方法及设备、程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645271A (zh) * 2008-12-23 2010-02-10 中国科学院声学研究所 发音质量评估***中的置信度快速求取方法
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法
CN101645271A (zh) * 2008-12-23 2010-02-10 中国科学院声学研究所 发音质量评估***中的置信度快速求取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JONATHAN G. FISCUS: "A POST-PROCESSING SYSTEM TO YIELD REDUCED WORD ERROR RATES:RECOGNIZER OUTPUT VOTING ERROR REDUCTION (ROVER)", 《AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING, 1997. PROCEEDINGS., 1997 IEEE WORKSHOP ON》, 17 December 1997 (1997-12-17) *
SATOSHI NATORI ET AL: "Spoken Term Detection Using Phoneme Transition Network from Multiple Speech Recognizers’ Outputs", 《JOURNAL OF INFORMATION PROCESSING》, vol. 21, no. 2, 30 April 2013 (2013-04-30) *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978971A (zh) * 2014-04-08 2015-10-14 安徽科大讯飞信息科技股份有限公司 一种口语评测方法及***
CN103928023A (zh) * 2014-04-29 2014-07-16 广东外语外贸大学 一种语音评分方法及***
CN104464757B (zh) * 2014-10-28 2019-01-18 科大讯飞股份有限公司 语音评测方法和语音评测装置
CN104464757A (zh) * 2014-10-28 2015-03-25 科大讯飞股份有限公司 语音评测方法和语音评测装置
CN104318921A (zh) * 2014-11-06 2015-01-28 科大讯飞股份有限公司 音段切分检测方法及***、口语评测方法及***
CN104318921B (zh) * 2014-11-06 2017-08-25 科大讯飞股份有限公司 音段切分检测方法及***、口语评测方法及***
CN105845134A (zh) * 2016-06-14 2016-08-10 科大讯飞股份有限公司 自由朗读题型的口语评测方法及***
CN109697988B (zh) * 2017-10-20 2021-05-14 深圳市鹰硕教育服务有限公司 一种语音评价方法及装置
CN109697988A (zh) * 2017-10-20 2019-04-30 深圳市鹰硕音频科技有限公司 一种语音评价方法及装置
CN107894882B (zh) * 2017-11-21 2021-02-09 南京硅基智能科技有限公司 一种移动终端的语音输入方法
CN107894882A (zh) * 2017-11-21 2018-04-10 马博 一种移动终端的语音输入方法
CN107945788A (zh) * 2017-11-27 2018-04-20 桂林电子科技大学 一种文本相关的英语口语发音错误检测与质量评分方法
CN107945788B (zh) * 2017-11-27 2021-11-02 桂林电子科技大学 一种文本相关的英语口语发音错误检测与质量评分方法
CN108597538A (zh) * 2018-03-05 2018-09-28 标贝(北京)科技有限公司 语音合成***的评测方法和***
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
CN108829894B (zh) * 2018-06-29 2021-11-12 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
CN109308118A (zh) * 2018-09-04 2019-02-05 安徽大学 基于eog的中文眼写信号识别***及其识别方法
CN109308118B (zh) * 2018-09-04 2021-12-14 安徽大学 基于eog的中文眼写信号识别***及其识别方法
CN109300474A (zh) * 2018-09-14 2019-02-01 北京网众共创科技有限公司 一种语音信号处理方法及装置
CN109300474B (zh) * 2018-09-14 2022-04-26 北京网众共创科技有限公司 一种语音信号处理方法及装置
CN109273023A (zh) * 2018-09-20 2019-01-25 科大讯飞股份有限公司 一种数据评测方法、装置、设备及可读存储介质
CN109273023B (zh) * 2018-09-20 2022-05-17 科大讯飞股份有限公司 一种数据评测方法、装置、设备及可读存储介质
WO2020181800A1 (zh) * 2019-03-12 2020-09-17 平安科技(深圳)有限公司 预测问答内容的评分的装置、方法及存储介质
CN111833853A (zh) * 2020-07-01 2020-10-27 腾讯科技(深圳)有限公司 语音处理方法及装置、电子设备、计算机可读存储介质
CN111833853B (zh) * 2020-07-01 2023-10-27 腾讯科技(深圳)有限公司 语音处理方法及装置、电子设备、计算机可读存储介质
CN111916108A (zh) * 2020-07-24 2020-11-10 北京声智科技有限公司 一种语音评测方法及装置
CN111916108B (zh) * 2020-07-24 2021-04-02 北京声智科技有限公司 一种语音评测方法及装置
CN112331180A (zh) * 2020-11-03 2021-02-05 北京猿力未来科技有限公司 一种口语评测方法及装置
CN112951274A (zh) * 2021-02-07 2021-06-11 脸萌有限公司 语音相似度确定方法及设备、程序产品

Also Published As

Publication number Publication date
CN103559894B (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN103559894B (zh) 口语评测方法及***
CN103559892B (zh) 口语评测方法及***
CN110782921B (zh) 语音测评方法和装置、存储介质及电子装置
CN103594087B (zh) 提高口语评测性能的方法及***
CN101740024B (zh) 基于广义流利的口语流利度自动评估方法
CN101751919B (zh) 一种汉语口语重音自动检测方法
CN102568475B (zh) 用于普通话水平测评的***和方法
CN105845134A (zh) 自由朗读题型的口语评测方法及***
US9489864B2 (en) Systems and methods for an automated pronunciation assessment system for similar vowel pairs
US9262941B2 (en) Systems and methods for assessment of non-native speech using vowel space characteristics
CN102214462A (zh) 用于发音评估的方法和***
CN102034475A (zh) 一种运用计算机对开放式短对话进行交互式评分的方法
CN103985392A (zh) 音素级的低功耗的口语评价与缺陷诊断方法
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及***
Yin et al. Automatic cognitive load detection from speech features
Ghanem et al. Pronunciation features in rating criteria
CN104700831B (zh) 分析音频文件的语音特征的方法和装置
CN109697975B (zh) 一种语音评价方法及装置
CN109065024A (zh) 异常语音数据检测方法及装置
Shashidhar et al. Automatic spontaneous speech grading: A novel feature derivation technique using the crowd
Gao et al. Spoken english intelligibility remediation with pocketsphinx alignment and feature extraction improves substantially over the state of the art
Li et al. Techware: Speaker and spoken language recognition resources [best of the web]
CN112116181B (zh) 课堂质量模型的训练方法、课堂质量评价方法及装置
Loukina et al. Pronunciation accuracy and intelligibility of non-native speech
CN115116474A (zh) 口语评分模型训练方法、评分方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant after: Iflytek Co., Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: Anhui USTC iFLYTEK Co., Ltd.

COR Change of bibliographic data
CB03 Change of inventor or designer information

Inventor after: Wei Si

Inventor after: Wang Shijin

Inventor after: Liu Dan

Inventor after: Hu Yu

Inventor after: Liu Qingfeng

Inventor before: Wang Shijin

Inventor before: Liu Dan

Inventor before: Wei Si

Inventor before: Hu Yu

Inventor before: Liu Qingfeng

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20171207

Address after: 510000 Guangzhou City, Guangzhou, Guangdong, Haizhuqu District Guangzhou Avenue South 788, self compiled 15 houses, 177 rooms

Patentee after: Guangzhou Xunfei Yi heard Network Technology Co. Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee before: Iflytek Co., Ltd.