CN104572617A

CN104572617A - 一种口语考试偏题检测方法及装置

Info

Publication number: CN104572617A
Application number: CN201410841199.0A
Authority: CN
Inventors: 杨嵩; 王欢良; 代大明; 袁军峰; 惠寅华; 林远东
Original assignee: Suzhou Chisheng Information Technology Co Ltd
Current assignee: Suzhou Chisheng Information Technology Co Ltd
Priority date: 2014-12-30
Filing date: 2014-12-30
Publication date: 2015-04-29

Abstract

本发明公开了一种口语考试偏题检测方法及装置，属于语音数据处理技术领域。该方法包括：根据考生的答题音频文件和对应考题信息，识别出考生的答题文本序列；通过对该考生答题文本序列进行语义分析，提取考生的语义特征；对该考生答题文本序列进行词性标注，生成答题文本的语法树，根据该语法树特征，提取考生的语法特征；根据该考生的语义特征、该考生的语法特征以及考题信息，检测该考生的答题是否偏离考题范围。本发明通过提取考生答题音频文件的语义特征和语法特征，并以这些特征为基础客观地检测考生答案是否偏离考题范围，为口语考试的评分提供有力的帮助，提高了口语考试的公平性和准确性。

Description

一种口语考试偏题检测方法及装置

技术领域

本发明涉及语音数据处理技术领域，特别涉及一种口语考试偏题检测方法及装置。

背景技术

近年来随着社会经济的不断发展和全球化趋势的加剧，人们对语言学习的热情达到了前所未有的高度。相应的作为检测教学质量、检验学习效果的语言评测对评估客观性、公正性以及规模化测试的评估效率也提出了越来越高的要求。

现有的计算机自动评分技术更多关注的是考试的语音学方面的相关特征，这样一来，考生在回答问题时只需要发音流利清晰，评分***都会给出一定的分数。，会有一些能力较差考生提前熟练背诵一些常用的文本，也能从***中得到一个分数，导致口语考试评分的公平性受到严重影响。

发明内容

为了解决上述问题，本发明实施例提供了一种口语考试偏题检测方法及装置。所述技术方案如下：

一方面，提供了一种口语考试偏题检测方法，所述方法包括：

根据考生的答题音频文件和对应考题信息，识别出考生的答题文本序列；

通过对所述考生答题文本序列进行语义分析，提取考生的语义特征；

对所述考生答题文本序列进行词性标注，生成答题文本的语法树，根据所述语法树特征，提取考生的语法特征；

根据所述考生的语义特征、所述考生的语法特征以及考题信息，检测所述考生的答题是否偏离考题范围。

可选地，根据考生的答题音频文件和对应考题信息，识别出考生的答题文本序列包括：

根据考生的答题音频文件和对应考题信息，获取考生的语言特征，并通过语言解析生成关键词库和同义词库；

根据所述考生的语言特征，利用预设语言模型和声学模型，识别出考生的答题文本序列。

可选地，通过对所述考生答题文本序列进行语义分析，提取考生的语义特征包括：

对所述考生的答题文本序列进行语义分析，提取考生的语义特征，所述考生的语义特征至少包括：基于所述关键词库和所述同义词库计算的考生的答题文本的关键词分布特征，以及利用词向量方法计算的文本相似度特征。

可选地，基于所述关键词库和所述同义词库计算考生的答题文本的关键词分布特征包括：

基于所述关键词库和所述同义词库，根据向量空间模型，计算关键词向量；

基于所述关键词库和所述同义词库，结合所述考生的答题文本系列，将两者数量比例作为关键词分布特征。

可选地，利用词向量方法计算文本相似度特征包括：

基于所述关键词和近义，计算考生答案的TF-IDF矢量特征，再利用浅层语义分析模型提取语义特征矢量，使用所述语义特征计算考生的答题文本相似度特征矢量；

使用考题信息以及考生答题音频文件，建立word2vec模型，得到考题和考生答案的词向量，通过计算词向量间的距离，得到考生答题的文本相似度特征。

可选地，根据所述考生的语义特征、所述考生的语法特征以及考题信息，检测所述考生的答题是否偏离考题范围包括：

利用多元线性回归方法，根据所述考生的语义特征、所述考生的语法特征以及考题信息，计算考生的答题范围；当计算的考生答题范围大于预设值时，认为考生的答题偏离考题范围；当计算的考生答题范围小于预设值时，认为考生的答题未偏离考题范围。

另一方面，提供了一种口语考试偏题检测装置，所述装置包括：

文本序列识别模块，用于根据考生的答题音频文件和对应考题信息，识别出考生的答题文本序列；

语义特征提取模块，用于通过对所述考生答题文本序列进行语义分析，提取考生的语义特征；

语法特征提取模块，用于所述考生答题文本序列进行词性标注，生成答题文本的语法树，根据所述语法树特征，提取考生的语法特征；

偏题判断模块，用于根据所述考生的语义特征、所述考生的语法特征以及考题信息，检测所述考生的答题是否偏离考题范围。

可选地，所述文本序列识别模块用于根据考生的答题音频文件和对应考题信息，获取考生的语言特征，并通过语言解析生成关键词库和同义词库；根据所述考生的语言特征，利用预设语言模型和声学模型，识别出考生的答题文本序列。

可选地，所述语义特征提取模块用于对所述考生的答题文本序列进行语义分析，提取考生的语义特征，所述考生的语义特征至少包括：基于所述关键词库和所述同义词库计算的考生的答题文本的关键词分布特征，以及利用词向量装置计算的文本相似度特征；基于所述关键词库和所述同义词库计算考生的答题文本的关键词分布特征包括：基于所述关键词库和所述同义词库，根据向量空间模型，计算关键词向量；基于所述关键词库和所述同义词库，结合所述考生的答题文本系列，将两者数量比例作为关键词分布特征；利用词向量装置计算文本相似度特征包括：基于所述关键词和近义，计算考生答案的TF-IDF矢量特征，再利用浅层语义分析模型提取语义特征矢量，使用所述语义特征计算考生的答题文本相似度特征矢量；使用考题信息以及考生答题音频文件，建立word2vec模型，得到考题和考生答案的词向量，通过计算词向量间的距离，得到考生答题的文本相似度特征。

可选地，所述偏题判断模块用于利用多元线性回归装置，根据所述考生的语义特征、所述考生的语法特征以及考题信息，计算考生的答题范围；当计算的考生答题范围大于预设值时，认为考生的答题偏离考题范围；当计算的考生答题范围小于预设值时，认为考生的答题未偏离考题范围。

本发明实施例提供的技术方案带来的有益效果是：

通过提取考生答题音频文件的语义特征和语法特征，并以这些特征为基础客观地检测考生答案是否偏离考题范围，为口语考试的评分提供有力的帮助，提高了口语考试的公平性和准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的口语考试偏题检测方法流程图；

图2是本发明实施例提供的口语考试偏题检测装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的口语考试偏题检测方法的流程图。参见图1，该方法包括：

101、根据考生的答题音频文件和对应考题信息，识别出考生的答题文本序列；

其中，该考生的答题文本序列可以包括词级序列和音素级序列等。

在本发明实施例中，根据考生的答题音频文件和对应考题信息，识别出考生的答题文本序列包括：根据考生的答题音频文件和对应考题信息，获取考生的语言特征，并通过语言解析生成关键词库和同义词库；根据该考生的语言特征，利用预设语言模型和声学模型，识别出考生的答题文本序列。

102、通过对该考生答题文本序列进行语义分析，提取考生的语义特征；

在本发明实施例中，通过对该考生答题文本序列进行语义分析，提取考生的语义特征包括：对该考生的答题文本序列进行语义分析，提取考生的语义特征，该考生的语义特征至少包括：基于该关键词库和该同义词库计算的考生的答题文本的关键词分布特征，以及利用词向量方法计算的文本相似度特征。

其中，在本发明实施例中，基于该关键词库和该同义词库计算考生的答题文本的关键词分布特征包括：基于该关键词库和该同义词库，根据向量空间模型，计算关键词向量；基于该关键词库和该同义词库，结合该考生的答题文本系列，将两者数量比例作为关键词分布特征。

其中，在本发明实施例中，利用词向量方法计算文本相似度特征包括：基于该关键词和近义，计算考生答案的TF-IDF矢量特征，再利用浅层语义分析模型提取语义特征矢量，使用该语义特征计算考生的答题文本相似度特征矢量；使用考题信息以及考生答题音频文件，建立word2vec模型，得到考题和考生答案的词向量，通过计算词向量间的距离，得到考生答题的文本相似度特征。

103、对该考生答题文本序列进行词性标注，生成答题文本的语法树，根据该语法树特征，提取考生的语法特征；

在本发明实施例中，可以利用词性标注方法，使用基于概率的上下文无关语法方法，生成答案文本的语法树，根据语法树的形状大小等特征，提取出用于检测答案的语法特征。

104、根据该考生的语义特征、该考生的语法特征以及考题信息，检测该考生的答题是否偏离考题范围。

在本发明实施例中，利用多元线性回归方法，根据该考生的语义特征、该考生的语法特征以及考题信息，计算考生的答题范围；当计算的考生答题范围大于预设值时，认为考生的答题偏离考题范围；当计算的考生答题范围小于预设值时，认为考生的答题未偏离考题范围。

本发明实施例提供的方法，通过通过提取考生答题音频文件的语义特征和语法特征，并以这些特征为基础客观地检测考生答案是否偏离考题范围，为口语考试的评分提供有力的帮助，提高了口语考试的公平性和准确性。

图2是本发明实施例提供的口语考试偏题检测装置的结构示意图。参见图2，该装置包括文本序列识别模块21、语义特征提取模块22、语法特征提取模块23和偏题判断模块24。其中，

文本序列识别模块21用于根据考生的答题音频文件和对应考题信息，识别出考生的答题文本序列；文本序列识别模块21与语义特征提取模块22连接，语义特征提取模块22用于通过对该考生答题文本序列进行语义分析，提取考生的语义特征；文本序列识别模块21与语法特征提取模块23连接，语法特征提取模块23用于该考生答题文本序列进行词性标注，生成答题文本的语法树，根据该语法树特征，提取考生的语法特征；语义特征提取模块22和语法特征提取模块23与偏题判断模块24连接，偏题判断模块24用于根据该考生的语义特征、该考生的语法特征以及考题信息，检测该考生的答题是否偏离考题范围。

可选地，该文本序列识别模块21用于根据考生的答题音频文件和对应考题信息，获取考生的语言特征，并通过语言解析生成关键词库和同义词库；根据该考生的语言特征，利用预设语言模型和声学模型，识别出考生的答题文本序列。

可选地，该语义特征提取模块22用于对该考生的答题文本序列进行语义分析，提取考生的语义特征，该考生的语义特征至少包括：基于该关键词库和该同义词库计算的考生的答题文本的关键词分布特征，以及利用词向量装置计算的文本相似度特征；基于该关键词库和该同义词库计算考生的答题文本的关键词分布特征包括：基于该关键词库和该同义词库，根据向量空间模型，计算关键词向量；基于该关键词库和该同义词库，结合该考生的答题文本系列，将两者数量比例作为关键词分布特征；利用词向量装置计算文本相似度特征包括：基于该关键词和近义，计算考生答案的TF-IDF矢量特征，再利用浅层语义分析模型提取语义特征矢量，使用该语义特征计算考生的答题文本相似度特征矢量；

可选地，该偏题判断模块24用于利用多元线性回归装置，根据该考生的语义特征、该考生的语法特征以及考题信息，计算考生的答题范围；当计算的考生答题范围大于预设值时，认为考生的答题偏离考题范围；当计算的考生答题范围小于预设值时，认为考生的答题未偏离考题范围。

本发明实施例提供的装置，通过提取考生答题音频文件的语义特征和语法特征，并以这些特征为基础客观地检测考生答案是否偏离考题范围，为口语考试的评分提供有力的帮助，提高了口语考试的公平性和准确性。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种口语考试偏题检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据考生的答题音频文件和对应考题信息，识别出考生的答题文本序列包括：

3.根据权利要求1所述的方法，其特征在于，通过对所述考生答题文本序列进行语义分析，提取考生的语义特征包括：

4.根据权利要求3所述的方法，其特征在于，基于所述关键词库和所述同义词库计算考生的答题文本的关键词分布特征包括：

5.根据权利要求3所述的方法，其特征在于，利用词向量方法计算文本相似度特征包括：

6.根据权利要求1所述的方法，其特征在于，根据所述考生的语义特征、所述考生的语法特征以及考题信息，检测所述考生的答题是否偏离考题范围包括：

7.一种口语考试偏题检测装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述文本序列识别模块用于根据考生的答题音频文件和对应考题信息，获取考生的语言特征，并通过语言解析生成关键词库和同义词库；根据所述考生的语言特征，利用预设语言模型和声学模型，识别出考生的答题文本序列。

9.根据权利要求7所述的装置，其特征在于，所述语义特征提取模块用于对所述考生的答题文本序列进行语义分析，提取考生的语义特征，所述考生的语义特征至少包括：基于所述关键词库和所述同义词库计算的考生的答题文本的关键词分布特征，以及利用词向量装置计算的文本相似度特征；基于所述关键词库和所述同义词库计算考生的答题文本的关键词分布特征包括：基于所述关键词库和所述同义词库，根据向量空间模型，计算关键词向量；基于所述关键词库和所述同义词库，结合所述考生的答题文本系列，将两者数量比例作为关键词分布特征；利用词向量装置计算文本相似度特征包括：基于所述关键词和近义，计算考生答案的TF-IDF矢量特征，再利用浅层语义分析模型提取语义特征矢量，使用所述语义特征计算考生的答题文本相似度特征矢量；使用考题信息以及考生答题音频文件，建立word2vec模型，得到考题和考生答案的词向量，通过计算词向量间的距离，得到考生答题的文本相似度特征。

10.根据权利要求7所述的装置，其特征在于，所述偏题判断模块用于利用多元线性回归装置，根据所述考生的语义特征、所述考生的语法特征以及考题信息，计算考生的答题范围；当计算的考生答题范围大于预设值时，认为考生的答题偏离考题范围；当计算的考生答题范围小于预设值时，认为考生的答题未偏离考题范围。