CN104572617A - 一种口语考试偏题检测方法及装置 - Google Patents

一种口语考试偏题检测方法及装置 Download PDF

Info

Publication number
CN104572617A
CN104572617A CN201410841199.0A CN201410841199A CN104572617A CN 104572617 A CN104572617 A CN 104572617A CN 201410841199 A CN201410841199 A CN 201410841199A CN 104572617 A CN104572617 A CN 104572617A
Authority
CN
China
Prior art keywords
examinee
answer
feature
semantic
semantic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410841199.0A
Other languages
English (en)
Inventor
杨嵩
王欢良
代大明
袁军峰
惠寅华
林远东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Chisheng Information Technology Co Ltd
Original Assignee
Suzhou Chisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Chisheng Information Technology Co Ltd filed Critical Suzhou Chisheng Information Technology Co Ltd
Priority to CN201410841199.0A priority Critical patent/CN104572617A/zh
Publication of CN104572617A publication Critical patent/CN104572617A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种口语考试偏题检测方法及装置,属于语音数据处理技术领域。该方法包括:根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列;通过对该考生答题文本序列进行语义分析,提取考生的语义特征;对该考生答题文本序列进行词性标注,生成答题文本的语法树,根据该语法树特征,提取考生的语法特征;根据该考生的语义特征、该考生的语法特征以及考题信息,检测该考生的答题是否偏离考题范围。本发明通过提取考生答题音频文件的语义特征和语法特征,并以这些特征为基础客观地检测考生答案是否偏离考题范围,为口语考试的评分提供有力的帮助,提高了口语考试的公平性和准确性。

Description

一种口语考试偏题检测方法及装置
技术领域
本发明涉及语音数据处理技术领域,特别涉及一种口语考试偏题检测方法及装置。
背景技术
近年来随着社会经济的不断发展和全球化趋势的加剧,人们对语言学习的热情达到了前所未有的高度。相应的作为检测教学质量、检验学习效果的语言评测对评估客观性、公正性以及规模化测试的评估效率也提出了越来越高的要求。
现有的计算机自动评分技术更多关注的是考试的语音学方面的相关特征,这样一来,考生在回答问题时只需要发音流利清晰,评分***都会给出一定的分数。,会有一些能力较差考生提前熟练背诵一些常用的文本,也能从***中得到一个分数,导致口语考试评分的公平性受到严重影响。
发明内容
为了解决上述问题,本发明实施例提供了一种口语考试偏题检测方法及装置。所述技术方案如下:
一方面,提供了一种口语考试偏题检测方法,所述方法包括:
根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列;
通过对所述考生答题文本序列进行语义分析,提取考生的语义特征;
对所述考生答题文本序列进行词性标注,生成答题文本的语法树,根据所述语法树特征,提取考生的语法特征;
根据所述考生的语义特征、所述考生的语法特征以及考题信息,检测所述考生的答题是否偏离考题范围。
可选地,根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列包括:
根据考生的答题音频文件和对应考题信息,获取考生的语言特征,并通过语言解析生成关键词库和同义词库;
根据所述考生的语言特征,利用预设语言模型和声学模型,识别出考生的答题文本序列。
可选地,通过对所述考生答题文本序列进行语义分析,提取考生的语义特征包括:
对所述考生的答题文本序列进行语义分析,提取考生的语义特征,所述考生的语义特征至少包括:基于所述关键词库和所述同义词库计算的考生的答题文本的关键词分布特征,以及利用词向量方法计算的文本相似度特征。
可选地,基于所述关键词库和所述同义词库计算考生的答题文本的关键词分布特征包括:
基于所述关键词库和所述同义词库,根据向量空间模型,计算关键词向量;
基于所述关键词库和所述同义词库,结合所述考生的答题文本系列,将两者数量比例作为关键词分布特征。
可选地,利用词向量方法计算文本相似度特征包括:
基于所述关键词和近义,计算考生答案的TF-IDF矢量特征,再利用浅层语义分析模型提取语义特征矢量,使用所述语义特征计算考生的答题文本相似度特征矢量;
使用考题信息以及考生答题音频文件,建立word2vec模型,得到考题和考生答案的词向量,通过计算词向量间的距离,得到考生答题的文本相似度特征。
可选地,根据所述考生的语义特征、所述考生的语法特征以及考题信息,检测所述考生的答题是否偏离考题范围包括:
利用多元线性回归方法,根据所述考生的语义特征、所述考生的语法特征以及考题信息,计算考生的答题范围;当计算的考生答题范围大于预设值时,认为考生的答题偏离考题范围;当计算的考生答题范围小于预设值时,认为考生的答题未偏离考题范围。
另一方面,提供了一种口语考试偏题检测装置,所述装置包括:
文本序列识别模块,用于根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列;
语义特征提取模块,用于通过对所述考生答题文本序列进行语义分析,提取考生的语义特征;
语法特征提取模块,用于所述考生答题文本序列进行词性标注,生成答题文本的语法树,根据所述语法树特征,提取考生的语法特征;
偏题判断模块,用于根据所述考生的语义特征、所述考生的语法特征以及考题信息,检测所述考生的答题是否偏离考题范围。
可选地,所述文本序列识别模块用于根据考生的答题音频文件和对应考题信息,获取考生的语言特征,并通过语言解析生成关键词库和同义词库;根据所述考生的语言特征,利用预设语言模型和声学模型,识别出考生的答题文本序列。
可选地,所述语义特征提取模块用于对所述考生的答题文本序列进行语义分析,提取考生的语义特征,所述考生的语义特征至少包括:基于所述关键词库和所述同义词库计算的考生的答题文本的关键词分布特征,以及利用词向量装置计算的文本相似度特征;基于所述关键词库和所述同义词库计算考生的答题文本的关键词分布特征包括:基于所述关键词库和所述同义词库,根据向量空间模型,计算关键词向量;基于所述关键词库和所述同义词库,结合所述考生的答题文本系列,将两者数量比例作为关键词分布特征;利用词向量装置计算文本相似度特征包括:基于所述关键词和近义,计算考生答案的TF-IDF矢量特征,再利用浅层语义分析模型提取语义特征矢量,使用所述语义特征计算考生的答题文本相似度特征矢量;使用考题信息以及考生答题音频文件,建立word2vec模型,得到考题和考生答案的词向量,通过计算词向量间的距离,得到考生答题的文本相似度特征。
可选地,所述偏题判断模块用于利用多元线性回归装置,根据所述考生的语义特征、所述考生的语法特征以及考题信息,计算考生的答题范围;当计算的考生答题范围大于预设值时,认为考生的答题偏离考题范围;当计算的考生答题范围小于预设值时,认为考生的答题未偏离考题范围。
本发明实施例提供的技术方案带来的有益效果是:
通过提取考生答题音频文件的语义特征和语法特征,并以这些特征为基础客观地检测考生答案是否偏离考题范围,为口语考试的评分提供有力的帮助,提高了口语考试的公平性和准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的口语考试偏题检测方法流程图;
图2是本发明实施例提供的口语考试偏题检测装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的口语考试偏题检测方法的流程图。参见图1,该方法包括:
101、根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列;
其中,该考生的答题文本序列可以包括词级序列和音素级序列等。
在本发明实施例中,根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列包括:根据考生的答题音频文件和对应考题信息,获取考生的语言特征,并通过语言解析生成关键词库和同义词库;根据该考生的语言特征,利用预设语言模型和声学模型,识别出考生的答题文本序列。
102、通过对该考生答题文本序列进行语义分析,提取考生的语义特征;
在本发明实施例中,通过对该考生答题文本序列进行语义分析,提取考生的语义特征包括:对该考生的答题文本序列进行语义分析,提取考生的语义特征,该考生的语义特征至少包括:基于该关键词库和该同义词库计算的考生的答题文本的关键词分布特征,以及利用词向量方法计算的文本相似度特征。
其中,在本发明实施例中,基于该关键词库和该同义词库计算考生的答题文本的关键词分布特征包括:基于该关键词库和该同义词库,根据向量空间模型,计算关键词向量;基于该关键词库和该同义词库,结合该考生的答题文本系列,将两者数量比例作为关键词分布特征。
其中,在本发明实施例中,利用词向量方法计算文本相似度特征包括:基于该关键词和近义,计算考生答案的TF-IDF矢量特征,再利用浅层语义分析模型提取语义特征矢量,使用该语义特征计算考生的答题文本相似度特征矢量;使用考题信息以及考生答题音频文件,建立word2vec模型,得到考题和考生答案的词向量,通过计算词向量间的距离,得到考生答题的文本相似度特征。
103、对该考生答题文本序列进行词性标注,生成答题文本的语法树,根据该语法树特征,提取考生的语法特征;
在本发明实施例中,可以利用词性标注方法,使用基于概率的上下文无关语法方法,生成答案文本的语法树,根据语法树的形状大小等特征,提取出用于检测答案的语法特征。
104、根据该考生的语义特征、该考生的语法特征以及考题信息,检测该考生的答题是否偏离考题范围。
在本发明实施例中,利用多元线性回归方法,根据该考生的语义特征、该考生的语法特征以及考题信息,计算考生的答题范围;当计算的考生答题范围大于预设值时,认为考生的答题偏离考题范围;当计算的考生答题范围小于预设值时,认为考生的答题未偏离考题范围。
本发明实施例提供的方法,通过通过提取考生答题音频文件的语义特征和语法特征,并以这些特征为基础客观地检测考生答案是否偏离考题范围,为口语考试的评分提供有力的帮助,提高了口语考试的公平性和准确性。
图2是本发明实施例提供的口语考试偏题检测装置的结构示意图。参见图2,该装置包括文本序列识别模块21、语义特征提取模块22、语法特征提取模块23和偏题判断模块24。其中,
文本序列识别模块21用于根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列;文本序列识别模块21与语义特征提取模块22连接,语义特征提取模块22用于通过对该考生答题文本序列进行语义分析,提取考生的语义特征;文本序列识别模块21与语法特征提取模块23连接,语法特征提取模块23用于该考生答题文本序列进行词性标注,生成答题文本的语法树,根据该语法树特征,提取考生的语法特征;语义特征提取模块22和语法特征提取模块23与偏题判断模块24连接,偏题判断模块24用于根据该考生的语义特征、该考生的语法特征以及考题信息,检测该考生的答题是否偏离考题范围。
可选地,该文本序列识别模块21用于根据考生的答题音频文件和对应考题信息,获取考生的语言特征,并通过语言解析生成关键词库和同义词库;根据该考生的语言特征,利用预设语言模型和声学模型,识别出考生的答题文本序列。
可选地,该语义特征提取模块22用于对该考生的答题文本序列进行语义分析,提取考生的语义特征,该考生的语义特征至少包括:基于该关键词库和该同义词库计算的考生的答题文本的关键词分布特征,以及利用词向量装置计算的文本相似度特征;基于该关键词库和该同义词库计算考生的答题文本的关键词分布特征包括:基于该关键词库和该同义词库,根据向量空间模型,计算关键词向量;基于该关键词库和该同义词库,结合该考生的答题文本系列,将两者数量比例作为关键词分布特征;利用词向量装置计算文本相似度特征包括:基于该关键词和近义,计算考生答案的TF-IDF矢量特征,再利用浅层语义分析模型提取语义特征矢量,使用该语义特征计算考生的答题文本相似度特征矢量;
使用考题信息以及考生答题音频文件,建立word2vec模型,得到考题和考生答案的词向量,通过计算词向量间的距离,得到考生答题的文本相似度特征。
可选地,该偏题判断模块24用于利用多元线性回归装置,根据该考生的语义特征、该考生的语法特征以及考题信息,计算考生的答题范围;当计算的考生答题范围大于预设值时,认为考生的答题偏离考题范围;当计算的考生答题范围小于预设值时,认为考生的答题未偏离考题范围。
本发明实施例提供的装置,通过提取考生答题音频文件的语义特征和语法特征,并以这些特征为基础客观地检测考生答案是否偏离考题范围,为口语考试的评分提供有力的帮助,提高了口语考试的公平性和准确性。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种口语考试偏题检测方法,其特征在于,所述方法包括:
根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列;
通过对所述考生答题文本序列进行语义分析,提取考生的语义特征;
对所述考生答题文本序列进行词性标注,生成答题文本的语法树,根据所述语法树特征,提取考生的语法特征;
根据所述考生的语义特征、所述考生的语法特征以及考题信息,检测所述考生的答题是否偏离考题范围。
2.根据权利要求1所述的方法,其特征在于,根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列包括:
根据考生的答题音频文件和对应考题信息,获取考生的语言特征,并通过语言解析生成关键词库和同义词库;
根据所述考生的语言特征,利用预设语言模型和声学模型,识别出考生的答题文本序列。
3.根据权利要求1所述的方法,其特征在于,通过对所述考生答题文本序列进行语义分析,提取考生的语义特征包括:
对所述考生的答题文本序列进行语义分析,提取考生的语义特征,所述考生的语义特征至少包括:基于所述关键词库和所述同义词库计算的考生的答题文本的关键词分布特征,以及利用词向量方法计算的文本相似度特征。
4.根据权利要求3所述的方法,其特征在于,基于所述关键词库和所述同义词库计算考生的答题文本的关键词分布特征包括:
基于所述关键词库和所述同义词库,根据向量空间模型,计算关键词向量;
基于所述关键词库和所述同义词库,结合所述考生的答题文本系列,将两者数量比例作为关键词分布特征。
5.根据权利要求3所述的方法,其特征在于,利用词向量方法计算文本相似度特征包括:
基于所述关键词和近义,计算考生答案的TF-IDF矢量特征,再利用浅层语义分析模型提取语义特征矢量,使用所述语义特征计算考生的答题文本相似度特征矢量;
使用考题信息以及考生答题音频文件,建立word2vec模型,得到考题和考生答案的词向量,通过计算词向量间的距离,得到考生答题的文本相似度特征。
6.根据权利要求1所述的方法,其特征在于,根据所述考生的语义特征、所述考生的语法特征以及考题信息,检测所述考生的答题是否偏离考题范围包括:
利用多元线性回归方法,根据所述考生的语义特征、所述考生的语法特征以及考题信息,计算考生的答题范围;当计算的考生答题范围大于预设值时,认为考生的答题偏离考题范围;当计算的考生答题范围小于预设值时,认为考生的答题未偏离考题范围。
7.一种口语考试偏题检测装置,其特征在于,所述装置包括:
文本序列识别模块,用于根据考生的答题音频文件和对应考题信息,识别出考生的答题文本序列;
语义特征提取模块,用于通过对所述考生答题文本序列进行语义分析,提取考生的语义特征;
语法特征提取模块,用于所述考生答题文本序列进行词性标注,生成答题文本的语法树,根据所述语法树特征,提取考生的语法特征;
偏题判断模块,用于根据所述考生的语义特征、所述考生的语法特征以及考题信息,检测所述考生的答题是否偏离考题范围。
8.根据权利要求7所述的装置,其特征在于,所述文本序列识别模块用于根据考生的答题音频文件和对应考题信息,获取考生的语言特征,并通过语言解析生成关键词库和同义词库;根据所述考生的语言特征,利用预设语言模型和声学模型,识别出考生的答题文本序列。
9.根据权利要求7所述的装置,其特征在于,所述语义特征提取模块用于对所述考生的答题文本序列进行语义分析,提取考生的语义特征,所述考生的语义特征至少包括:基于所述关键词库和所述同义词库计算的考生的答题文本的关键词分布特征,以及利用词向量装置计算的文本相似度特征;基于所述关键词库和所述同义词库计算考生的答题文本的关键词分布特征包括:基于所述关键词库和所述同义词库,根据向量空间模型,计算关键词向量;基于所述关键词库和所述同义词库,结合所述考生的答题文本系列,将两者数量比例作为关键词分布特征;利用词向量装置计算文本相似度特征包括:基于所述关键词和近义,计算考生答案的TF-IDF矢量特征,再利用浅层语义分析模型提取语义特征矢量,使用所述语义特征计算考生的答题文本相似度特征矢量;使用考题信息以及考生答题音频文件,建立word2vec模型,得到考题和考生答案的词向量,通过计算词向量间的距离,得到考生答题的文本相似度特征。
10.根据权利要求7所述的装置,其特征在于,所述偏题判断模块用于利用多元线性回归装置,根据所述考生的语义特征、所述考生的语法特征以及考题信息,计算考生的答题范围;当计算的考生答题范围大于预设值时,认为考生的答题偏离考题范围;当计算的考生答题范围小于预设值时,认为考生的答题未偏离考题范围。
CN201410841199.0A 2014-12-30 2014-12-30 一种口语考试偏题检测方法及装置 Pending CN104572617A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410841199.0A CN104572617A (zh) 2014-12-30 2014-12-30 一种口语考试偏题检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410841199.0A CN104572617A (zh) 2014-12-30 2014-12-30 一种口语考试偏题检测方法及装置

Publications (1)

Publication Number Publication Date
CN104572617A true CN104572617A (zh) 2015-04-29

Family

ID=53088721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410841199.0A Pending CN104572617A (zh) 2014-12-30 2014-12-30 一种口语考试偏题检测方法及装置

Country Status (1)

Country Link
CN (1) CN104572617A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126613A (zh) * 2016-06-22 2016-11-16 苏州大学 一种跑题作文确定方法及装置
CN106294505A (zh) * 2015-06-10 2017-01-04 华中师范大学 一种反馈答案的方法和装置
CN107818795A (zh) * 2017-11-15 2018-03-20 苏州驰声信息科技有限公司 一种英语口语的测评方法及装置
CN108399061A (zh) * 2018-02-26 2018-08-14 浙江创课教育科技有限公司 语音播放速度的控制方法及***
CN110287396A (zh) * 2019-05-07 2019-09-27 清华大学 文本匹配方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831558A (zh) * 2012-07-20 2012-12-19 桂林电子科技大学 不依赖人工预评分的大学英语作文自动评分***及方法
CN103761975A (zh) * 2014-01-07 2014-04-30 苏州思必驰信息科技有限公司 一种口语评测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831558A (zh) * 2012-07-20 2012-12-19 桂林电子科技大学 不依赖人工预评分的大学英语作文自动评分***及方法
CN103761975A (zh) * 2014-01-07 2014-04-30 苏州思必驰信息科技有限公司 一种口语评测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
宋阳 等: "一种自发性口语评测文本语义相似度评分特征提取方法", 《集成技术》 *
李艳玲 等: "多特征融合的英语口语考试自动评分***的研究", 《电子与信息学报》 *
汪文棣 等: "英语口语机考评分***研究与实现", 《电子器件》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294505A (zh) * 2015-06-10 2017-01-04 华中师范大学 一种反馈答案的方法和装置
CN106294505B (zh) * 2015-06-10 2020-07-07 华中师范大学 一种反馈答案的方法和装置
CN106126613A (zh) * 2016-06-22 2016-11-16 苏州大学 一种跑题作文确定方法及装置
CN107818795A (zh) * 2017-11-15 2018-03-20 苏州驰声信息科技有限公司 一种英语口语的测评方法及装置
CN107818795B (zh) * 2017-11-15 2020-11-17 苏州驰声信息科技有限公司 一种英语口语的测评方法及装置
CN108399061A (zh) * 2018-02-26 2018-08-14 浙江创课教育科技有限公司 语音播放速度的控制方法及***
CN110287396A (zh) * 2019-05-07 2019-09-27 清华大学 文本匹配方法及装置
CN110287396B (zh) * 2019-05-07 2021-08-03 清华大学 文本匹配方法及装置

Similar Documents

Publication Publication Date Title
CN101727903B (zh) 基于多特征和多***融合的发音质量评估和错误检测方法
CN101751919B (zh) 一种汉语口语重音自动检测方法
US8990082B2 (en) Non-scorable response filters for speech scoring systems
US9514109B2 (en) Computer-implemented systems and methods for scoring of spoken responses based on part of speech patterns
CN102034475B (zh) 一种运用计算机对开放式短对话进行交互式评分的方法
US20150194147A1 (en) Non-Scorable Response Filters for Speech Scoring Systems
CN104572617A (zh) 一种口语考试偏题检测方法及装置
CN107305541A (zh) 语音识别文本分段方法及装置
US9087519B2 (en) Computer-implemented systems and methods for evaluating prosodic features of speech
CN105741831A (zh) 一种基于语法分析的口语评测方法和***
Snover et al. A lexically-driven algorithm for disfluency detection
CN103761975A (zh) 一种口语评测方法及装置
CN109192194A (zh) 语音数据标注方法、装置、计算机设备及存储介质
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及***
CN104464755A (zh) 语音评测方法和装置
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊***
CN109166569B (zh) 音素误标注的检测方法和装置
CN109614623A (zh) 一种基于句法分析的作文处理方法及***
CN109346108B (zh) 一种作业检查方法及***
CN111427996B (zh) 一种人机交互文本中抽取日期时间的方法和装置
CN113822052A (zh) 一种文本错误检测方法、装置、电子设备及存储介质
CN113205729A (zh) 一种面向外国留学生的演讲评测方法、装置及***
WO2019075827A1 (zh) 一种语音评价方法及装置
CN112116181B (zh) 课堂质量模型的训练方法、课堂质量评价方法及装置
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150429

RJ01 Rejection of invention patent application after publication