CN112307742A

CN112307742A - 会话式人机交互口语测评方法、装置及存储介质

Info

Publication number: CN112307742A
Application number: CN202011101041.1A
Authority: CN
Inventors: 王鑫; 许昭慧
Original assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Current assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2021-02-02
Anticipated expiration: 2039-08-23
Also published as: CN112232083A; CN110489756B; CN110489756A; CN112307742B

Abstract

本申请涉及一种会话式人机交互口语测评方法、装置及存储介质，是一种基于人机对话、语音测评相关技术，应用于口语测评以场景驱动的任务导向型对话***。本申请的测评***具备三个主要特征：会话式、场景驱动、和任务导向。通过与用户的自然语言交流沟通的任务导向型对话***，可以了解学生用户实际运用语言的能力和综合运用英语进行交际的能力，对学生用户的口语学习及教师进行口语教学起到反拨效应。

Description

会话式人机交互口语测评方法、装置及存储介质

技术领域

本申请涉及人机交互技术领域，尤其涉及一种会话式人机交互口语测评***。

背景技术

口语测试主要有两种类型：面试和录音口试。面试的效度较高，但组织起来耗时耗力，在大规模口语考试中，采用人机交互的方式，考生只需通过计算机和耳麦设备完成对听力与口语试题的作答与全自动智能评分，可从句子韵律性、完整性、准确性等多维度进行评判，并能生成卷面答题评测报告。

在线语培产品中，采用语音识别技术和语音评测技术也已相当普遍，通过“听原音—跟读/复述—***评分—多色彩视觉反馈—调整”的方式，对比学生用户的发音与机器的发音进行评分，学生在反复的练习下，达到英语听力与发音提高的目的。

发明内容

发明人经过长期的观察和研究发现，英语口语不同于其他课程，它不是以传授知识为主要目的，英语是知识、文化的载体，学生用户需要使用语言表达思想，与人进行交流，才能达到真正培养的目的。培养学生实际运用语言的能力和提高综合运用英语进行交际的能力，已成为英语口语主要的教学任务。考试和测评应该服务于教学，然而，应用于人机交互的英语测评技术还存在以下不足之处：

一、通过预录的语音考题考察学生口语水平，形式死板单一，不仅题目都是事先规定好的，而且考试的内容是指令式的，学生是被动的接受考题和评分，应试型口语考试通常都是学生说、考官听，然后打一个分数给学生，远远不能全面的反应教与学的状况。而面试中，考官与考生之间的情绪相互影响也会对评测的结果产生干扰。

二、传统课堂或在线口语测评，是应试型考试的终结性评量，是试题驱动的测评体验，通过一次性的期末考试判定学生一学期的学习结果，或者通过学期开始前的诊断测试，决定学生学习时所在的课程级别，然后学生再逐一往上升级。

三、学***，更产生不了对口语英语学习的启发作用。

有鉴于现有技术的上述缺陷，本申请提供一种会话式人机交互口语测评***，是一种基于人机对话、语音测评相关技术，应用于口语测评以场景驱动的任务导向型对话***。本申请的测评***具备三个主要特征：会话式、场景驱动、和任务导向。通过与用户的自然语言交流沟通的任务导向型对话***，可以了解学生用户实际运用语言的能力和综合运用英语进行交际的能力，对学生用户的口语学习及教师进行口语教学起到反拨效应。

本申请提供一种会话式人机交互口语测评***，包括对话***，对话***包括：语音识别模块，语音识别模块被配置为能够识别用户的语音输入并转换成文本；意图理解模块，意图理解模块被配置为能够对转换后的文本进行语义理解，以识别用户意图；对话管理模块，对话管理模块被配置为能够基于意图理解模块的理解结果产生相应的***动作；语言生成模块，语言生成模块被配置为能够将对话管理模块产生的***动作转化为自然语言；以及语言合成模块，语言合成模块被配置为能够将自然语言转换成语音，并反馈给用户。

在一些实施例中，可选的，意图理解模块进一步被配置为能够进行槽位填充，其中，槽位是在对话过程中将用户意图转化为明确的用户指令所需要补全的信息。

在一些实施例中，可选的，意图理解模块进一步被配置为能够根据用户画像和/或场景化信息进行用户意图理解。

在一些实施例中，可选的，对话管理模块还包括对话状态跟踪模块，对话状态跟踪模块被配置为能够表示对话所处的阶段，并融合对话过程的上下文信息。

在一些实施例中，可选的，对话管理模块还包括对话策略学习模块，对话策略学习模块被配置为能够根据当前的对话状态，生成***的下一步操作。

在一些实施例中，可选的，还包括测评***，测评***包括：情景对话语音和语义评测模块，情景对话语音和语义评测模块被配置为能够根据语音和语义的标准内容，对用户语音转换成的文本进行相似度对比，并得到语音测评得分和语义测评得分；语法评测和错误检查模块，语法评测和错误检查模块被配置为能够对用户语音转换成的文本进行语法检查，并得到语法测评得分；以及易混音评测模块，易混音评测模块被配置为能够对用户语音转换成的文本标示出易混音的错误，以进行易混音的测评。

在一些实施例中，可选的，对话管理模块进一步被配置为能够根据测评***的测评结果产生相应的***动作。

在一些实施例中，可选的，当用户语音和标准语音音素的相似度越高，语音测评得分越高；以及当用户表达的内容和对比参***的相似度越高，语义测评得分越高。

在一些实施例中，可选的，语法评测和错误检查模块进一步被配置为能够考察句子中的逻辑关系，逻辑关系包括以下一种或多种关系：主谓搭配、时态表达、句法结构、单复数。

在一些实施例中，可选的，会话式人机交互口语测评***是基于单机和/或在线配置的计算机***，以开展语言类内容的测评。

与现有技术相比，本申请的有益效果至少在于：

第一、本申请是一种会话型人机交互的口语测评***，通过人机对话提供大量的跟不同虚拟人的交际机会，创设交际场景，通过反复的交流实践，能对学生用户的学***时学习和使用口语的热情。再者，会话型人机交互的口语测评***也能避免人类考官与考生之间的情绪相互影响。

第二、本申请是一种场景驱动的口语测评***，是在一个有意义、且能够反映出所教授的内容，同时能体现出学***和表现。

第三、本申请是一种任务导向的口语测评***，任务型口头交际活动重意思的表达，而非语言的规范形式，容易使学生用户体验到成功，体验到成就感，从而激发内在的学习兴趣和愿望，有更好的表现，交际型英语口语强调为学生用户提供亲身体验的机会，从参与真实自然和有交际意义的活动，去寻找知识、发现问题，建构自己的交流模式、概念和策略，通过完成任务达到传递信息、表达思想的学习目的。

以下将结合附图对本申请的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本申请的目的、特征和效果。

附图说明

当结合附图阅读以下详细说明时，本申请将变得更易于理解，在整个附图中，相同的附图标记代表相同的零件，其中：

图1为本申请中一个实施例的功能模块结构示意图。

图2为本申请中一个实施例的程序模块结构示意图。

具体实施方式

下面将对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部实施例。本申请可以通过许多不同形式的实施例来得以体现，本申请的保护范围并非仅限于文中提到的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本申请保护的范围。

本申请中所使用的诸如“第一”和“第二”等序数词仅仅用于区分和标识，而不具有任何其他含义，如未特别指明则不表示特定的顺序，也不具有特定的关联性。例如，术语“第一部件”本身并不暗示“第二部件”的存在，术语“第二部件”本身也不暗示“第一部件”的存在。

图1为本申请中一个实施例的功能模块结构示意图。如图1所示，会话式人机交互口语测评***可以基于单机和/或在线配置的计算机***，以开展语言类内容的测评，包括对话***和测评***。

对话***包括语音识别模块、意图理解模块、对话管理模块、语言生成模块和语言合成模块。语音识别模块能够识别用户的语音输入并转换成文本；意图理解模块能够对转换后的文本进行语义理解，以识别用户意图；对话管理模块能够基于意图理解模块的理解结果产生相应的***动作；语言生成模块能够将对话管理模块产生的***动作转化为自然语言；语言合成模块能够将自然语言转换成语音，并反馈给用户。

在一些实施例中，语音识别模块负责识别学生用户的语音输入并转换成文本；意图理解模块负责对学生用户语音转换成的文本进行语义理解，包括用户意图识别和槽位填充，其中槽位是在对话过程中将用户意图转化为明确的用户指令所需要补全的信息；对话管理模块负责整体对话的管理，包括对话状态跟踪和对话策略学习；语言生成模块负责把对话策略模块选择的***动作转化为自然语言；语言合成模块负责把文本转换成语音，最终反馈给学生用户。意图理解模块还能够根据用户画像和/或场景化信息进行用户意图理解。

意图可视为基于文本的多分类问题，即根据用户表述确定对应的类别，意图可以理解为某个应用的功能或流程，主要满足用户的请求和目的，当学生用户表述My name isCarol，或者表述This is Carol.都可能触发自我介绍的意图。槽位是多轮对话过程中将初步用户意图转化为明确用户指令所需要补全的信息，一个槽位与一件事情的处理中所需要获取的一种信息相对应，在学生用户表述My name is Carol中，Carol代表姓名的槽位，意图理解模块除了语音输入之外，同时考虑用户画像和场景化信息，更全面的语境可提高意图理解的准确度。

用户画像可以包括：学生用户的姓名、年级、所在地、口语水平维度，如：音准度、完整度、流利度等以及行为特征、性格爱好等。每一轮的对话会实时更新用户画像，并在下一轮的对话中影响语境信息，和上下文信息结合，达到虚拟人有记忆的功能，随着对话的频次增加，***对学生用户也有更多的了解，虚拟人给予学生用户的反应也会更加流畅。

对话管理模块还可以包括对话状态跟踪模块和/或对话策略学习模块。对话状态跟踪模块能够表示对话所处的阶段，并融合对话过程的上下文信息。对话策略学习模块能够根据当前的对话状态，生成***的下一步操作。在一些实施例中，对话状态跟踪模块用于对当前对话状态信息的表征，是对话***内部对当前整个对话所处阶段的表示，融合了对话过程的上下文信息；对话策略学习模块用于根据当前的对话状态，生成***的下一步操作。

测评***可以包括情景对话语音和语义评测模块、语法评测和错误检查模块、易混音评测模块。情景对话语音和语义评测模块能够根据语音和语义的标准内容，对用户语音转换成的文本进行相似度对比，并得到语音测评得分和语义测评得分；语法评测和错误检查模块能够对用户语音转换成的文本进行语法检查，并得到语法测评得分；易混音评测模块能够对用户语音转换成的文本标示出易混音的错误，以进行易混音的测评。

在一些实施例中，在测评***中可以包括情景对话的语音和语义评测、语法评测和错误检查和易混音评测三个模块，情景对话的语音和语义评测模块负责对学生用户语音转换成的文本针对语音和语义的标准内容做相似度的对比，当用户语音和标准语音音素的相似度越高，语音测评得分越高，当用户表达的内容和对比参***的相似度越高，语义测评得分越高。语法评测和错误检查负责对学生用户语音转换成的文本针对语法的错误评分并指出错误，主要考察句子中的逻辑关系，包括单复数、主谓搭配、时态表达、句法结构的使用等，语法的错误越少，测评得分越高。易混音评测模块负责对学生用户语音转换成的文本标示出易混音的错误，实现易混音的测评，需要在语音识别模块中用中国学生常犯错误纳入模型的训练语料中，避免语音识别模块主动纠正错误。

对话管理模块能够根据测评***的测评结果产生相应的***动作。在一些实施例中，测评***三个模块的测评结果会进入对话***的对话管理模块，对话管理模块得到测评***对用户语音的测评结果后，可以结合测评目标和策略回应。

图2为本申请中一个实施例的程序模块结构示意图。如图2所示，***先取出第一个考点，考点会对应一个场景内需完成的任务，学生用户在前端界面上看到任务的说明。

在一些实施例中，会话式人机交互口语测评***中：所述任务的说明，对学生用户而言，是有会话背景和场景信息的，学生用户是去完成一个真实自然和有交际意义的任务型活动，当前端***是虚拟现实时，学生用户还能从丰富的三维信息中获得和现实与人对话一般的体验。

通过采用这种技术方案：***根据语境的信息开始进行对话，根据不同考点的需要，用户和***都可能开始提问或者发问，当学生用户的语音通过语音识别转换成文本，并经过意图识别模块识别出意图后，该文本通过评测模块会得到语音、语义、语法和易混音多维度的得分和错误内容，这些新信息会更新到用户画像。

在一些实施例中，会话式人机交互口语测评***中，所述评测模块包括：情景对话的语音和语义评测、语法评测和错误检查、易混音评测。评测的目的除了测评完成后展示测评报告需要，还会用来作为虚拟人回应对话的信息，据此做到人类对话时，根据不同对话对象自动调整语言复杂度、语速或厘清理解的作用。

通过采用这种技术方案：学生用户的语音通过语音识别转换成文本后，该文本通过意图识别取得对话的意图，并且根据学生用户的表述提取槽位，由此理解学生用户的语音，并且决定下一个对话的内容，通过语言生成，让虚拟人说出来，整个过程循环多个考点后直到测评结束，生成测评报告。

在一些实施例中，上述会话式人机交互口语测评***中：所述测评报告包括：学生基本信息、口语水平过程的评测结果，并可以指出学生用户语音、语法错误所在，如语音不标准、语调不准确、常犯的语法错误等，进一步可以从学生用户的行为特征分析出综合运用语言的能力和使用的交际策略。

在一些实施例中，会话式人机交互口语测评***可以包括：对话***和测评***二大部分。实践中，作为一个示例，其工作过程如下：

***先取出第一个考点，考点会对应一个场景内需完成的任务，学生用户在前端界面上看到任务的说明，如：考点是通过英语表达来结识陌生人，***可以通过富文本或者虚拟现实展示合适的对话场景，学生用户看到了任务说明如下：认识新朋友，礼貌地问候，并询问对方的姓名和来自何处。

***根据语境的信息开始进行对话，该考点的设定是让用户开始提问，当学生用户说出“Hello,I'm Ray.What's your name？”，学生用户的语音通过语音识别转换成文本后，该文本通过意图识别取得对话的意图是打招呼，并且通过评测模块得到语音、语义、语法和易混音多维度的得分，并更新到用户画像中。

意图识别取得对话的意图是打招呼，并且根据学生用户的表述提取槽位，也就是提取出槽位为姓名，参数值是Ray，理解了学生用户的语音后，需要决定下一个对话的内容，通过语言生成，让虚拟人说出来，整个过程循环取出多个考点后直到测评结束，生成测评报告。

在有些实例中还包括：当***说Where do you come from？之后，学生用户回应了一个家乡小城市地名，超出了***可以理解的范围，***在对话状态跟踪模块根据当前整个对话所处阶段，融合了对话过程的上下文信息，在对话策略学习模块采用通用回应策略，***通过虚拟人回应Wow！That is a nice place！来保持会话得以继续进行。

在有些实例中还可以包括：当一个学生用户在一个搭飞机的场景中说“I want tomake a phone call.”***从场景化信息模块中得知搭飞机时用手机是不允许的行为时，并且在用户画像中得知学生用户的社会交往规范分值较低，在对话策略选择中会优先选择严肃规劝的回应。

在一些实施例中，上述的各种方法、流程、模块、装置、设备或***可以在一个或多个处理装置(例如，数字处理器、模拟处理器、被设计成用于处理信息的数字电路、被设计成用于处理信息的模拟电路、状态机、计算设备、计算机和/或用于以电子方式处理信息的其他机构)中被实现或执行。该一个或多个处理装置可以包括响应于以电子方式存储在电子存储介质上的指令来执行方法的一些或所有操作的一个或多个装置。该一个或多个处理装置可以包括通过硬件、固件和/或软件被配置而专门设计成用于执行方法的一项或多项操作的一个或多个装置。以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，根据本申请的技术方案及其发明构思加以等同替换或改变，都应涵盖在本申请的保护范围之内。

本申请的实施方式可以在硬件、固件、软件或其各种组合中进行。还可以作为存储在机器可读介质上的且可以使用一个或多个处理装置读取和执行的指令来实现本申请。在一个实施方式中，机器可读介质可以包括用于存储和/或传输呈机器(例如，计算装置)可读形式的信息的各种机构。例如，机器可读存储介质可以包括只读存储器、随机存取存储器、磁盘存储介质、光存储介质、快闪存储器装置以及用于存储信息的其他介质，并且机器可读传输介质可以包括多种形式的传播信号(包括载波、红外信号、数字信号)以及用于传输信息的其他介质。虽然在执行某些动作的特定示例性方面和实施方式的角度可以在以上公开内容中描述固件、软件、例程或指令，但将明显的是，这类描述仅出于方便目的并且这类动作实际上由机器设备、计算装置、处理装置、处理器、控制器、或执行固件、软件、例程或指令的其他装置或机器产生。

本说明书使用示例来公开本申请，其中的一个或多个示例被描述或者图示于说明书及其附图之中。每个示例都是为了解释本申请而提供，而不是为了限制本申请。事实上，对于本领域技术人员而言显而易见的是，不脱离本申请的范围或精神的情况下可以对本申请进行各种修改和变型。例如，作为一个实施例的一部分的图示的或描述的特征可以与另一个实施例一起使用，以得到更进一步的实施例。因此，其意图是本申请涵盖在所附权利要求书及其等同物的范围内进行的修改和变型。以上所述，仅为本申请的具体实施例，但本申请的保护范围并不局限于此，任何熟悉本领域技术的技术人员在本申请公开的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种会话式人机交互口语测评方法，其特征在于包括以下步骤：

识别学生用户的语音输入并转换成文本；

结合用户画像和场景化信息对转换后的文本进行语义理解，以识别所述学生用户在口语对话中的用户意图，所述用户画像包括用户的口语水平维度，所述场景化信息包括当前对话发生的虚拟场景；

基于理解结果产生相应的***动作，并将产生的***动作转化为自然语言；以及

将自然语言转换成语音，并反馈给所述学生用户；

对转换后的文本进行多维度的测评，并根据测评结果更新所述用户画像；以及

基于所述测评结果和所述理解结果，结合测评目标和对话策略而使得虚拟人对所述学生用户进行相应的语音回应以保持会话继续进行；

其中，当所述学生用户的回应超出了能够理解的范围时，根据当前整个对话所处阶段并融合对话过程的上下文信息表征当前对话状态，并根据所述当前对话状态采用通用回应策略并通过虚拟人回应通用语句来保持会话继续进行。

2.根据前述权利要求中任一项所述的方法，其特征在于：

进行槽位填充，通过用户表述提取槽位以理解用户语音并决定下一个对话的内容，其中，所述槽位是在对话过程中将所述用户意图转化为明确的用户指令所需要补全的信息。

3.根据前述权利要求中任一项所述的方法，其特征在于：

表示对话所处的阶段，并融合对话过程的上下文信息。

4.根据前述权利要求中任一项所述的方法，其特征在于：

根据当前的对话状态，生成***的下一步操作。

5.根据前述权利要求中任一项所述的方法，其特征在于：

根据语音和语义的标准内容，对用户语音转换成的文本进行相似度对比，并得到语音测评得分和语义测评得分；

对用户语音转换成的文本进行语法检查，并得到语法测评得分；以及

对用户语音转换成的文本标示出易混音的错误，以进行易混音的测评。

6.根据前述权利要求中任一项所述的方法，其特征在于：

根据所述测评结果产生相应的***动作。

7.根据前述权利要求中任一项所述的方法，其特征在于：

当用户语音和标准语音音素的相似度越高，所述语音测评得分越高；以及

当用户表达的内容和对比参***的相似度越高，所述语义测评得分越高。

8.根据前述权利要求中任一项所述的方法，其特征在于：

考察句子中的逻辑关系，所述逻辑关系包括以下一种或多种关系：主谓搭配、时态表达、句法结构、单复数。

9.一种会话式人机交互口语测评装置，包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序，其特征在于，所述处理器被配置为能够在执行所述计算机程序时实现根据权利要求1-8中任一项所述的会话式人机交互口语测评方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时能够实现根据权利要求1-8中任一项所述的会话式人机交互口语测评方法的步骤。