CN112951207B

CN112951207B - 口语评测方法、装置及相关产品

Info

Publication number: CN112951207B
Application number: CN202110185369.4A
Authority: CN
Inventors: 黄培松; 孙艳庆; 段亦涛
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2022-01-07
Anticipated expiration: 2041-02-10
Also published as: CN112951207A

Abstract

本发明的实施方式提供了一种由机器实施的口语评测方法。该口语评测方法包括：基于用户选择的会话场景，输出与会话场景相关的问题；接收用户的语音应答；对问题与应答进行语义相关性分析；以及基于语义相关性分析的结果，确定口语评测结果。根据本发明的口语评测方法，可以基于用户选择的会话场景来实施问答、会话式口语评测，由此可以考察用户口语的真实能力，并且机器评测可以降低人力成本，而且不受时间限制。此外，本发明的实施方式提供了一种实施口语评测的装置、设备和计算机可读存储介质。

Description

口语评测方法、装置及相关产品

技术领域

本发明的实施方式涉及数据处理技术领域，更具体地，本发明的实施方式涉及由机器实施的口语评测方法、实施口语评测的装置、设备和计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

目前的口语评测主要有两种类型：真人口语评测和跟读式机器口语评测。在真人口语评测中，例如可以采用真人外教口语评测程序(APP)，利用真人外教与用户的实时对话，对用户的口语水平进行打分。这种评测方式，真人外教与用户之间的对话内容相对自由。

在跟读式机器口语评测中，通常也是采用口语评测APP来实施。用户可以选择需要练习的口语场景，之后口语评测APP会针对该口语场景提供一些典型的口语练习句子，通过对用户跟读该句子的发音进行口语评测。

发明内容

然而，真人口语评测虽然对话内容自由，但是需要较多的人力财力，并且使用起来一般需要提前预约，时间受限。跟读式机器口语评测则只能测试用户的发音能力，无法真实地评测用户对于口语进行应用的能力。

因此，期望提供一种口语评测方法，既能减少人力投入，又能考察用户口语的真实能力。

在本上下文中，本发明的实施方式期望提供一种由机器实施的口语评测方法、实施口语评测的装置、用于实现口语评测的设备及计算机可读存储介质。

在本发明实施方式的第一方面中，提供了一种由机器实施的口语评测方法，包括：基于用户选择的会话场景，输出与所述会话场景相关的问题；接收用户的语音应答；对所述问题与所述应答进行语义相关性分析；以及基于所述语义相关性分析的结果，确定口语评测结果。

在本发明的一个实施例中，对所述问题与所述应答进行语义相关性分析包括：根据所述应答、所述问题以及所述会话场景下的历史会话信息，利用第一语义相关性机器模型，来确定所述应答与所述问题的相关性。

在本发明进一步的实施例中，所述第一语义相关性机器模型中显式地包含所述问题与所述应答所处的多轮会话的轮次信息。

在本发明的另一实施例中，确定口语评测结果包括：当所述语义相关性分析的结果表明相关时，利用第二语义相关性机器模型分别计算所述应答与多个候选应答的相似度；以及将相似度最高的候选应答对应的评测结果确定为当前轮次会话的口语评测结果。

在本发明进一步的实施例中，进一步包括：根据所述相似度最高的候选应答，确定所述会话场景中要输出的下一问题。

在本发明的又一实施例中，进一步包括：当结束所述会话场景的会话时，基于各轮次会话的口语评测结果确定总评测结果。

在本发明的再一实施例中，进一步包括：当所述语义相关性分析的结果表明不相关时，对所述应答进行分类；以及基于所述分类得到的类别来执行对应的操作。

在本发明的一些实施例中，所述类别包括以下一项或多项：跳过当前轮次会话、应答不合格；并且所述对应的操作包括：当类别为跳过当前轮次会话时，跳过当前轮次会话；和/或当类别为应答不合格时，向用户输出推荐信息。

在本发明的另一实施例中，向用户输出推荐信息包括：基于当前轮次会话的语义不相关次数，确定具有不同完整程度的推荐信息以及输出方式；以及按所述确定的输出方式输出所述推荐信息。

在本发明的又一实施例中，还包括：基于当前轮次会话的所述口语评测结果调整下一轮次会话的输出效果。

在本发明的再一实施例中，还包括：向用户展示以下一项或多项信息：所述口语评测结果；错误处的正确语音。

在本发明实施方式的第二方面中，提供了一种实施口语评测的装置，包括：人机交互接口，用于从用户接收输入以及向用户提供输出；以及处理器，用于：基于通过所述人机交互接口接收的用户选择的会话场景，通过所述人机交互接口输出与所述会话场景相关的问题；接收通过所述人机交互接口输入的用户的语音应答；对所述问题与所述应答进行语义相关性分析；以及基于所述语义相关性分析的结果，确定口语评测结果。

在本发明的一个实施例中，所述处理器进一步用于按如下对所述问题与所述应答进行语义相关性分析：根据所述应答、所述问题以及所述会话场景下的历史会话信息，利用第一语义相关性机器模型，来确定所述应答与所述问题的相关性。

在本发明的另一实施例中，所述处理器进一步用于按如下确定口语评测结果：当所述语义相关性分析的结果表明相关时，利用第二语义相关性机器模型分别计算所述应答与多个候选应答的相似度；以及将相似度最高的候选应答对应的评测结果确定为当前轮次会话的口语评测结果。

在本发明进一步的实施例中，所述处理器进一步用于：根据所述相似度最高的候选应答，确定所述会话场景中要输出的下一问题。

在本发明的又一实施例中，所述处理器进一步用于：当结束所述会话场景的会话时，基于各轮次会话的口语评测结果确定总评测结果。

在本发明的再一实施例中，所述处理器进一步用于：当所述语义相关性分析的结果表明不相关时，对所述应答进行分类；以及基于所述分类得到的类别来执行对应的操作。

在本发明的另一实施例中，所述处理器进一步用于按如下向用户输出推荐信息：基于当前轮次会话的语义不相关次数，确定具有不同完整程度的推荐信息以及输出方式；以及控制所述人机交互接口以按所述确定的输出方式输出所述推荐信息。

在本发明的又一实施例中，所述处理器进一步用于：基于当前轮次会话的所述口语评测结果调整下一轮次会话的输出效果。

在本发明的再一实施例中，所述人机交互接口进一步用于向用户展示以下一项或多项信息：所述口语评测结果；错误处的正确语音。

在本发明实施方式的第三方面中，提供了一种用于实现口语评测的设备，包括：处理器，其配置用于执行程序指令；以及存储器，其配置用于存储所述程序指令，当所述程序指令由所述处理器加载并执行时，使得所述装置执行根据本发明实施方式的第一方面任一实施例所述的方法。

在本发明实施方式的第四方面中，提供了一种计算机可读存储介质，其中存储有程序指令，当所述程序指令由处理器加载并执行时，使得所述处理器执行根据本发明实施方式的第一方面任一实施例所述的方法。

根据本发明实施方式的由机器实施的口语评测方法，可以基于用户选择的会话场景来实施问答、会话式口语评测，口语评测结果至少基于问题与应答之间的语义相关性来确定，由此可以考察用户口语的真实能力，并且机器评测可以降低人力成本，而且不受时间限制。

进一步地，在一些实施例中，在对问题与应答进行语义相关性分析的机器模型中，对问题与应答所处的多轮会话的轮次信息进行显式建模，由此可以更准确地分析二者之间的语义相关性，提高评测准确度。在一些实施例中，当语义相关性分析结果表明问题与应答相关时，才对应答进行更进一步的评测，由此可以提高评测的准确性和有效性。在一些实施例中，还可以根据应答与候选应答之间的相似度，来确定会话的下一问题，从而引导口语评测进程，由此更全面、完整地测试用户的口语能力。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性示出了适于实现本发明实施方式的示例性计算***100的框图；

图2示意性示出了根据本发明实施方式的由机器实施口语评测的方法流程图；

图3示意性示出了根据本发明实施方式的第一语义相关性机器模型的结构框图；

图4示意性示出了根据本发明实施方式的第二语义相关性机器模型的结构框图；

图5示意性示出了根据本发明实施方式的会话状态机；

图6示意性示出了根据本发明实施方式的一个会话状态机示例；

图7示意性示出了根据本发明实施方式的多轮会话的口语评测过程的流程图；以及

图8示意性示出了根据本发明实施方法的用于实施口语评测的装置的示意结构框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了适于实现本发明实施方式的示例性计算***100的框图。如图1所示，计算***100可以包括：中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、***总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中，与***总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

本领域技术人员知道，本发明的实施方式可以实现为一种***、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”或“***”等。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本发明实施例的方法的流程图和设备(或装置)的框图描述本发明的实施方式。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

根据本发明的实施方式，提出了一种由机器实施的口语评测方法、实施口语评测的装置、设备和计算机可读存储介质。

在本文中，需要理解的是，所涉及的术语包括如下：

TTS：Text to Speech，文本转语音，它让计算机模拟人声，根据储存于电脑中的文字合成出对应的音频。

ASR：Automatic Speech Recognition，自动语音识别技术，可以把语音转换成文字。

NLI：Natural Language Inference，自然语言推断，让机器去推断人类语言间的逻辑关系的研究。

CAPT：Computer Aided Pronunciation Training，机器辅助发音指导，可以让机器根据用户提供的文本和该文本的发音进行评价打分。

NLG：Natural Language Generation，自然语言生成，将由机器拆分好的结构化数据以人们能看懂的自然语句表达出来。

IR：Information Retrieval，信息检索。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，为了能够评测出用户的真实口语水平，需要尽可能呈现现实生活中的真实对话场景，而不是让用户跟读句子。因此，在本发明的实施方式中，提出了采用对话方式来评测用户的口语水平。另外，当用户年龄偏小时，例如幼儿或儿童，用户思维比较发散，不易控制用户与机器的会话进程，从而难以得到有效的评测结果。因此，在本发明的实施方式中，提供了用户选择会话场景，机器提问、用户回答的问答式对话方式，以便更好地控制会话进程，从而对期望的知识点进行全面考核，以准确评测用户的口语掌握水平。

进一步地，考虑到用户的应答可能偏离机器提出的问题，因此，在本发明的实施方式中，口语评测结果首先考虑问题与应答之间的语义相关性，从而实现对应答的快速筛选，以提高口语评测的有效性。在用户的应答与机器的提问具有语义相关性的情况下，再对应答进行更进一步的评测，由此可以提高评测的准确性。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

本发明实施方式的口语评测方法可以通过在机器上运行的应用程序来实施。这种应用程序例如可以是语言学习应用(APP)，特别是口语学习APP，语言的语种可以是现有的各种语言，包括但不限于英语、法语、德语、西班牙语、汉语、日语、韩语等。用户群体可以是成年人、青少年、幼儿等。通常，在这种语言学习APP中，在学习若干知识点之后，会进行口语评测，以确认学习效果。例如，在幼儿英语学习APP中，在学习一些句型之后，会提供一些使用到所学句式的情境对话，例如以四宫格或六宫格的形式展示，用户可以选择对话中的角色扮演，之后APP启动对话以进行对各知识点的考察，从而评测学习效果。

在另一种应用场景中，用户可能在学***。

示例性方法

下面结合上述应用场景，参考图2来描述根据本发明示例性实施方式的由机器实施的口语评测方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

如图2所示，口语评测方法200可以包括：在步骤210中，基于用户选择的会话场景，输出与该会话场景相关的问题。

如前面所提到，机器可以提供多个会话场景供用户选择。在不同的应用中，会话场景可以以不同形式提供。例如，在针对幼儿的语言学习中，通常基于学过的内容进行考察，因此可以在已学内容的情境下提供不同角色作为不同会话场景以供用户选择。举个例子，在学习了关于一家人一天的生活的内容之后，可以呈现一家人的各个角色，让用户选择一家人中的某一角色来进行对话，从而进行口语评测。又例如，在针对成人的口语测试中，可以直接提供多个会话场景描述以供用户选择。例如，可以以文本或图片形式提供餐馆点餐场景、机场安检场景、超市购物场景等等。本发明的实施方式对于会话场景的提供方式没有限制。

可以理解，每个会话场景中会存在多轮对话，也即与该会话场景关联的多个问题和可能的应答。这些问题和应答的信息可以以文本形式预先保存在机器中或其他可获取的介质中。机器可以根据用户选择的会话场景，提取相应的文本，并将文本中的问题转换成语音，输出给用户，从而开始问答式会话方式的口语评测过程。可以采取现有的或未来开发的各种文本转语音技术来执行上述步骤，本发明的实施方式在此没有限制。进一步地，可以设置合成语音的各种参数，诸如语速、发音风格(例如，英式英语、美式英语等)、男声/女声等等。

接着，在步骤S220中，接收用户的语音应答。用户在听到机器发出的提问之后，可以用语音进行回答，以执行口语评测。

接着，在步骤S230中，对之前提出的问题与当前接收的应答进行语义相关性分析。鉴于用户的水平不一，以及用户应答的各种不可控因素(例如，幼儿用户)，可能接收到各种各样的应答。因此，为了提高口语评测的有效性，在本发明的实施方式中，首先对问题与应答之间的语义相关性进行分析判断，再基于此提供口语评测结果。

在进行语义相关性分析之前，可以对接收到的用户的语音应答进行语音识别，以转换成应答文本。继而，基于问题的问题文本和转换的应答文本，执行语义相关性分析。在本发明的一些实施方式中，可以采用第一语义相关性机器模型来分析问题与应答之间的语义相关性，后面将详细描述。在一些实现中，第一语义相关性机器模型可以输出问题与应答相关或不相关的分析结果，或者高相关或低相关的分析结果，或者具体的相关性分数结果。

最后，在步骤S240中，基于问题与应答的语义相关性分析的结果，确定口语评测结果。

在一些实施例中，若问题与应答的语义相关性分析的结果表明相关，则说明当前的应答具有评测意义，可以对该应答做进一步的分析，以提供更详细、具体的评测结果。在一些实现中，可以对该应答进行一个或多个维度的评估，包括但不限于：语义、语音、语法等。在一个示例中，可以采用第二语义相关性机器模型来分析当前应答与候选应答之间的相似度，从而在语义维度上进行评估。可选地或附加地，在另一示例中，可以采用CAPT***对用户的发音进行评分，从而在语音维度上进行评估。CAPT***还可以对用户的发音进行检错并给出矫正指导。可选地或附加地，在又一示例中，可以采用语法检查器来检查用户应答中的语法错误，从而在语法维度上进行评估。

在另一些实施例中，若问题与应答的语义相关性分析的结果表明不相关，则可以对应答进一步识别，以判断用户的真实意思表示。例如，可以根据应答的具体内容，对应答进行分类，继而根据分类得到的类别执行对应的操作。

在一些实现中，不相关的应答可以包括以下几种类别：跳过当前轮次会话、应答不合格等。

例如，当用户不想回答机器的问题时，则可能用语音“跳过”、“跳过这个问题”、“跳过这一句”、“下一个”等类似表述来应答。此时，机器可以识别应答的具体内容，并由此判断用户的真实意图。在确定用户想跳过当前问题的情况下，可以跳过当前轮次会话，进入下一问题。

又例如，用户可能确实是在回答机器的问题，但是由于水平欠佳，发音不好，机器无法识别其真实表述。此时，机器可以向用户输出推荐信息，以辅助用户提供正确的语音应答。

在不同情况下，可以以不同方式输出不同的推荐信息。具体地，在一些实施例中，可以基于当前轮次会话的问题与应答的语义不相关次数，确定具有不同完整程度的推荐信息以及输出方式，然后按所确定的输出方式输出推荐信息。例如，当第一次应答与问题不相关时，推荐信息可以是关键词，输出方式可以是文本显示，以提示用户正确应答应使用的词语。当再次接收到的用户应答与问题不相关时，可能表示用户无法进行正确造句，此时推荐信息可以是完整的句子，输出方式可以仍然是文本显示。当第三次接收到的应答仍然与问题不相关时，可能表示用户在发音方面有困难，此时推荐信息可以是完整的句子，输出方式则变为语音输出，由此辅助用户做出正确的语音应答。

以上结合图2总体上对根据本发明实施方式的由机器实施的口语评测方法进行了示意性的描述，本领域技术人员可以理解的是，上面的描述是示例性的而非限制性的。从上面的描述可知，通过采用用户选择会话场景，机器提问、用户回答的问答式对话方式，可以更好地控制会话进程，全面、准确地评测用户的口语掌握水平。进一步地，口语评测结果首先考虑问题与应答之间的语义相关性，可以避免使用语义不相关的应答进行评测打分，降低评测的实际有效性。

进一步地，在一些实施例中，即使在用户的应答与机器的提问不相关时，也会进一步识别用户的真实意思表示，以便更有效地执行口语评测。

示例性语义相关性机器模型

如前所述，在一些实施例中，可以采用第一语义相关性机器模型来进行用户的应答与机器的提问之间的语义相关性分析。可选地或附加地，在一些实施例中，可以采用第二语义相关性机器模型来进行用户应答与候选应答之间的语义相关性或相似度分析。

第一语义相关性机器模型和第二语义相关性机器模型都可以是应用NLI技术的机器模型，包括但不限于基于BERT(Bidirectional Encoder Representations fromTransformers，基于Transformer的双向编码器表征)的模型。

BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的表示，即：文本的语义表示，然后将文本的语义表示在特定自然语言处理任务中作微调，最终应用于该自然语言处理任务。

当作为第一语义相关性机器模型使用时，特定的自然语言处理任务是语句对分类任务，更具体的是问答匹配任务，也即判断一个问题与一个答案是否匹配。当作为第二语义相关性机器模型使用时，特定的自然语言处理任务也是语句对分类任务，但是是语句匹配任务，也即判断两句话(用户应答与候选应答)是否表达同一个意思。

图3示意性示出了本发明一些实施例中采用的第一语义相关性机器模型的示意性功能框图。如图所示，第一语义相关性机器模型的输入包括机器的提问和用户的应答。

发明人注意到，对于多轮会话而言，会话的轮次信息对于会话上下文的建模非常重要。现有的BERT模型缺少对轮次信息进行显式建模的设计。考虑到口语评测中的问答通常存在多个轮次，多轮问答之间存在一定的相关性。因此，在本发明一些实施例中，在第一语义相关性机器模型的建模中显式地引入了轮次信息。相应地，在这些实施例中，模型的输入还包括对话历史信息，具体的可以是当前会话场景下的历史会话信息。可以理解，对于首轮会话，历史会话信息为空。由此，第一语义相关性机器模型可以根据输入的历史会话信息更好地建模，捕获会话轮次顺序的信息。

BERT模型是深度神经网络的语言模型。在基于深度神经网络的自然语言处理方法中，文本中的字/词通常都用一维向量来表示(一般称之为“词向量”)；在此基础上，神经网络会将文本中各个字或词的一维词向量作为输入，经过一系列转换后，输出一个一维词向量作为文本的语义表示。BERT模型的主要输入是文本中各个字/词；输出是文本中各个字/词融合了全文语义信息后的向量表示。为了在建模中显式地引入轮次信息，可以修改神经网络中某些层的网络结构。

在一些实施例中，可以修改输入层的网络结构。在原始BERT模型中，输入层的输入嵌入(input embedding)只包括令牌嵌入(token embedding)、段嵌入(segmentembedding)和位置嵌入(position embedding)。在本发明的一些实施例中，可以在输入层的输入嵌入中增加附加特征，也即将会话的轮次顺序信息(例如，轮次索引)作为特征，将轮次嵌入(turn embedding)添加到输入嵌入中。因此，本发明实施例中的BERT模型也可以称为TE-BERT模型。

进一步地，将相对位置轮次信息添加到输入层中，因为相对位置轮次信息比绝对位置轮次信息更重要。为了训练轮次嵌入，可以根据问题和应答之间的距离来定义应答中各令牌的轮次索引。此外，还可以固定具有特殊令牌[PAD]的输入的长度，并将“[PAD]…[PAD]”中的令牌的轮次索引标记为0。因此，应答中各令牌的轮次索引被定义为应答与问题之间的距离+1。继而，可以使用具有已标记令牌的应答针对轮次索引来训练轮次嵌入矩阵。

可选地或附加地，在一些实施例中，可以修改模型的编码器中的自注意力(self-attention)的结构。原始BERT模型中的注意力层缺少捕获字/词之间的相对距离的能力。因此，为了增强模型捕获语句之间的相对距离的能力，可以将轮次嵌入引入到自注意力机制中。由于轮次索引可以视为问题和应答之间的一种相对位置距离，因此可以将轮次信息引入自注意力层中。

具体地，可以在自注意力层中计算的其中两个向量：键向量(K)和值向量(V)中分别引入轮次参数：

其中

和

是不同的可训练的轮次嵌入矩阵。函数F_{turn_index}(x)用于确定令牌x的轮次索引。

接着，在自注意力中，每个注意力头对输入序列X＝(x₁,…,x_n)进行运算并计算新序列Z＝(z₁,…,z_n)：

其中W^Q、W^K和W^V分别是计算查询向量(Q)、键向量(K)和值向量(V)的参数矩阵，e_ij是两个输入元素之间的注意力得分，α_ij是通过使用softmax函数计算的注意力权重。轮次参数可以在所有自注意力子层中共享。

实验结果表明，本发明实施例中改进的BERT模型可以很好地捕获轮次信息，并且表现优于现有的BERT模型或其他涉及多轮次会话的语句分类任务的机器模型。

第一语义相关性机器模型的输出可以是机器的问题与用户的应答之间的相关性或相似度得分。在一些实施例中，第一语义相关性机器模型的输出也可以是直接相关或不相关两种结果，其例如可以根据相关性或相似度得分与阈值的比较来确定。本发明的实施例对于分析结果的具体输出形式没有限制。

图4示意性示出了本发明一些实施例中采用的第二语义相关性机器模型的示意性功能框图。第二语义相关性机器模型用来计算用户应答与数据库中的所有候选应答之间的相似度，从中选出相似度最高的候选应答。

如图所示，第二语义相关性机器模型的输入包括用户的应答和数据库中预先准备的候选应答。第二语义相关性机器模型可以采用现有的各种BERT模型，本发明实施例在此方面没有限制。第二语义相关性机器模型的输出可以包括机器的问题与用户的应答之间的相关性或相似度得分。在一些实施例中，第二语义相关性机器模型的输出可以包括根据相似度得分选出的相似度最高的候选应答。

继而，可以根据该相似度最高的候选应答所对应的评测结果来确定当前轮次会话的口语评测结果。具体地，数据库中可以预先存储代表多个不同口语表达能力水平的候选应答集合，例如集合A代表表达能力水平高，A级；集合B代表表达能力水平中等，B级；集合C则代表表达能力水平低，C级。在每个候选应答集合中可以包括多个候选应答语句，表示该能力水平下可能的应答结果。当第二语义相关性机器模型的输出为集合A中的候选应答语句时，则针对该轮次会话的语义维度的评分可以是A；以此类推。可以理解，能力水平的划分可以多于三种，也可以少于三种，候选应答集合的数量也随之相应变化，本发明实施方式在此方面没有限制。

示例性多轮会话的口语评测过程

上面描述了针对每轮会话进行的口语评测过程和相应的处理方案。如前面所提到的，会话通常会进行多轮，以便考察多个知识点，或更全面、准确地评测用户的真实口语水平。在一些实施例中，可以基于会话场景中需要考察的知识点或者需要提出的问题，构建会话状态机，从而引导会话的进程，以完成口语评测过程。

图5示意性示出根据本发明一些实施例的会话状态机。在会话过程中，机器会处于不同的状态下。如图所示，圆圈代表会话状态，各个圆圈(会话状态)之间的边上会有用户输入和机器输出，代表不同的用户输入会让机器做出与之匹配的输出的决策。边上的箭头方向代表状态流转。

基于不同的会话场景中所有可能出现的流程，可以预先定义对话状态机中的各个状态和边。例如，可以基于会话场景中需要考察的知识点来设立会话状态，或者基于机器需要提出的问题来设立会话状态。边上的用户输入可以是用户可能的应答，机器输出则可以是机器相应的操作。

在实际应用中，由于用户输入是自由度比较高的语句，用户应答可能各式各样，无法完全穷举用户输入来设计会话状态机。然而，从前面的处理可以看出，可以对用户输入进行不同分类。如前面所描述的，用户应答可以首先基于是否与问题相关而划分为相关或不相关。进一步地，当用户应答与问题相关时，还会进一步确定与用户应答相似度最高的候选应答。因此，在这种情况下，可以将相似度最高的候选应答作为用户输入。此时，机器的输出可以是针对该相似度最高的候选应答，机器应当输出的下一个问题。另一方面，当用户应答与问题不相关时，可以基于前文的描述设计相应的机器输出，例如输出不同完整程度的提示信息，或者跳过当前轮次会话，进入下一问题(或对话状态)。

为了更好地理解会话状态机，图6示意性示出一个会话状态机的示例。如图所示，该会话状态机包括两个状态，状态1为初始状态，也即机器提出第一个问题或输出第一个语句，其例如可以是打招呼，例如输出“hello”。状态2为下一问题状态，其例如可以是继续问候，例如输出“how are you？”或其他类似的语句。从状态1出发有三条边，其中两条边跳转至状态2，另一条边保持在状态1。在图上示例中，当前机器处于状态1，其可以接收3种用户输入，分别为：I：hello，how are you？II：Hello。III：不相关的文本。从图中可以看出，I和II的用户输入会让机器跳转到状态2，III的用户输入则会让机器一直在状态1重复。进一步地，针对I的用户输入，机器的输出为“I’m fine,thank you,and you？”针对II的用户输入，机器的输出为“How are you？”针对III的用户输入，机器的输出为显示提示词(例如推荐合适的句子)。

图7结合一个示例来示意性描述根据本发明一些实施例的多轮次会话的口语评测过程的流程。在此示例中，假设用户选择的会话场景为新学期开学，需要向用户询问三个问题，在哪上学，学校地址以及怎么去学校。

如图所示，方法700可以在步骤701中由机器根据用户选择的会话场景，输出相关的问题。在此示例中，第一轮次的问题例如是“which school are you in？(你在哪个学校上学？)”。

接着，在步骤702中接收用户的语音应答。用户的应答可能存在多种情况。在一个示例中，用户应答例如可以是“No.21Primary School.”

接着，在步骤703中，例如采用第一语义相关性机器模型对用户的应答与机器的提问进行相关性分析。在上述示例中，用户确实是对机器提问进行回答，并且假设机器能够识别该语音应答，则问题与应答的语义相关性分析结果表明二者相关。此时，方法前进到步骤704，在此可以利用第二语义相关性机器模型来进一步分析接收到的用户应答与候选应答之间的相似度。候选应答例如可以包括“I study at No.21Primary School”、“I am atNo.21Primary School”、“I am studying in No.21Primary School”、“No.21PrimarySchool”,仅举几例。基于第二语义相关性分析，可以确定与用户应答相似度最高的候选应答为“No.21Primary School”，并且该候选应答对应的表达能力水平为B级。

继而，在步骤705中，可以将相似度最高的候选应答所对应的评测结果确定为当前轮次会话的口语评测结果。该评测结果是从语义维度进行评分。在此示例中，当前轮次会话的语义评分为B级。

可选地或附加地，在步骤706中，还可以对用户应答进行其他维度的评分，例如利用CAPT***进行发音方面的打分。

接着，在步骤707中，可以显示当前轮次会话的口语评测结果。可以采用多种输出方式向用户展示评测结果，例如，文字显示评测结果、语音输出评测结果，等等。可选地或附加地，当用户应答中存在错误发音时，还可以向用户展示错误处的正确语音。或者，当用户应答不是最优答案时，可以向用户以文字或语音展示标准回答。

接着，在步骤708处，可以接收用户的下一指令，基于该指令来判断所选会话场景的口语评测是否结束。例如，用户可能通过按键或语音(例如“下一题”、“跳过”等等)等形式来指示进入下一问题。用户也可能通过按键或语音(例如“结束测试”等)直接结束评测。或者，机器也可以根据会话状态的流转来判断是否已完成所有轮次会话的评测。可以理解，也可能存在这种情况，用户指示“重读一遍”，此时方法可以跳转(图中未示出)至步骤702，或者跳转至步骤701，重新输出当前的问题。本领域技术人员可以根据实际情况设计不同的方案，本发明实施例在此方面没有限制。

当确定会话未结束时，方法前进到步骤709，在此可以根据步骤704中确定的相似度最高的候选应答，来确定当前会话场景中要输出的下一问题。该步骤例如可以参考前面描述的会话状态机来执行，其根据第二语义相关性模型确定的相似度最高的候选应答进行决策，选出要输出的下一问题。在上述示例中，机器根据会话状态机以及所确定的相似度最高的候选应答，可以确定将跳至下一会话状态，也即继续询问学校地址。因此，方法再次流转到步骤701，机器输出下一轮会话的问题，在此示例中例如为“Where is your school？”。

接着，在步骤702接收用户的语音应答，例如“It is on Jianhua Street”。由于此应答与问题相关(步骤703为“是”)，因此在此示例中，可以依次执行步骤704-707，直至步骤708，再次判断会话是否结束。假设会话尚未结束，机器根据会话状态机以及所确定的相似度最高的候选应答，确定将跳至下一会话状态，也即继续询问怎么去上学。因此，方法再次流转到步骤701，机器输出下一轮会话的问题，在此示例中例如为“Can you tell me howto get there from here？”。用户可能回答“OK.Walk two blocks,then turn left.”类似地，方法依次执行步骤703-707，直至步骤708，此时机器可以根据会话状态确定已完成所有轮次会话的评测，会话结束。则方法可以前进至步骤710，基于各轮次会话的口语评测结果确定总评测结果。可选地或附加地，机器可以展示总评测结果。展示方式可以类似于各轮次会话的评测结果，本发明实施例在此方面没有限制。

可选地或附加地，在一些实施例中，机器在输出下一问题之前，还可以包括步骤713，基于当前轮次会话的口语评测结果调整参数，从而调整机器输出问题的输出效果。这种输出效果包括但不限于输出问题的语速、发音风格(例如，英式发音、美式发音)等等。

如前面结合图2所描述的，当在步骤703中确定接收到的用户应答与机器问题在语义上不相关时，方法可以前进到步骤711，在此判断用户的真实意思表示。具体地，可以根据应答的具体内容，对应答进行分类，继而根据分类得到的类别执行对应的操作。例如，当用户的真实意思表示是指示跳过时，方法可以跳至步骤701，机器输出下一轮次会话的问题。当用户只是因为发音不好而无法被机器识别时，方法可以前进到步骤712，在此输出推荐信息，继而接收用户的语音应答(702)。推荐信息的具体内容和输出方式可以参考前文描述，此处不再重复。

在上面描述的示例中，假设用户的应答与机器输出的问题一一对应，相应地，会话状态可以是顺次跳转。在有些情况下，用户的应答可能会超出机器输出的问题。例如，在回答第一个问题“which school are you in？(你在哪个学校上学？)”时，用户的应答可能是“No.21Primary School.It is on Jianhua Street”。此时，如果继续提问学校位置则不太合适。通过合理设计会话状态机，可以从第一个问题的状态直接跳转至第三个问题的状态，从而，机器的输出将会是第三个问题“Can you tell me how to get there from here？”显然，这种方式的会话更自然，更符合真实场景的对话。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图8对本发明示例性实施方式的由机器实施的口语评测装置进行描述。

图8示意性地示出了根据本发明实施方式的实施口语评测的装置的示意图。如图8中所示，装置800可以包括人机交互接口810和处理器820。

人机交互接口810可以用于从用户接收输入以及向用户提供输出。具体地，人机交互接口810可以包括但不限于显示器、扬声器、麦克风、摄像头等。在一些实施例中，人机交互接口810可以执行以下一项或多项：从用户接收选择的会话场景；从用户接收语音应答；向用户输出问题；向用户输出口语评测结果以及其他信息，等等。

处理器820可以用于执行各种运算处理任务。在一些实施例中，处理器820可以用于基于通过人机交互接口810接收的用户选择的会话场景，通过人机交互接口810输出与所选会话场景相关的问题；接收通过人机交互接口810输入的用户的语音应答；对输出的问题与接收的应答进行语义相关性分析；以及基于语义相关性分析的结果，确定口语评测结果。

在一些实施例中，处理器820可以进一步用于按如下对问题与应答进行语义相关性分析：根据应答、问题以及会话场景下的历史会话信息，利用第一语义相关性机器模型，来确定应答与问题的相关性。在一些实现中，第一语义相关性机器模型中显式地包含问题与应答所处的多轮会话的轮次信息。

在一些实施例中，处理器820可以进一步用于按如下确定口语评测结果：当语义相关性分析的结果表明相关时，利用第二语义相关性机器模型分别计算应答与多个候选应答的相似度；以及将相似度最高的候选应答对应的评测结果确定为当前轮次会话的口语评测结果。

进一步地，在一些实施例中，处理器820可以进一步用于根据相似度最高的候选应答，确定当前会话场景中要输出的下一问题。

可选地或附加地，处理器820可以进一步用于当结束所选会话场景的会话时，基于各轮次会话的口语评测结果确定总评测结果。

在一些实施例中，处理器820还可以进一步用于当语义相关性分析的结果表明不相关时，对应答进行分类；以及基于分类得到的类别来执行对应的操作。在一些实现中，类别可以包括以下一项或多项：跳过当前轮次会话、应答不合格。相应地，各类别对应的操作可以包括：当类别为跳过当前轮次会话时，跳过当前轮次会话；和/或当类别为应答不合格时，向用户输出推荐信息。在一些实现中，处理器可以进一步用于按如下向用户输出推荐信息：基于当前轮次会话的语义不相关次数，确定具有不同完整程度的推荐信息以及输出方式；以及控制人机交互接口810以按所确定的输出方式输出推荐信息。

可选地或附加地，处理器820还可以进一步用于基于当前轮次会话的口语评测结果调整下一轮次会话的输出效果。

可以理解的是，图8中所示的装置800的功能已经在前文中结合图2-图7所示的方法进行了详细的描述和解释，此处不再赘述。

通过上面结合附图对根据本发明实施方式的由机器实施的口语评测方案的示例性描述，可以理解是，本发明的实施方式提供了一种用户选择会话场景，机器提问、用户回答的问答式对话方式的口语评测方案，该方案相比于跟读式评测给与了用户一定的表达自由度，因而可以更准确地反映用户的真实口语水平。进一步地，在口语评测中，通过首先考虑问题与应答之间的语义相关性，可以避免过大的候选应答集合，实现对应答的快速筛选，提高口语评测的有效性。进一步地，通过在第一语义相关性机器模型中对会话的轮次信息显式建模，可以更准确地评估问题与应答之间的语义相关性。

应当注意，尽管在上文详细描述中提及了装置或训练设备的若干模块或子模块，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种由机器实施的口语评测方法，包括：

基于用户选择的会话场景，输出与所述会话场景相关的问题；

接收用户的语音应答；

对所述问题与所述应答进行语义相关性分析；以及

基于所述语义相关性分析的结果，确定口语评测结果；

其中，对所述问题与所述应答进行语义相关性分析包括：

采用第一语义相关性机器模型来分析所述问题与所述应答之间的语义相关性；

确定口语评测结果包括：

当所述语义相关性分析的结果表明相关时，利用第二语义相关性机器模型分别计算所述应答与多个候选应答的相似度；以及

将相似度最高的候选应答对应的评测结果确定为当前轮次会话的口语评测结果。

2.根据权利要求1所述的方法，其中对所述问题与所述应答进行语义相关性分析包括：

根据所述应答、所述问题以及所述会话场景下的历史会话信息，利用第一语义相关性机器模型，来确定所述应答与所述问题的相关性。

3.根据权利要求2所述的方法，其中所述第一语义相关性机器模型中显式地包含所述问题与所述应答所处的多轮会话的轮次信息。

4.根据权利要求1所述的方法，进一步包括：

根据所述相似度最高的候选应答，确定所述会话场景中要输出的下一问题。

5.根据权利要求4所述的方法，进一步包括：

当结束所述会话场景的会话时，基于各轮次会话的口语评测结果确定总评测结果。

6.根据权利要求1-5任一所述的方法，进一步包括：

当所述语义相关性分析的结果表明不相关时，对所述应答进行分类；以及

基于所述分类得到的类别来执行对应的操作。

7.根据权利要求6所述的方法，其中

所述类别包括以下一项或多项：跳过当前轮次会话、应答不合格；并且

所述对应的操作包括：

当类别为跳过当前轮次会话时，跳过当前轮次会话；和/或当类别为应答不合格时，向用户输出推荐信息。

8.根据权利要求7所述的方法，其中向用户输出推荐信息包括：

基于当前轮次会话的语义不相关次数，确定具有不同完整程度的推荐信息以及输出方式；以及

按所述确定的输出方式输出所述推荐信息。

9.根据权利要求1-5任一所述的方法，还包括：

基于当前轮次会话的所述口语评测结果调整下一轮次会话的输出效果。

10.根据权利要求6所述的方法，还包括：

11.根据权利要求1-5任一所述的方法，还包括：向用户展示以下一项或多项信息：

所述口语评测结果；

错误处的正确语音。

12.根据权利要求6所述的方法，还包括：向用户展示以下一项或多项信息：

所述口语评测结果；

错误处的正确语音。

13.一种实施口语评测的装置，包括：

人机交互接口，用于从用户接收输入以及向用户提供输出；以及

处理器，用于：

基于通过所述人机交互接口接收的用户选择的会话场景，通过所述人机交互接口输出与所述会话场景相关的问题；

接收通过所述人机交互接口输入的用户的语音应答；

对所述问题与所述应答进行语义相关性分析；以及

基于所述语义相关性分析的结果，确定口语评测结果；

所述处理器进一步用于按如下对所述问题与所述应答进行语义相关性分析：

所述处理器进一步用于按如下确定口语评测结果：

14.根据权利要求13所述的装置，所述处理器进一步用于按如下对所述问题与所述应答进行语义相关性分析：

15.根据权利要求14所述的装置，其中所述第一语义相关性机器模型中显式地包含所述问题与所述应答所处的多轮会话的轮次信息。

16.根据权利要求13所述的装置，所述处理器进一步用于：

17.根据权利要求16所述的装置，所述处理器进一步用于：

18.根据权利要求13-17任一所述的装置，所述处理器进一步用于：

基于所述分类得到的类别来执行对应的操作。

19.根据权利要求18所述的装置，其中

所述对应的操作包括：

当类别为跳过当前轮次会话时，跳过当前轮次会话；和/或

当类别为应答不合格时，向用户输出推荐信息。

20.根据权利要求19所述的装置，所述处理器进一步用于按如下向用户输出推荐信息：

控制所述人机交互接口以按所述确定的输出方式输出所述推荐信息。

21.根据权利要求13-17任一所述的装置，所述处理器进一步用于：

22.根据权利要求18所述的装置，所述处理器进一步用于：

23.根据权利要求13-17任一所述的装置，所述人机交互接口进一步用于向用户展示以下一项或多项信息：

所述口语评测结果；

错误处的正确语音。

24.根据权利要求18所述的装置，所述人机交互接口进一步用于向用户展示以下一项或多项信息：

所述口语评测结果；

错误处的正确语音。

25.一种用于实现口语评测的设备，包括：

处理器，其配置用于执行程序指令；以及

存储器，其配置用于存储所述程序指令，当所述程序指令由所述处理器加载并执行时，使得所述设备执行根据权利要求1-12任一所述的方法。

26.一种计算机可读存储介质，其中存储有程序指令，当所述程序指令由处理器加载并执行时，使得所述处理器执行根据权利要求1-12任一所述的方法。