CN113590772A

CN113590772A - 异常评分的检测方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113590772A
Application number: CN202110214645.5A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-11-02

Abstract

本申请提供了一种异常评分的检测方法、装置、设备及计算机可读存储介质；方法包括：获取目标问题对应的音频答案、以及所述音频答案的文本内容；基于所述文本内容，对所述音频答案进行多模态特征提取，得到所述音频答案的第一多模态特征；获取所述目标问题对应的参考音频的第二多模态特征；将所述音频答案的第一多模态特征与所述参考音频的第二多模态特征进行匹配，并基于匹配结果确定所述音频答案的参考评分；获取所述音频答案的原始评分，并基于所述参考评分对所述原始评分进行异常检测，得到用于表征所述原始评分是否异常的检测结果。通过本申请，能够实现对异常评分的有效检测。

Description

异常评分的检测方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种异常评分的检测方法、装置、设备及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用***。越来越多的人工智能产品具备问答评分的功能，问答评分可以应用于各种语音评分***，例如，百科问答***，语言教育应用的语言测试***，口语考试***等等。

对于口语考试***而言，其采用人机对话的方式，考生只需通过计算机和耳麦设备即可完成对口语试题的作答与全自动智能评分，由于口语考试中的开放题型的音频答案具有多样性，因此，这种全自动智能评分可能存在评分不准确的情况，然而，相关技术尚缺乏对评分进行异常检测的有效手段。

发明内容

本申请实施例提供一种异常评分的检测方法、装置、设备及计算机可读存储介质，能够实现对异常评分的有效检测。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种异常评分的检测方法，包括：

获取目标问题对应的音频答案、以及所述音频答案对应的文本内容；

基于所述文本内容，对所述音频答案进行多模态特征提取，得到所述音频答案的第一多模态特征；

获取所述目标问题对应的参考音频的第二多模态特征；

将所述音频答案的第一多模态特征与所述参考音频的第二多模态特征进行匹配，并基于匹配结果确定所述音频答案的参考评分；

获取所述音频答案的原始评分，并基于所述参考评分对所述原始评分进行异常检测，得到用于表征所述原始评分是否异常的检测结果。

上述方案中，所述基于所述参考评分对所述原始评分进行异常检测，得到用于表征所述原始评分是否异常的检测结果之后，所述方法还包括：

当所述检测结果表征所述原始评分为异常评分时，发送对应所述音频答案的校正提示信息；

其中，所述校正提示信息，用于提示对所述音频答案进行评分校正处理。

本申请实施例提供一种异常评分的检测方法，包括：

呈现评分检测界面，并在所述评分检测界面中呈现至少一个问题及相应的评分检测功能项；

响应于针对目标问题对应的评分检测功能项的触发操作，呈现所述目标问题对应的信息输入界面；

基于所述信息输入界面，接收到所述目标问题的音频答案及相应的原始评分；

响应于基于所述音频答案及相应的原始评分触发的评分检测指令，输出用于表征所述原始评分是否异常的检测结果；

其中，所述检测结果，为基于所述音频答案的参考评分对所述原始评分进行异常检测得到，所述参考评分，为基于所述音频答案的第一多模态特征及所述目标问题的参考音频的第二多模态特征之间的匹配结果而确定。

本申请实施例提供一种异常评分的检测装置，包括：

第一获取模块，用于获取目标问题对应的音频答案、以及所述音频答案对应的文本内容；

特征提取模块，用于基于所述文本内容，对所述音频答案进行多模态特征提取，得到所述音频答案的第一多模态特征；

第二获取模块，用于获取所述目标问题对应的参考音频的第二多模态特征；

特征匹配模块，用于将所述音频答案的第一多模态特征与所述参考音频的第二多模态特征进行匹配，并基于匹配结果确定所述音频答案的参考评分；

评分检测模块，用于获取所述音频答案的原始评分，并基于所述参考评分对所述原始评分进行异常检测，得到用于表征所述原始评分是否异常的检测结果。

上述方案中，所述特征提取模块，还用于对所述文本内容进行特征提取，得到所述文本内容的文本特征；

对所述音频答案进行特征提取，得到所述音频答案的音频特征；

融合所述文本特征及所述音频特征，得到所述音频答案的第一多模态特征。

上述方案中，所述特征提取模块，还用于对所述文本内容进行分词处理，得到所述文本内容对应的多个单词；

分别对各所述单词进行特征编码，得到各所述单词对应的单词特征；

对各所述单词对应的单词特征进行特征拼接，得到所述文本内容的文本特征。

上述方案中，所述特征提取模块，还用于分别对各单词的单词特征进行双向编码处理，得到各所述单词对应的上文编码特征和下文编码特征；

分别对各所述单词的上文编码特征和下文编码特征进行特征拼接，得到各所述单词对应的拼接编码特征；

将各所述单词对应的拼接编码特征进行特征拼接，得到所述文本内容的文本特征。

上述方案中，所述特征提取模块，还用于分别对各所述单词的文本特征及音频特征进行拼接处理，得到所述单词的拼接特征；

获取各所述单词对应的权重；

基于获取的权重，对各所述单词的拼接特征进行加权求和，得到所述音频答案的第一多模态特征。

上述方案中，所述特征处理模块，还用于获取所述目标问题对应的多个样本评分，每个所述样本评分对应至少一个参考音频；

分别将所述音频答案的第一多模态特征与各所述参考音频的第二多模态特征进行相似度匹配，得到所述第一多模态特征与各第二多模态特征之间的第一相似度值；

基于得到的各所述第一相似度值及相应的样本评分，确定所述音频答案的参考评分。

上述方案中，当每个所述样本评分对应多个参考音频时，相应的，每个所述样本评分对应多个第一相似度值，所述特征处理模块，还用于将每个所述样本评分对应的多个第一相似度值进行求平均处理，得到对应各所述样本评分的第二相似度值；

获取各所述样本评分对应的聚合程度度量，并基于各所述样本评分对应的聚合程度度量，对相应样本评分的第二相似度值进行归一化处理，得到对应各样本评分的第三相似度值；

从对应各样本评分的第三相似度值中，选取最大第三相似度值对应的样本评分，作为所述音频答案的参考评分。

上述方案中，所述特征处理模块，还用于分别针对各个所述样本评分执行以下操作：

将所述样本评分对应的多个第二多模态特征进行特征间相似度匹配，得到所述样本评分对应的多个第四相似度值；

将所述样本评分对应的多个第四相似度值进行求平均处理，得到所述样本评分对应的聚合程度度量。

上述方案中，所述评分检测模块，还用于获取所述参考评分与原始评分之间的评分差值；

当所述评分差值超过差值阈值、且所述最大相似度值超过相似度阈值时，确定所述原始评分为异常评分。

上述方案中，所述特征处理模块，还用于通过评分模型的第一特征提取层，对所述音频答案进行特征提取，得到所述音频答案的音频特征；

通过所述评分模型的第二特征提取层，对所述文本内容进行特征提取，得到所述文本内容的文本特征；

通过所述评分模型的评分预测层，基于所述音频答案的音频特征及所述音频答案的文本特征，对所述音频答案进行评分预测，得到所述音频答案的原始评分。

上述方案中，所述评分预测层包括第一子预测层、第二子预测层、第三子预测层及评分融合层，所述特征处理模块，还用于

基于所述音频答案的音频特征，通过所述第一子预测层对所述音频答案进行发音评分预测，得到所述音频答案的发音评分；

基于所述音频答案的文本特征，通过所述第二子预测层对所述音频答案进行语法评分预测，得到所述音频答案的语法评分；

通过所述第三子预测层，将所述音频答案的文本特征与所述参考音频的文本特征进行匹配，并基于匹配结果确定所述音频答案的正确度评分；

通过所述评分融合层，融合所述发音评分、所述语法评分以及所述正确度评分，得到所述音频答案的原始评分。

上述方案中，所述基于所述参考评分对所述原始评分进行异常检测，得到用于表征所述原始评分是否异常的检测结果之后，所述装置还包括：

信息发送模块，用于当所述检测结果表征所述原始评分为异常评分时，发送对应所述音频答案的校正提示信息；

本申请实施例提供一种异常评分的检测装置，包括：

第一呈现模块，用于呈现评分检测界面，并在所述评分检测界面中呈现至少一个问题及相应的评分检测功能项；

第二呈现模块，用于响应于针对目标问题对应的评分检测功能项的触发操作，呈现所述目标问题对应的信息输入界面；

信息接收模块，用于基于所述信息输入界面，接收到所述目标问题的音频答案及相应的原始评分；

结果输出模块，用于响应于基于所述音频答案及相应的原始评分触发的评分检测指令，输出用于表征所述原始评分是否异常的检测结果；

其中，所述检测结果，为基于所述音频答案的参考评分对所述原始评分进行异常检测得到；所述参考评分，为基于所述音频答案的第一多模态特征及所述目标问题的参考音频的第二多模态特征之间的匹配结果确定。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的异常评分的检测方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的异常评分的检测方法。

本申请实施例具有以下有益效果：

基于文本内容对音频答案进行多模态特征提取的第一多模态特征以及参考音频的第二多模态特征，确定音频答案的参考评分，并结合参考评分对音频答案的原始评分进行异常检测，能够实现对异常评分的有效检测，进而有效筛选出异常的原始评分，最终使口语考试评分尽可能准确。

附图说明

图1为本申请实施例提供的异常评分的检测***100的架构示意图；

图2为本申请实施例提供的电子设备500的一个可选的结构示意图；

图3为本申请实施例提供的异常评分的检测方法的流程示意图；

图4为本申请实施例提供的分类模型的架构示意图；

图5为本申请实施例提供的多模态特征获取流程示意图；

图6为本申请实施例提供的考试界面示意图；

图7为本申请实施例提供的异常评分的检测方法的流程示意图；

图8为本申请实施例提供的评分模型的结构示意图；

图9为本申请实施例提供的评分模型的结构示意图；

图10为本申请实施例提供的异常评分的检测方法的流程示意图；

图11为本申请实施例提供的评分检测界面示意图；

图12为本申请实施例提供的评分显示界面示意图；

图13为本申请实施例提供的异常评分的检测***的架构示意图；

图14为本申请实施例提供的异常评分的检测装置的结构示意图；

图15为本申请实施例提供异常评分的检测装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二…”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二…”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)语音识别技术：自动语音识别(ASR，Automatic Speech Recognition)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

2)多模态：从语义感知的角度切入，多模态数据涉及不同的感知通道如视觉、听觉、触觉、嗅觉所接收到的信息；在数据层面理解，多模态数据则可被看作多种数据类型的组合，如图片、数值、文本、符号、音频、时间序列，或者集合、树、图等不同数据结构所组成的复合数据形式，乃至来自不同数据库、不同知识库的各种信息资源的组合。

参见图1，图1为本申请实施例提供的异常评分的检测***100的架构示意图，为实现支撑一个示例性应用，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，本申请实施例提供的异常评分的检测方法可由终端400或服务器200单独实施，当由终端400单独实施时，可以客户端的形式安装在终端400上，使终端400上的客户端具备本地异常评分的检测功能，其也可以作为相关客户端的插件，根据需要下载到客户端后进行本地使用，以上这种部署方式中，异常评分的检测***可以直接在本地完成所有检测过程，不需要接入外部网络，可保证数据的绝对安全。

在一些实施例中，本申请实施例提供的异常评分的检测方法可由终端400和服务器200协同实施，例如，终端400采集目标问题对应的音频答案，并将采集的目标问题对应的音频答案发送至服务器200；服务器200获取目标问题对应的音频答案，并对音频答案进行文本转换，得到音频答案的文本内容，基于文本内容，对音频答案进行多模态特征提取，得到音频答案的第一多模态特征；服务器200还获取目标问题对应的参考音频的第二多模态特征，将音频答案的第一多模态特征与参考音频的第二多模态特征进行匹配，并基于匹配结果确定音频答案的参考评分；服务器200还获取音频答案的原始评分，并基于参考评分对原始评分进行异常检测，得到用于表征原始评分是否异常的检测结果，当检测结果表征原始评分为异常评分时，服务器200发送校正提示信息至管理人员以提示进行下一步处理，如人工介入或采用其他评分模型评分的方式，减少异常评分的产生，最终使评分尽可能准确，并将最终得到的准确评分发送至终端以在终端400的显示界面中呈现；当检测结果表征原始评分为正常评分时，则服务器200直接将原始评分发送至终端400以在终端的显示界面中呈现。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

接下来对实施本申请实施例的异常评分的检测方法的电子设备进行说明。参见图2，图2为本申请实施例提供的电子设备500的一个可选的结构示意图，在实际应用中，电子设备500可以为图1中的终端400或服务器200，以电子设备为图1所示的服务器200为例，图2所示的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线***540耦合在一起。可理解，总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***551，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的异常评分的检测装置可以采用软件方式实现，图2示出了存储在存储器550中的异常评分的检测装置555，其可以是程序和插件等形式的软件，包括以下软件模块：第一获取模块5551、特征提取模块5552、第二获取模块5553、特征处理模块5554和评分检测模块5555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的异常评分的检测装置可以采用硬件方式实现，作为示例，本申请实施例提供的异常评分的检测装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的异常评分的检测方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Pro grammable Gate Array)或其他电子元件。

作为示例，本申请实施例提供的异常评分的检测方法可以应用于各种语音问答评分场景，例如，口语考试***、脑筋急转弯的问答***、各种语言教育客户端和百科知识问答***等，由语音机器人给出待回答的目标问题，用户回答目标问题，通过异常评分检测方法对用户回答的音频答案进行评分，并对评分进行异常检测，以确定音频答案的评分是否异常，当评分异常时，呈现用于对音频答案进行评分校正的校正提示信息，以对音频答案进行重新评分得到正常的评分进行呈现，当评分正常时，呈现相应的评分。

基于上述对本申请实施例提供的异常评分的检测***及电子设备的说明，接下来对本申请实施例提供的异常评分的检测方法进行说明，参见图3，图3为本申请实施例提供的异常评分的检测方法的流程示意图，以图1中的服务器200实施本申请实施例提供的异常评分的检测为例进行说明。

步骤101：服务器获取目标问题对应的音频答案以及音频答案对应的文本内容。

这里，音频答案可为服务器直接获取得到，也可为通过终端发送音频答案而得到，在实际应用中，终端上可设置有用于问答的客户端，当用户打开客户端时，终端呈现问答界面，并在问答界面呈现待回答的目标问题及目标问题所对应的回答功能项，终端响应于针对回答功能项的触发操作，获取针对目标问题的音频答案，并将音频答案发送至服务器，服务器接收终端发送的音频答案后，对音频答案进行文本转换，得到音频答案的文本内容。

步骤102：基于文本内容，对音频答案进行多模态特征提取，得到音频答案的第一多模态特征。

在一些实施例中，服务器可通过如下方式基于文本内容，对音频答案进行多模态特征提取，得到音频答案的第一多模态特征：对文本内容进行特征提取，得到文本内容的文本特征；对音频答案进行特征提取，得到音频答案的音频特征；融合文本特征及音频特征，得到音频答案的第一多模态特征。

在一些实施例中，服务器可通过如下方式对文本内容进行特征提取，得到文本内容的文本特征：对文本内容进行分词处理，得到文本内容对应的多个单词；分别对各单词进行特征编码，得到各单词对应的单词特征；对各单词对应的单词特征进行特征拼接，得到文本内容的文本特征。

其中，本申请中的多个是指两个或两个以上。在得到音频答案的音频特征和文本特征后，结合音频答案的音频特征和文本特征，得到音频答案的多模态特征，其中，音频特征包括以下至少之一维度的特征：流利度、韵律度、完整度、准确度，由于多模态特征综合考虑了音频答案的各个维度的特征，用于后续检测处理，可实现精准的检测功能。

在一些实施例中，文本内容包括多个单词，服务器可通过如下方式融合文本特征及音频特征，得到音频答案的第一多模态特征：分别对各单词的文本特征及音频特征进行拼接处理，得到单词的拼接特征；获取各单词对应的权重；基于获取的权重，对各单词的拼接特征进行加权求和，得到音频答案的第一多模态特征。

这里，在获得各单词的文本特征及音频特征后，可以先对各单词的音频特征及文本特征进行拼接处理，得到各单词的拼接特征，然后通过注意力机制(如自注意力机制)对各单词的拼接特征进行注意力处理，得到音频答案的注意力特征，作为音频答案的第一多模态特征。在进行注意力处理时，获取各单词对应的权重，基于获取的权重，对各单词的拼接特征进行加权求和，得到音频答案的第一多模态特征；如此，通过注意力机制可以学习到拼接特征中元素之间的依赖关系，从而挖掘出音频答案中的重要特征，以用于后续检测处理，实现精准的检测功能。

在一些实施例中，服务器还可基于神经网络的分类模型来提取音频答案的第一多模态特征，参见图4，图4为本申请实施例提供的分类模型的架构示意图，该模型包括编码层、注意力层和分类预测层，其中，编码层包括语音编码器和文本编码器，语音编码器用于对音频答案进行语音特征提取，文本编码器用于对音频答案对应的文本内容进行文本特征提取，语音编码器和文本编码器均为深度神经网络结构，可由多个模块构成，如卷积神经网络等；注意力层用于对编码层得到的音频特征和文本特征进行特征融合，得到音频答案的多模态特征；分类预测层用于基于融合特征进行分类结果预测；可见，将待处理的音频答案和对应的文本内容输入至训练好的分类模型中，通过注意力层即可得到音频答案的第一多模态特征。

接下来对图4示出的分类模型的训练过程进行说明。在进行分类模型训练时，首先构建训练样本，训练样本由音频答案和文本内容对构成，即训练样本的构成方式为：训练样本(音频答案，文本内容)，训练样本包括正样本和负样本，其中，正样本中的文本内容为对训练样本中的音频答案进行语音识别得到，负样本中的文本内容为按照一定的概率随机替换成词表中的其他词，即构造音频答案和文本内容不匹配的负样本，正样本标注有匹配的单词标签(如1)，负样本标注有不匹配的单词标签(如0)。

训练样本构建完成后，将训练样本输入至分类模型中，通过编码层的语音编码器，对训练样本中的音频答案进行声学特征提取(编码)，得到训练样本的音频特征h_audio，通过编码层的文本编码器，对训练样本中的文本内容进行文本特征提取(编码)，得到训练样本的文本特征h_text，其中，在提取文本特征h_text时，首先对文本内容进行分词处理，得到文本内容对应的多个单词，然后分别对各单词进行特征编码，得到各单词对应的单词特征h_word(i)(表征第i个单词的单词特征)，最后对各单词对应的单词特征进行特征拼接，得到文本内容的文本特征，h_text＝h_word(1)，h_word(2)，…，h_word(i)。

通过编码层得到训练样本的音频特征和文本特征后，通过注意力层，对训练样本的音频特征和文本特征进行注意力处理，得到每个单词融合音频特征的拼接特征，表达式如下所示：

h_word(i)＝Attention(h_word(i)，h_audio，h_audio)+h_word(i) (1)

其中，h_word(i)表征第i个单词的单词特征，Attention()为注意力函数，h_audio为音频特征，Attention()的表达式如下：

其中，Q为查询向量，K为键向量，V为值向量，K和Q的向量维度为d_k，在本申请中，Q为h_word(i)，K为h_audio，V为h_audio，基于注意力机制，可以得到每个单词特征与相应音频特征的匹配程度。

通过分类预测层(全连接层)对每个单词融合音频特征的拼接特征进行分类预测，得到用于表征相应单词是否正确匹配的分类结果score_word(i)，表达式如下所示：

score_word(i)＝sigmoid(W_wordh_word(i)+b_word) (3)

其中，sigmoid()为非线性激励函数，h_word(i)第i个单词的单词特征，W_word为可训练的单词特征的权重，b_word为相应可训练的偏置参数。

分类模型的优化目标是最小化分类结果与真实标签的交叉损失熵H(t,p)，这里，获取分类结果与训练样本标注的匹配标签之间的差异，并基于差异确定分类模型的损失函数的值，表达式如下所示：

其中，t(x)为真实预测单词是否正确匹配的分类结果，p(x)为模型预测单词正确概率，即训练样本标注的匹配标签。

当损失函数的值达到预设阈值时，基于分类模型的损失函数的值确定相应的误差信号；将误差信号在分类模型中反向传播，并在传播的过程中更新分类模型的各个层的模型参数。这里，对反向传播进行说明，将训练的训练样本输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛。

通过上述方式，即可完成对分类模型的训练。训练好分类模型后，即可通过训练好的分类模型提取音频答案的多模态特征，多模态特征的获取过程是通过利用多模态特征之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示，从而挖掘出音频答案中的重要特征，以用于后续检测处理，实现精准的检测功能。

参见图5，图5为本申请实施例提供的多模态特征获取流程示意图，将待处理的音频答案和音频答案对应的文本内容输入至训练好的分类模型中，通过编码层的语音编码器对音频答案进行特征编码，得到音频答案的音频特征，通过编码层的音频编码器对音频答案对应的文本内容包括的各个单词进行特征编码，得到各单词对应的单词特征，然后通过注意力层，对各个单词对应的单词特征与音频特征进行拼接处理，得到各单词的拼接向量，并获取各单词对应的权重，基于获取的权重，对各单词的拼接特征进行加权求和，得到音频答案的第一多模态特征。

在一些实施例中，服务器还可通过如下方式对文本内容进行特征提取，得到文本内容的文本特征：分别对各单词的单词特征进行双向编码处理，得到各单词对应的上文编码特征和下文编码特征；分别对各单词的上文编码特征和下文编码特征进行特征拼接，得到各单词对应的拼接编码特征；将各单词对应的拼接编码特征进行特征拼接，得到文本内容的文本特征。

这里，考虑单词的上下文特征，在得到每个单词的单词特征(单词向量)后，将每个单词的单词特征输入至双向编码层，如双向长短期记忆网络(Bi-L STM，Bi-directionalLong Short-Term Memory)层，其中，Bi-LSTM层包括两个LSTM：一个为正向输入序列和一个反向输入序列，通过前向过程(如从左向右)提取得到各个单词对应的上文编码特征，通过后向过程(如从右向左)提取得到各个单词对应的下文编码特征，将每个单词的上文编码特征和下文编码特征进行拼接得到对应单词的拼接编码特征，将每个单词的拼接编码特征进行特征拼接，得到文本内容的文本特征。

步骤103：获取目标问题对应的参考音频的第二多模态特征。

这里，当目标问题为半开放性试题(如听后转述、看图转述等)或开放性试题，如图6所示的“what’s your favourite sports(你最喜欢的运动是什么)”这一开放性问题时，图6为本申请实施例提供的考试界面示意图，对于该问题，不同的用户有不同的答案，因此，针对该问题的参考音频可有多种。

在实际实施时，可按照上述所示的方法提取参考音频的多模态特征，具体地，将目标问题对应的参考音频和参考音频对应的文本内容输入至训练好的分类模型中，通过编码层的音频编码器对参考音频进行特征编码，得到参考音频的音频特征，通过编码层的音频编码器对参考音频对应的文本内容包括的各个单词进行特征编码，得到各单词对应的单词特征，然后通过注意力层，对各个单词对应的单词特征与音频特征进行拼接处理，得到各单词的拼接向量，并获取各单词对应的权重，基于获取的权重，对各单词的拼接特征进行加权求和，得到参考音频的第二多模态特征。

步骤104：将音频答案的第一多模态特征与参考音频的第二多模态特征进行匹配，并基于匹配结果确定音频答案的参考评分。

参见图7，图7为本申请实施例提供的异常评分的检测方法的流程示意图，在一些实施例中，图7示出图3中的步骤104可通过1041-步骤1043实现：

步骤1041：获取目标问题对应的多个样本评分，每个样本评分对应至少一个参考音频；

步骤1042：分别将音频答案的第一多模态特征与各参考音频的第二多模态特征进行相似度匹配，得到第一多模态特征与各第二多模态特征之间的第一相似度值；

步骤1043：基于得到的各第一相似度值及相应的样本评分，确定音频答案的参考评分。

这里，参考音频用于对用户回答的音频答案进行异常检测，服务器中预先存储有与样本评分相关联的一条或多条参考音频，每个样本评分对应一个评分档，如对于同一个目标问题，存在如45分、70分、80分、90分、100分等多个样本评分，每个样本评分对应一条、两条或两条以上的参考音频，如对于80分，存在多种表达方式的参考音频。将用户所回答的音频答案的第一多模态特征与参考音频的第二多模态特征进行相似度匹配，如采用余弦距离计算两两特征间的相似度值，得到第一多模态特征与各第二多模态特征之间的第一相似度值，即得到多个第一相似度值，从多个第一相似度值中选取最大的第一相似度值对应的样本评分，作为音频答案的参考评分。

例如，音频答案的第一多模态特征与参考音频1(45分)、参考音频2(70分)、参考音频3(80分)、参考音频4(90分)和参考音频5(100分)的第二多模态特征之间的第一相似度值为依次为：0.2、0.4、0.8、0.3、0.6，则从中选择最大的第一相似度值(0.8)对应的样本评分(80分)，作为该音频答案的参考评分。

在一些实施例中，当每个样本评分对应多个参考音频时，相应的，每个样本评分对应多个第一相似度值，服务器可通过如下方式基于得到的各第一相似度值及相应的样本评分，确定音频答案的参考评分：

将每个样本评分对应的多个第一相似度值进行求平均处理，得到对应各样本评分的第二相似度值；获取各样本评分对应的聚合程度度量，并基于各样本评分对应的聚合程度度量，对相应样本评分的第二相似度值进行归一化处理，得到对应各样本评分的第三相似度值；从对应各样本评分的第三相似度值中，选取最大第三相似度值对应的样本评分，作为音频答案对应的参考评分。

在一些实施例中服务器可通过如下方式获取各样本评分对应的聚合程度度量：

分别针对各个样本评分执行以下操作：分别将样本评分的多个第二多模态特征进行特征间相似度匹配，得到样本评分对应的多个第四相似度值；将样本评分对应的多个第四相似度值进行求平均处理，得到样本评分对应的聚合程度度量。

其中，聚合程度度量用于表征多个第二多模态特征的之间的聚合程度。这里，当每个样本评分对应两个或两个以上的参考音频，如对于80分，存在多种表达方式的参考音频时，对于每个样本评分都对应有多个第一相似度值，此时，对每个样本评分对应的多个第一相似度值进行求平均处理，得到音频答案的第一多模态特征与各个样本评分分布的第二多模态特征之间的第二相似度值sim(outer)。由于每个样本评分对应多个参考音频的第二多模态特征，因此，对于每个样本评分，将样本评分的多个第二多模态特征进行特征间相似度匹配，如采用余弦距离计算两两特征间的相似度值，得到该样本评分对应的多个第四相似度值，将该样本评分对应的多个第四相似度值进行求平均处理，得到该样本评分对应的聚合程度度量sim(inner)，基于该样本评分对应的聚合程度度量sim(inner)，对该样本评分的第二相似度值sim(outer)进行归一化处理，如将sim(ou ter)与sim(inner)相除，得到对应该样本评分的第三相似度值；依次类推，得到对应其他各个样本评分的第三相似度值，从对应各样本评分的第三相似度值中，选取最大第三相似度值对应的样本评分，作为音频答案对应的参考评分。

例如，假设样本评分(80分)对应的参考音频为：参考音频1、参考音频2和参考音频3，则将音频答案对应的第一多模态特征分别与样本评分(80分)对应的参考音频1～参考音频3的第二多模态特征进行相似度匹配，得到三个第一相似度值为sim(1)、sim(2)和sim(3)，同时，将参考音频1、参考音频2和参考音频3的第二多模态特征进行特征间相似度匹配，依次得到三个第四相似度值：sim(12)、sim(13)和sim(23)，则对于样本评分(80分)，第二相似度值sim(o uter)＝(sim(1)、sim(2)和sim(3))/3，聚合程度度量sim(inner)＝(sim(12)+sim(13)+sim(23))/3，第三相似度值＝sim(outer)/sim(inner)；依次类推，即可得到对应其他样本评分的第三相似度值，如假设样本评分包括：45分、70分、80分、90分、100分等5个，最终得到5个第三相似度值依次为：0.3、0.5、0.3、0.6、0.1，从中选取最大第三相似度值对应的样本评分(90分)，作为音频答案对应的参考评分。

步骤105：获取音频答案的原始评分，并基于参考评分对原始评分进行异常检测，得到用于表征原始评分是否异常的检测结果。

在一些实施例中，服务器可通过如下方式获取音频答案的原始评分：通过评分模型的第一特征提取层，对音频答案进行特征提取，得到音频答案的音频特征；通过评分模型的第二特征提取层，对文本内容进行特征提取，得到文本内容的文本特征；通过评分模型的评分预测层，基于音频答案的音频特征及音频答案的文本特征，对音频答案进行评分预测，得到音频答案的原始评分。

这里，获取音频答案和音频答案对应的文本内容后，通过评分模型对音频答案进行评分，得到音频答案的原始评分。如图8所示，图8为本申请实施例提供的评分模型的结构示意图，评分模型包括：第一特征提取层、第二特征提取层和评分预测层，其中，第一特征提取层用于对音频答案进行声学特征提取，得到音频答案的音频特征，第二特征提取层用于对音频答案对应的文本内容进行文本特征提取，得到文本内容的文本特征，评分预测层用于结合音频答案的音频特征和文本特征，对音频答案进行评分预测，得到音频答案的原始评分。

在一些实施例中，可通过如下方式训练评分模型：构建训练样本集合，其中，训练样本集合中的训练样本包括母语音频样本和非母语音频样本，每个训练样本标注有专家评分，将训练样本输入至评分模型中，通过评分模型的第一特征提取层，对训练样本进行特征提取，得到训练样本的音频特征；通过评分模型的第二特征提取层，对训练样本的文本内容进行特征提取，得到文本内容的文本特征；通过评分模型的评分预测层，基于训练样本的音频特征及文本特征，对训练样本进行评分预测，得到训练样本的预测评分，获取预测评分与标注的专家评分之间的差异，并基于差异获取损失函数的值，当损失函数的值达到预设阈值时，基于评分模型的损失函数的值确定相应的误差信号，将误差信号在评分模型中反向传播，并在传播的过程中更新评分模型的各个层的模型参数。

在一些实施例中，参见图9，图9为本申请实施例提供的评分模型的结构示意图，其中，评分模型中的评分预测层包括：第一子预测层、第二子预测层、第三子预测层及评分融合层，服务器可通过如下方式基于音频答案的音频特征及音频答案的文本特征，对音频答案进行评分预测，得到音频答案的原始评分：

基于音频答案的音频特征，通过第一子预测层对音频答案进行发音评分预测，得到音频答案的发音评分；基于音频答案的文本特征，通过第二子预测层对音频答案进行语法评分预测，得到音频答案的语法评分；通过第三子预测层，将音频答案的文本特征与参考音频的文本特征进行匹配，并基于匹配结果确定音频答案的正确度评分；通过评分融合层，融合发音评分、语法评分以及正确度评分，得到音频答案的原始评分。

这里，基于音频答案的音频特征，通过第一子预测层对音频答案进行发音评分预测，如对音频答案的发音质量(如发音准确度、完整度、流利度、韵律度等)进行检测，并基于检测结果预测得到音频答案的发音评分；基于音频答案的文本特征，通过第二子预测层对音频答案进行语法评分预测，如对音频答案的语法质量(如语法准确度)进行检测，并基于检测结果预测得到音频答案的语法评分；通过第三子预测层，将音频答案的文本特征与参考音频的文本特征进行匹配，以确定音频答案是否符合题意，是否答非所问，是否完整等，并基于匹配结果确定音频答案的正确度评分；最后，通过评分融合层，将发音评分、语法评分以及正确度评分进行融合处理，得到音频答案的原始评分。

在一些实施例中，在对音频答案的语法质量进行检测时，根据文本特征中的单词特征，预测对应该单词特征的目标单词特征，当单词特征与目标单词特征不一致时，确定检测到语法错误，基于语法错误的出现次数，确定对应音频答案的语法评分。在一些实施例中，对于某一类错误，还可通过基于深度学习的模型学习文本特征中的各个单词特征的上下文特征，然后通过上下文特征预测该单词，如果预测结果不同于原始单词，则原始单词被标记为错误。

在一些实施例中，服务器可通过如下方式融合发音评分、语法评分以及正确度评分，得到音频答案的原始评分：

分别确定发音评分、语法评分及正确度评分对应的权重；基于确定的权重，对发音评分、语法评分及正确度评分进行加权求和，得到音频答案对应的原始评分。

这里，可根据实际情况给发音评分、语法评分及正确度评分对应分配不同的权重，根据对应各个维度的不同权重，获得表征图片答案整体质量的原始评分。

在一些实施例中，服务器可通过如下方式基于参考评分对原始评分进行异常检测，得到用于表征原始评分是否异常的检测结果：获取参考评分与原始评分之间的评分差值；当评分差值超过差值阈值、且最大第一相似度值超过相似度阈值时，确定原始评分为异常评分。

这里，当每个样本评分对应一个参考音频时，当参考评分与原始评分之间的评分差值超过差值阈值，且最大第一相似度值超过相似度阈值时，确定原始评分为异常评分，否则确定原始评分为正常评分；当每个样本评分对应多个参考音频时，每个样本评分对应多个第一相似度值，进一步基于第三相似度值以及样本评分确定音频答案的参考评分，此时，当参考评分与原始评分之间的评分差值超过差值阈值，且最大第三相似度值超过相似度阈值时，确定原始评分为异常评分，否则确定原始评分为正常评分。

例如，基于三元组数据(P_raw，P_cluster，s)判断原始评分是否异常，其中，P_raw为原始评分、P_cluster为参考评分，s为最大的第一相似度值或最大的第三相似度值，假设三元组数据为(60，80，0.9)，相似度阈值为0.8，差值阈值为10，则由于0.9大于0.8，且参考评分与原始评分的评分差值(20)超过差值阈值(10)，则可确定原始评分为异常评分。

在一些实施例中，服务器基于参考评分对原始评分进行异常检测，得到用于表征原始评分是否异常的检测结果之后，还可通过如下方式发送校正提示信息：当检测结果表征原始评分为异常评分时，发送对应音频答案的校正提示信息；其中，校正提示信息，用于提示对音频答案进行评分校正处理。

这里，当检测结果表征原始评分为异常评分时，服务器可发送校正提示信息至终端，以进行统一处理，如人工介入或采用其他评分模型评分的方式，减少异常评分的产生，最终使评分尽可能准确，并将最终得到的准确评分发送至终端以在终端的显示界面中呈现。当检测结果表征原始评分为正常评分时，则可将原始评分发送至终端以在终端的显示界面中呈现该评分。

接下来继续对本申请实施例提供的异常评分的检测方法进行说明，参见图10，图10为本申请实施例提供的异常评分的检测方法的流程示意图，该方法应用于评分管理终端，如评分校对人员侧的终端，包括：

步骤201：终端呈现评分检测界面，并在评分检测界面中呈现至少一个问题及相应的评分检测功能项。

这里，终端位于评分校正人员测，终端上设置有用于对用户回答的音频答案的评分进行异常检测的检测客户端，当评分校正人员需对评分进行异常检测时，可打开终端上的校正客户端，终端响应于该打开操作，呈现评分检测界面，并在检测界面中呈现一个问题或多个问题，当呈现多个问题时，每个问题可对应一个评分检测功能项，此时该评分检测功能项用于实现对相应的问题的评分进行检测，或多个问题对应一个评分检测功能项，此时该评分功能项用于实现对多个问题的评分进行批量检测。

步骤202：响应于针对目标问题对应的评分检测功能项的触发操作，呈现目标问题对应的信息输入界面。

这里，当评分校正人员触发针对目标问题对应的评分检测功能项时，终端响应于该触发操作，呈现用于输入该目标问题对应的音频答案及相应的原始评分的信息输入界面，并在信息输入界面中呈现信息输入选项，基于信息输入选项可获取待检测的音频答案及相应的原始评分。

步骤203：基于信息输入界面，接收到目标问题的音频答案及相应的原始评分。

这里，当评分校正人员触发信息输入选项时，由于在实际应用(如考试的应用场景)中，对于某一问题，有多名考生回答了该问题，因此，对于该目标问题存在多个相应的音频答案，这里，音频答案与相应的原始评分相关联，且音频答案与相应的考生相关联，故可基于信息输入选项选择所需检测的考生编号，接收到目标问题的音频答案及相应的原始评分。

步骤204：响应于基于音频答案及相应的原始评分触发的评分检测指令，输出用于表征原始评分是否异常的检测结果。

这里，当用户触发针对接收到的音频答案及相应的原始评分的开始检测功能项时，终端响应于该触发操作，接收到相应的评分检测指令，并响应于该评分检测指令，对该音频答案的原始评分进行异常检测，得到并呈现相应的检测结果。

参见图11，图11为本申请实施例提供的评分检测界面示意图，当用户点击评分检测界面中的评分检测功能项A1时，终端响应于该点击操作，呈现目标问题对应的信息输入界面A2，并在信息输入界面中呈现信息输入选项，当点击信息输入选项时，终端呈现可供选择的多个考生选项A3，当选中考生1时，接收到考生1回答目标问题的音频答案及相应的原始评分，响应于针对开始检测功能项A4的触发操作，对考生1回答目标问题的原始评分进行评分异常检测，并呈现相应的检测结果A5。

在一些实施例中，当检测结果表征原始评分为异常评分时，可对原始评分进行统一处理，如人工介入或采用其他评分模型评分的方式，对音频答案进行重新评分，得到正常的评分，减少异常评分的产生，最终使评分尽可能准确，并将最终得到的正常评分发送至终端以在终端的显示界面中呈现。当检测结果表征原始评分为正常评分时，则可将原始评分发送至终端以在终端的显示界面中呈现该评分。

需要说明的是，上述检测结果为基于音频答案的参考评分对原始评分进行异常检测得到；参考评分为基于音频答案的第一多模态特征及目标问题的参考音频的第二多模态特征之间的匹配结果确定，即这里的检测结果的获取方法是通过上述实施例中步骤101-步骤105来实现的，在此不再赘述。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用，以口语考试为例，越来越多的口语考试采取机器进行全自动智能评分，对于口语考试中的开放性题型，不仅回答的音频答案对应的文本内容具有多样性，音频答案的发音质量也具有多样性，由于这些多样性，评分模型会出现少量预测分数不准确的情况。为此，本申请实施例提供一种异常评分的检测方法，能够实现对异常评分的有效检测。

本申请实施例提供一种异常评分的检测方法主要涉及两方面：多模态特征提取和异常评分的检测；其中，多模态特征的获取过程是通过利用多模态特征之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示；相关技术中涉及的多模态特征提取主要包括两部分内容：联合表示和协同表示，其中，联合表示将多个模态的信息表示映射到同一个空间，如将文本和图像映射到同一个空间，或将语音和文本映射到同一个空间，以对语音情感进行分析；协同表示负责将多模态中的每个模态分别映射到各自的表示空间，但映射后的向量之间满足一定的相关性约束，得到向量之间的约束关系，如加减乘除关系等。

对于异常评分的检测，相关技术的预测不确定分析方法主要采用两种方案：一、对模型的预测不确定建模，这种建模的方式可以分成两块：1、一种对不确定性进行直接建模，典型的方法包含高斯过程回归，蒙特卡罗dropout方法，深度混合密度网络等；其中，高斯过程采用高斯分布建模输出，确定每个预测结果的均值和方差；蒙特卡罗dropout方法采用多个模型集成分析模型的不确定性，它假设对于不确定的数据，每个模型的输出具有多样性；深度混合密度网络与高斯过程建模类似，对结果的均值和方差和建模。2、一种结合构造数据对不确定性进行更精细建模，如通过生成构造数据，即与训练数据相距较远的数据，同时对构造数据与真实数据建模，使模型能够显式学习到远离训练数据的测试数据相较一般的数据往往有更大的方差。二、定义不确定性类型(如完全没有读，乱读等)类型，提取一些有效特征，如文本特征等，对不确定性类型进行分类，对具有这些类型的数据进行过滤，再输入到评分模型中。

然而，上述相关技术中获取语音文本多模态表示的方法没有从口语考试应用角度进行建模，不适用于口语考试，因此，本申请实施例构建一个能够同时结合发音和文本特征的多模态特征提取方法，能够提取考试回答的音频答案的音频特征和文本特征进行融合的多模态特征。对于评分不确定性的衡量，第一种对不确定性进行建模的方案，对基础的考试评测模型具有要求，需要模型本身可以输出预测结果的不确定性；第二种对不确定性类型的分类取决于如何定义不确定性类型，限定了不确定性类型的可能性。为此，本申请实施例基于深度神经网络，从音频特征和文本特征的匹配程度角度，获得融合音频特征和文本特征得到的多模态特征，基于音频答案的多模态特征，对考试评分***的评分模型输出的原始评分进行异常评分检测，以根据检测结果筛选出异常评分样本。

参见图12，图12为本申请实施例提供的评分显示界面示意图，本申请实施例提供的异常评分的检测方法的应用场景为口语考试场景，产品落地是口语考试，主要应用于口语考试中的开放表达题型，在终端的考试界面上呈现待回答的目标问题及开始录音按钮，当考生点击开始录音按钮时即可开始回答问题，点击结束录音，结束回答问题，在此过程中，终端采集考生回答的音频答案，并将采集的音频答案发送至服务器，通过服务器对音频答案进行评分并对评分进行异常检测后，返回正常的评分至终端以在终端的显示界面中呈现。

参见图13，图13为本申请实施例提供的异常评分的检测***的架构示意图，***包括：终端和服务器端，终端用于显示考试界面，并在考试界面中显示考试界面，用户点击考试界面中的开始录音按钮时即可开始回答问题，点击结束录音，结束回答问题，终端采集考生回答的音频答案，并将采集的音频答案发送至服务器端。服务器端将音频答案存储至数据库中，并从数据库中读取该音频答案，输入至语音识别模块中，通过语音识别模块对音频答案进行声学特征提取，得到音频答案的音频特征，并对音频答案进行文本转换，得到音频答案对应的文本内容；然后将音频答案的音频特征和文本内容输入至评分模块，通过评分模块对音频答案进行评分，得到音频答案的原始评分；同时，将音频答案及音频答案对应的文本内容输入至多模态特征提取模块，基于音频答案的文本内容，通过多模态特征提取模块，对音频答案进行多模态特征提取，得到音频答案的多模态特征；然后将原始评分和音频答案的多模态特征输入至异常评分检测模块，基于音频答案的多模态特征，通过异常评分检测模块对原始评分进行异常检测，得到用于表征原始评分是否异常的检测结果，并将检测结果存储至数据库中，当检测结果表征原始评分为异常评分时，服务器发送校正提示信息至管理人员以提示进行下一步处理，如人工介入或采用其他评分模型评分的方式，减少异常评分的产生，最终使评分尽可能准确，并将最终得到的准确评分发送至终端以在终端的显示界面中呈现；当检测结果表征原始评分为正常评分时，则将原始评分发送至终端以在终端的显示界面中呈现。

接下来将对图13涉及的评分模块、多模态特征提取模块和异常评分检测模块进行说明。

1、评分模块

口语考试评分模块主要对用户的回答的音频答案进行自动评测，一般包括两个部分：1、基于语音识别技术提取音频答案的音频特征和文本内容，如基于语音识别基础发音特征，对音频答案进行变换得到多种发音的音频特征，或者基于语音直接提取声学特征，得到音频答案的音频特征；对音频答案进行文本转换，得到音频答案对应的文本内容；2、将音频答案的音频特征和文本内容输入至训练好的评分模型中，对音频答案进行评分，得到音频答案的原始评分。

在实际实施时，可通过如下方式训练评分模型：构建训练样本集合，其中，训练样本集合中的训练样本包括母语音频样本和非母语音频样本，每个训练样本标注有专家评分，将训练样本输入至评分模型中，通过评分模型的第一特征提取层，对训练样本进行特征提取，得到训练样本的音频特征；通过评分模型的第二特征提取层，对训练样本的文本内容进行特征提取，得到文本内容的文本特征；通过评分模型的评分预测层，基于训练样本的音频特征及文本特征，对训练样本进行评分预测，得到训练样本的预测评分，获取预测评分与标注的专家评分之间的差异，并基于差异获取损失函数的值，当损失函数的值达到预设阈值时，基于评分模型的损失函数的值确定相应的误差信号，将误差信号在评分模型中反向传播，并在传播的过程中更新评分模型的各个层的模型参数，直至收敛。

2、多模态特征提取模块

在实际应用中，服务器可基于神经网络的分类模型来提取音频答案的多模态特征，如图4所示，分类模型包括编码层、注意力层和分类预测层，其中，编码层包括语音编码器和文本编码器，语音编码器用于对音频答案进行语音特征提取，文本编码器用于对音频答案对应的文本内容进行文本特征提取，语音编码器和文本编码器均为深度神经网络结构，可由多个模块构成，如卷积神经网络等；注意力层用于对编码层得到的音频特征和文本特征进行特征融合，得到音频答案的多模态特征；分类预测层用于基于融合特征进行分类结果预测；可见，多模态特征提取模块为分类模型的一部分，将待处理的音频答案和对应的文本内容输入至训练好的分类模型中，通过注意力层即可得到音频答案的多模态特征。

在进行分类模型训练时，首先构建训练样本，训练样本由音频答案和文本内容对构成，即训练样本的构成方式为：训练样本(音频答案，文本内容)，训练样本包括正样本和负样本，其中，正样本中的文本内容为对训练样本中的音频答案进行语音识别得到，负样本中的文本内容为按照一定的概率随机替换成词表中的其他词，即构造音频答案和文本内容不匹配的负样本，正样本标注有匹配的单词标签(如1)，负样本标注有不匹配的单词标签(如0)。

通过编码层得到训练样本的音频特征和文本特征后，通过注意力层，对训练样本的音频特征和文本特征进行注意力处理，得到每个单词融合音频特征的拼接特征h_word(i)＝Attention(h_word(i)，h_audio，h_audio)+h_word(i)，其中，h_word(i)表征第i个单词的单词特征，h_audio为音频特征，

通过分类预测层(全连接层)对每个单词融合音频特征的拼接特征进行分类预测，得到用于表征相应单词是否正确匹配的分类结果score_word(i)＝sigmoid(W_wordh_word(i)+b_word)，其中，sigmoid()为非线性激励函数，h_word(i)第i个单词的单词特征，W_word为可训练的单词特征的权重，b_word为相应可训练的偏置参数。

分类模型的优化目标是最小化分类结果与真实标签的交叉损失熵H(t,p)，这里，获取分类结果与训练样本标注的匹配标签之间的差异，并基于差异确定分类模型的损失函数的值

其中，t(x)为真实预测单词是否正确匹配的分类结果，p(x)为模型预测单词正确概率，即训练样本标注的匹配标签。当损失函数的值达到预设阈值时，基于分类模型的损失函数的值确定相应的误差信号；将误差信号在分类模型中反向传播，并在传播的过程中更新分类模型的各个层的模型参数。

通过上述方式，即可完成对分类模型的训练。训练好分类模型后，即可将评测者的音频答案输入到语音编码器中，将音频答案对应的文本内容输入到文本编码器中，最终得到提取得到每个单词的单词特征h_word(i)，将所有单词特征h_word(i)求平均，得到该音频答案的多模态特征表示。

3、异常评分检测模块

这里，对于同一个问题，存在多个样本评分(即标签)，如45分、70分、80分、90分、100分等，每个样本评分对应多个参考音频，如对于80分，存在多种表达方式的参考音频。基于用户回答的音频答案的原始评分和对应的样本评分，确定每个样本评分下的数据聚合程度，聚合程度主要由训练样本每个样本评分分布下的距离确定，首先基于上述多模态特征提取方式，获取训练样本中某个样本评分下的所有特征，即获取每个样本评分对应的多个参考音频的多模态特征，对于每个样本评分，将样本评分的多个多模态特征进行特征间相似度匹配，如采用余弦距离计算两两特征间的相似度值，得到该样本评分对应的多个相似度值，如假设样本评分(80分)下有50个参考音频，则获得50*49/2个相似度值，将该样本评分对应的多个相似度值进行求平均处理，得到该样本评分对应的聚合程度度量sim(inner)。

对于用户回答的音频答案(即测试数据)，基于上述多模态特征提取方式，获取音频答案的多模态特征，对于每一个样本评分执行以下处理：将音频答案的多模态特征与样本评分对应的多个参考音频的多模态特征进行相似度计算，得到对应该样本评分的相似度值集合，求取平均得到音频答案与每个样本评分分布的相似度sim(outer)。

得到sim(inner)和sim(outer)后，基于sim(inner)对相似度sim(outer)进行归一化，将sim(outer)与sim(inner)相除，最终得到音频答案与每个样本评分的相似度值，如假设样本评分包括：45分、70分、80分、90分、100分等5个，最终得到5个相似度值依次为：0.3、0.5、0.3、0.6、0.1，从中选取最大相似度值对应的样本评分(90分)，作为音频答案对应的参考评分，最终得到对应音频答案的特征对(P_cluster，s)，其中，P_cluster为参考评分，s为最大相似度值，如上述示例中，P_cluster为90分，s为0.6。

最后，获得音频答案的三元组数据(P_raw，P_cluster，s)，将三元组数据输入到异常评分检测模块，异常评分检测模块的基本原则是对于s较大的音频答案，如果P_raw与P_cluster相差很大，则可能是异常样本。例如，假设三元组数据为(60，80，0.9)，相似度阈值为0.8，差值阈值为10，则由于0.9大于0.8，且参考评分与原始评分的评分差值(20)超过差值阈值(10)，则可确定原始评分为异常评分。

基于口头话题表述题型对本申请实施例提供的异常评分的检测方法进行试验，共1000条测试音频数据(即测试音频答案)和对应的专家标注分数，将音频测试数据输入到异常评分检测模块，基于检测结果筛选异常样本，检测结果的准确度为74％，召回率为20％，尽管召回率较低，但是召回的样本准确度比较高，可以达到有效筛选异常样本的效果。

下面继续说明本申请实施例提供的异常评分的检测装置555的实施为软件模块的示例性结构，在一些实施例中，如图14所示，图14为本申请实施例提供的异常评分的检测装置的结构示意图，存储在存储器550的异常评分的检测装置555中的软件模块包括：

第一获取模块5551，用于获取目标问题对应的音频答案、以及所述音频答案对应的文本内容；

特征提取模块5552，用于基于所述文本内容，对所述音频答案进行多模态特征提取，得到所述音频答案的第一多模态特征；

第二获取模块5553，用于获取所述目标问题对应的参考音频的第二多模态特征；

特征匹配模块5554，用于将所述音频答案的第一多模态特征与所述参考音频的第二多模态特征进行匹配，并基于匹配结果确定所述音频答案的参考评分；

评分检测模块5555，用于获取所述音频答案的原始评分，并基于所述参考评分对所述原始评分进行异常检测，得到用于表征所述原始评分是否异常的检测结果。

在一些实施例中，所述特征提取模块，还用于对所述文本内容进行特征提取，得到所述文本内容的文本特征；

在一些实施例中，所述特征提取模块，还用于对所述文本内容进行分词处理，得到所述文本内容对应的多个单词；

在一些实施例中，所述特征提取模块，还用于分别对各单词的单词特征进行双向编码处理，得到各所述单词对应的上文编码特征和下文编码特征；

在一些实施例中，所述特征提取模块，还用于分别对各所述单词的文本特征及音频特征进行拼接处理，得到所述单词的拼接特征；

获取各所述单词对应的权重；

基于获取的权重，对各所述单词的的拼接特征进行加权求和，得到所述音频答案的第一多模态特征。

在一些实施例中，所述特征处理模块，还用于获取所述目标问题对应的多个样本评分，每个所述样本评分对应至少一个参考音频；

在一些实施例中，当每个所述样本评分对应多个参考音频时，相应的，每个所述样本评分对应多个第一相似度值，所述特征处理模块，还用于将每个所述样本评分对应的多个第一相似度值进行求平均处理，得到对应各所述样本评分的第二相似度值；

在一些实施例中，所述特征处理模块，还用于分别针对各个所述样本评分执行以下操作：

在一些实施例中，所述评分检测模块，还用于获取所述参考评分与原始评分之间的评分差值；

在一些实施例中，所述特征处理模块，还用于通过评分模型的第一特征提取层，对所述音频答案进行特征提取，得到所述音频答案的音频特征；

在一些实施例中，所述评分预测层包括第一子预测层、第二子预测层、第三子预测层及评分融合层，所述特征处理模块，还用于

在一些实施例中，所述基于所述参考评分对所述原始评分进行异常检测，得到用于表征所述原始评分是否异常的检测结果之后，所述装置还包括：

参见图15，图15为本申请实施例提供异常评分的检测装置150的结构示意图，包括：

第一呈现模块151，用于呈现评分检测界面，并在所述评分检测界面中呈现至少一个问题及相应的评分检测功能项；

第二呈现模块152，用于响应于针对目标问题对应的评分检测功能项的触发操作，呈现所述目标问题对应的信息输入界面；

信息接收模块153，用于基于所述信息输入界面，接收到所述目标问题的音频答案及相应的原始评分；

结果输出模块154，用于响应于基于所述音频答案及相应的原始评分触发的评分检测指令，输出用于表征所述原始评分是否异常的检测结果；

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的异常评分的检测方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的异常评分的检测方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种异常评分的检测方法，其特征在于，所述方法包括：

获取所述目标问题对应的参考音频的第二多模态特征；

2.如权利要求1所述的方法，其特征在于，所述基于所述文本内容，对所述音频答案进行多模态特征提取，得到所述音频答案的第一多模态特征，包括：

对所述文本内容进行特征提取，得到所述文本内容的文本特征；

3.如权利要求2所述的方法，其特征在于，所述对所述文本内容进行特征提取，得到所述文本内容的文本特征，包括：

对所述文本内容进行分词处理，得到所述文本内容对应的多个单词；

4.如权利要求3所述的方法，其特征在于，所述对各所述单词对应的单词特征进行特征拼接，得到所述文本内容的文本特征，包括：

分别对各单词的单词特征进行双向编码处理，得到各所述单词对应的上文编码特征和下文编码特征；

5.如权利要求2所述的方法，其特征在于，所述文本内容包括多个单词，所述融合所述文本特征及所述音频特征，得到所述音频答案的第一多模态特征，包括：

分别对各所述单词的文本特征及音频特征进行拼接处理，得到所述单词的拼接特征；

获取各所述单词对应的权重；

6.如权利要求1所述的方法，其特征在于，所述将所述音频答案的第一多模态特征与所述参考音频的第二多模态特征进行匹配，并基于匹配结果确定所述音频答案的参考评分，包括：

获取所述目标问题对应的多个样本评分，每个所述样本评分对应至少一个参考音频；

7.如权利要求6所述的方法，其特征在于，当每个所述样本评分对应多个参考音频时，相应的，每个所述样本评分对应多个第一相似度值，所述基于得到的各所述第一相似度值及相应的样本评分，确定所述音频答案的参考评分，包括：

将每个所述样本评分对应的多个第一相似度值进行求平均处理，得到对应各所述样本评分的第二相似度值；

8.如权利要求7所述的方法，其特征在于，所述获取各所述样本评分对应的聚合程度度量，包括：

分别针对各个所述样本评分执行以下操作：

分别将所述样本评分的多个第二多模态特征进行特征间相似度匹配，得到所述样本评分对应的多个第四相似度值；

9.如权利要求6所述的方法，其特征在于，所述基于所述参考评分对所述原始评分进行异常检测，得到用于表征所述原始评分是否异常的检测结果，包括：

获取所述参考评分与原始评分之间的评分差值；

当所述评分差值超过差值阈值、且所述最大第一相似度值超过相似度阈值时，确定所述原始评分为异常评分。

10.如权利要求1所述的方法，其特征在于，所述获取所述音频答案的原始评分，包括：

通过评分模型的第一特征提取层，对所述音频答案进行特征提取，得到所述音频答案的音频特征；

11.如权利要求10所述的方法，其特征在于，所述评分预测层包括第一子预测层、第二子预测层、第三子预测层及评分融合层，所述基于所述音频答案的音频特征及所述音频答案的文本特征，对所述音频答案进行评分预测，得到所述音频答案的原始评分，包括：

12.一种异常评分的检测方法，其特征在于，所述方法包括：

13.一种异常评分的检测装置，其特征在于，所述装置包括：

特征处理模块，用于将所述音频答案的第一多模态特征与所述参考音频的第二多模态特征进行匹配，并基于匹配结果确定所述音频答案的参考评分；

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的异常评分的检测方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的异常评分的检测方法。