CN115831153A

CN115831153A - 发音质量测试方法

Info

Publication number: CN115831153A
Application number: CN202211159540.5A
Authority: CN
Inventors: 刘力哲; 张昱航; 刘筱力; 潘攀; 邱俊杰; 王方
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2023-03-21

Abstract

本申请提供一种发音质量测试方法，包括：获取受试者朗读目标内容的第一视频和目标参考者朗读目标内容的第二视频，对第一视频中多帧第一图像分别进行口型动作单元强度检测得到多帧第一图像各自对应的口型动作单元强度，对第二视频中多帧第二图像分别进行口型动作单元强度检测得到多帧第二图像各自对应的口型动作单元强度。对比多帧第一图像各自对应的口型动作单元强度与多帧第二图像各自对应的口型动作单元强度，以确定受试者的发音质量。本方案通过基于视觉信息即发音过程中嘴部的动态特征进行受试者比如失语症人员的发音质量测试，受环境等因素干扰小，能够获得更加准确的发音质量测试结果。

Description

发音质量测试方法

技术领域

本发明涉及互联网技术领域，尤其涉及一种发音质量测试方法。

背景技术

比如在学***。

传统的发音质量评定方式是：让受试者读一段内容，采集其发音音频，之后通过音素识别模型来识别出受试者实际的发音音素序列，与从标准发音音频中识别出的发音音素序列进行对比，以得出发音质量的测试结果。其中，标准发音音频可以是发音标准者(称为参考者)读同一段内容时采集的音频。

但实际使用中，基于音素的发音质量测试方式更易受环境噪音、个人和母语发音特点的影响，较难真实地确定出受试者的发音水平。

发明内容

本发明实施例提供一种发音质量测试方法、设备和存储介质，用以通过视觉信息准确地确定出受试者的发音水平。

第一方面，本发明实施例提供一种发音质量测试方法，所述方法包括：

获取受试者朗读目标内容的第一视频，以及目标参考者朗读所述目标内容的第二视频；

对所述第一视频中多帧第一图像分别进行口型动作单元强度检测，得到所述多帧第一图像各自对应的口型动作单元强度；

对所述第二视频中多帧第二图像分别进行口型动作单元强度检测，得到所述多帧第二图像各自对应的口型动作单元强度；

对比所述多帧第一图像各自对应的口型动作单元强度与所述多帧第二图像各自对应的口型动作单元强度，以确定所述受试者的发音质量；

其中，任一图像对应的口型动作单元强度是指形成所述任一图像中的口型时，多种预设口型动作单元分别对应的强度系数。

第二方面，本发明实施例提供一种发音质量测试装置，所述装置包括：

获取模块，用于获取受试者朗读目标内容的第一视频，以及目标参考者朗读所述目标内容的第二视频；

检测模块，用于对所述第一视频中多帧第一图像分别进行口型动作单元强度检测，得到所述多帧第一图像各自对应的口型动作单元强度；以及，对所述第二视频中多帧第二图像分别进行口型动作单元强度检测，得到所述多帧第二图像各自对应的口型动作单元强度；

确定模块，用于对比所述多帧第一图像各自对应的口型动作单元强度与所述多帧第二图像各自对应的口型动作单元强度，以确定所述受试者的发音质量；其中，任一图像对应的口型动作单元强度是指形成所述任一图像中的口型时，多种预设口型动作单元分别对应的强度系数。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如第一方面所述的发音质量测试方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如第一方面所述的发音质量测试方法。

第五方面，本发明实施例提供一种发音质量测试方法，所述方法包括：

接收用户设备通过调用发音质量测试服务触发的请求，所述请求中包括受试者朗读目标内容的第一视频，以及目标参考者朗读所述目标内容的第二视频；

利用所述发音质量测试服务对应的处理资源执行如下步骤：

第六方面，本发明实施例提供一种发音质量测试方法，应用于扩展现实设备，所述方法包括：

对所述第一视频中多帧第一图像分别进行口型动作单元强度检测，得到所述多帧第一图像各自对应的口型动作单元强度；对所述第二视频中多帧第二图像分别进行口型动作单元强度检测，得到所述多帧第二图像各自对应的口型动作单元强度；其中，任一图像对应的口型动作单元强度是指形成所述任一图像中的口型时，多种预设口型动作单元分别对应的强度系数；

在所述扩展现实设备屏幕上渲染显示所述发音质量。

本发明实施例提供的发音质量测试方案，是基于视觉信息对受试者的发音水平进行测试的方案。发音质量的测试更为关注的是受试者的口型形状，因此，预先设置了用于反映口型形状的多个口型动作单元，不同的口型动作单元对应于不同的口型状态，一个人当前呈现的某种口型可以通过多个口型动作单元的线性组合来表示，而进行线性组合时需要得知各个口型动作单元的强度(也可称为强度系数、权重系数)。基于此，在对受试者进行发音质量测试时，首先，获取受试者朗读目标内容的第一视频，以及目标参考者朗读该目标内容的第二视频，其中，受试者相当于是学生，而目标参考者相当于是老师，受试者学着目标参考者的发音来朗读同一内容。之后，分别对第一视频和第二视频进行采样，得到第一视频中的多帧图像(称为多帧第一图像)，以及第二视频中的多帧图像(称为多帧第二图像)，对每帧图像分别进行口型动作单元强度检测，得到多帧第一图像各自对应的口型动作单元强度以及多帧第二图像各自对应的口型动作单元强度。最后，对比多帧第一图像各自对应的口型动作单元强度与多帧第二图像各自对应的口型动作单元强度，以确定受试者的发音质量。简单来说，多帧第一图像对应的口型动作单元强度与多帧第二图像对应的口型动作单元强度越接近，说明发音质量越好。

上述基于视觉信息(即发音过程中嘴部的动态特征)进行受试者发音质量测试的方案，受环境等因素干扰小，能够获得更加准确的发音质量测试结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种发音质量测试方法的流程图；

图2为本发明实施例提供的多个口型动作单元的示意图；

图3为步骤103的一种可选实现方法的流程图；

图4为本发明实施例提供的连贯性分数权重预测模型的训练过程示意图；

图5为本发明实施例提供的一种发音质量测试方法的应用示意图；

图6为本发明实施例提供的一种发音质量测试方法的流程图；

图7为本发明实施例提供的一种脸部检测模型训练方法的流程图；

图8为图7所示模型训练方法的原理示意图；

图9为本发明实施例提供的另一种脸部检测模型训练方法的流程图；

图10为图9所示模型训练方法的原理示意图；

图11为本发明实施例提供的一种发音质量测试方法的应用示意图；

图12为本发明实施例提供的一种发音质量测试装置的结构示意图；

图13为本实施例提供的一种电子设备的结构示意。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图1为本发明实施例提供的一种发音质量测试方法的流程图，如图1所示，该方法包括如下步骤：

101、获取受试者朗读目标内容的第一视频，以及目标参考者朗读所述目标内容的第二视频。

102、对第一视频中多帧第一图像分别进行口型动作单元强度检测得到多帧第一图像各自对应的口型动作单元强度，对第二视频中多帧第二图像分别进行口型动作单元强度检测得到多帧第二图像各自对应的口型动作单元强度。

103、对比多帧第一图像各自对应的口型动作单元强度与多帧第二图像各自对应的口型动作单元强度，以确定受试者的发音质量。

本发明实施例提供的发音质量测试方案，用于对受试者的口语发音质量进行测试，受试者比如是学生、具有失语症的人，等等。在对受试者进行测试时，采用跟读的方式进行测试。所谓跟读的方式是指让“老师”读一段文字内容，受试者作为“学生”跟读同一段文字内容。本发明实施例中，将“老师”称为目标参考者，将读的一段文字内容称为目标内容。可以理解的是，实际应用中，可以预先设置多段不同的测试文字内容，目标内容可以是其中的某个。

目标参考者在读目标内容的过程中，对该目标参考者进行视频采集，得到其发音过程对应的视频，即上述第二视频。同样地，在受试者读这段目标内容的过程中，也采集其对应的视频，即上述第一视频。

之后，可以以设定的采样频率对第一视频进行采样，得到第一视频中的多帧图像，称为多帧第一图像。同样地，以该采样频率对第二视频进行采样，得到第二视频中的多帧图像，称为多帧第二图像。

可以理解的是，实际上，第一视频与第二视频的长度可能是不同的，从而采样出的图像数量也是不相等的，比如当受试者有失语症时，其读完目标内容所需的时间往往长于目标参考者。

之后，对第一视频中多帧第一图像分别进行口型动作单元强度检测，得到多帧第一图像各自对应的口型动作单元强度。对第二视频中多帧第二图像分别进行口型动作单元强度检测，得到多帧第二图像各自对应的口型动作单元强度。其中，任一图像对应的口型动作单元强度是指形成该任一图像中的口型时，多种预设口型动作单元分别对应的强度系数。

发音质量的测试更为关注的是受试者的口型形状，因此，预先设置了用于反映口型形状的多种基本的口型动作单元，一个人当前呈现的某种口型形状可以通过多个口型动作单元的线性叠加来表示，而进行线性叠加时需要得知各个口型动作单元的强度(也可称为强度系数或系数)。

类似于面部动作编码***，可以预先根据嘴部的运动特点，将其划分成多个相互独立又相互联系的口型运动单元(action unit)，并设定每个口型运动单元对应的强度区间，一般范围为[0,1]，一个口型运动单元的不同强度，往往对应于该口型动作单元的不同运动特征，且不同口型运动单元往往控制不同的嘴部区域。所以当某个人发某个音时，其对应的口型可以是不同口型运动单元按照各自对应的不同强度进行线性叠加而呈现出的口型。

比如，假设多个口型动作单元分别表示为：AU1、AU2、…、AUn，某个人发音“啊”对应的AU1的强度为0.6-0.8左右，而另一个人由于发音障碍，AU1的强度可能只有0.3。

本实施例中，可以预先训练一个用于进行口型动作单元强度检测的脸部检测模型，该脸部检测模型是配合人脸重建模型来联合训练的，其训练过程将在下文中说明。如图2中所示，在图2中，该脸部检测模型表示为encoder，多个口型动作单元分别表示为：AU1、AU2、…、AUn，这n个口型动作单元各自对应的强度分别表示为：r1、r2、…、rn。

在针对上述第一视频和第二视频分别采样出多帧图像后，可以将第一视频中多帧第一图像分别输入到该脸部检测模型，以得到多帧第一图像各自对应的口型动作单元强度，将第二视频中多帧第二图像分别输入到该脸部检测模型，以得到多帧第二图像各自对应的口型动作单元强度。

之后，通过对比多帧第一图像各自对应的口型动作单元强度与多帧第二图像各自对应的口型动作单元强度，以确定受试者的发音质量。可以理解的是，由于预先设定了多个(假设为n个)口型动作单元，每帧图像输入到脸部检测模型中，都会得到与该帧图像对应的多个口型动作单元的强度，假设第一视频中包括m1帧图像，则针对第一视频会得到m1*n个口型动作单元强度，按照时序对其进行排序。同理，假设第二视频中包括m2帧图像，则针对第一视频会得到m2*n个口型动作单元强度，按照时序对其进行排序。实际应用中，由于受试者与目标参考者的语速等差异，m1和m2未必相等。

本发明实施例中，旨在通过比较受试者说同一段语音过程的嘴部特征与标准水平的差异，来分析受试者的口语发音质量。其中，该嘴部特征通过上述多帧第一图像各自对应的口型动作单元强度来表示，标准水平通过目标参考者说同一段语音过程中多帧第二图像各自对应的口型动作单元强度来表示。

在一可选实施例中，针对第一视频中的任一帧第一图像i，可以基于其对应的采样时间戳，按照设定的时间跨度确定与其对应的搜索时间段，从第二视频中的多帧第二图像中确定采样时间戳落入该搜索时间段的第二图像(假设为k个)，然后分别对比第一图像i对应的口型动作单元强度与这k个第二图像各自对应的口型动作单元强度。如果k个第二图像中存在口型动作单元强度与该第一图像i的口型动作单元强度相匹配的目标第二图像，则确定第一图像i对应的匹配度分数为一分。如果k个第二图像中不存在口型动作单元强度与该第一图像i的口型动作单元强度相匹配的目标第二图像，则确定第一图像i对应的匹配度分数为零分。

通过上述过程，可以得到第一视频中多帧第一图像分别对应的匹配度分数，可以将匹配度分数加和结果与多帧第一图像的总数的比值确定为第一视频的质量分数。如果该质量分数大于设定阈值，则认为受试者的发音水平良好，反之不佳。

其中，具体地，假设第一图像i对应的采样时间戳为t1，其对应的搜索时间段比如是t1-15帧至t1+5帧。其中，t1-15帧代表的是第二视频中在t1时刻采样的第二图像以及该第二图像之前采样的15帧图像，类似地，t1+5帧代表的是第二视频中在t1时刻采样的第二图像以及该第二图像之后采样出的5帧图像，也就是说，第二视频中上述21帧图像作为第一图像i的搜索时间段内包含的图像。实际应用中，一般来说，受试者的发音情况往往不会优于目标参考者，比如可能体现为受试者的发音连贯性差于目标参考者，因此，可选地，上述搜索时间段的设定可以基于这样一个假设：对于目标内容中的同一个字，受试者的发音更可能会晚于目标参考者。当然，实际应用中，上述搜索时间段的设置不以此为限。

其中，针对两帧图像对应的口型动作单元强度之间的匹配度，可以根据如下可选方式确定：仍以AU1、AU2、…、AUn这n个口型动作单元为例，以图像a和图像b为例，可以根据这两帧图像各自对应的每个口型动作单元的强度，分别计算两帧图像各自对应的口型动作单元强度的平均值，如果两个平均值的差值小于设定阈值，则认为图像a和图像b相匹配，两者的匹配度分数为1，否则，若两个平均值的差值大于或等于设定阈值，则认为图像a和图像b不匹配，两者的匹配度分数为0。

或者，可选地，针对图像a和图像b各自对应的n个口型动作单元强度，可以计算同一口型动作单元对应的强度差，如果n个强度差均小于设定阈值，则认为图像a和图像b相匹配，两者的匹配度分数为1，否则，如果n个强度差中存在大于或等于该设定阈值的至少一个强度差，则认为图像a和图像b不匹配，两者的匹配度分数为0。

实际应用中，以上述第一图像i来说，假设在其对应的搜索时间段内存在至少两帧第二图像都满足上述“平均值的差值小于设定阈值”的条件或者“n个强度差均小于设定阈值”的条件，则对于该第一图像i来说，其对应的匹配度分数仍旧为1。

在上述实施例提供的方案中，通过对受试者与目标参考者分别进行嘴部视觉特征的识别与对比，可以从视觉上完成受试者的发音质量的测试，具有更好的抗干扰能力，可以提高发音质量测试结果的准确性。

在本发明实施例中，考虑到讲话的连贯性与正确性，结合具体语句的连贯性和正确性，设计了一种用于评价发音质量的健康度分数。概括来说，在对比多帧第一图像各自对应的口型动作单元强度与多帧第二图像各自对应的口型动作单元强度以确定受试者的发音质量的过程中，可以通过比较多帧第一图像各自对应的口型动作单元强度与多帧第二图像各自对应的口型动作单元强度，确定在朗读目标内容的发音过程中，受试者的发音连贯性总分数和/或发音正确性总分数，以便结合受试者的发音连贯性总分数和/或发音正确性总分数得到受试者的发音健康度分数，如果该健康度分数大于设定阈值，则确定受试者发音质量良好，反之不佳。下面结合图3所示实施例介绍这种发音质量判定方案。

图3为步骤103的一种可选实现方法的流程图，如图3所示，该方法包括如下步骤：

301、根据多帧第一图像各自对应的口型动作单元强度的变化程度，确定受试者的多个停顿点，以及，根据多帧第二图像各自对应的口型动作单元强度的变化程度，确定目标参考者的多个停顿点。

302、根据受试者的多个停顿点确定受试者的多个发音片段；以及，根据目标参考者的多个停顿点确定目标参考者的多个发音片段，其中，一个发音片段包括相邻停顿点之间的多帧图像。

303、对比受试者的多个发音片段和目标参考者的多个发音片段，以确定受试者的发音连贯性总分数和发音正确性总分数，以根据受试者的发音连贯性总分数和发音正确性总分数确定受试者的发音质量。

由于目标内容往往是由多句话构成的一段文字，在朗读目标内容的过程中，不管是目标参考者还是受试者，都会存在长时间停顿(即断句)的情况。本发明实施例中，基于连续多帧图像的口型动作单元强度的变化程度来识别出相应参考者的停顿点。

以第一视频来说，自采样出第一帧图像之后，便可以进行连续多帧图像是否呈现出符合停顿条件的判定：假设第一视频中多帧第一图像依次表示为F1—Fm1，并设定若连续h(比如h＝10)帧图像对应的口型动作单元强度不变则判定为存在一个停顿点。那么假设图像F1-F10这10帧图像对应的口型动作单元强度是变化的，之后图像F11-F20对应的口型动作单元强度不变，则确定图像F10是一个发音片段的结尾，从而确定图像F1-F10这10帧图像对应于第一个发音片段。之后，假设图像F21与图像F20的口型动作单元强度不同，则确定图像F21是第二个发音片段的起始点，之后根据如上过程确定第二个发音片段的结束点。依次类似，便可以得到受试者在读目标内容的发音过程中的多个发音片段。同理，也得到目标参考者在读目标内容的发音过程中的多个发音片段。

可以理解的是，受试者与目标参考者的停顿点未必一致，也就是说，受试者与目标参考者的多个发音片段未必一致。

举例来说，假设目标内容是：你好，请跟随老师读取以下内容，注意断句位置。下面以“/”表示停顿点，则目标参考者的停顿点如下：你好/请跟随老师读取以下内容/注意断句位置。受试者的停顿点如下：你好/请跟随老师/读取以下内容/注意/断句位置。

由上述举例可知，比如受试者是失语症人员，那么其连贯地读一个长句是比较困难的，可能表现出停顿相较目标参考者多很多的情况。在上述举例中，目标参考者一共有3个发音片段，而受试者有5个发音片段。

在将受试者和目标参考者朗读目标内容的发音过程中采集的第一视频和第二视频，按照连续多帧图像的口型动作单元强度的变化情况划分为多个发音片段之后，便可以对比两者的发音片段的发音连贯性、正确性，以便最终确定相对于目标参考者的发音情况，受试者在发音连贯性、发音正确性方面的表现，得出反映该表现的健康度分数。

需要说明的是，健康度分数可以仅考虑发音连贯性或发音正确性，也可以两方面都考虑，根据实际测试目的而定。

下面分别说明发音连贯性和发明正确性这两个方面的判断过程。

针对发音连贯性：

可以先确定受试者的多个发音片段各自对应的时长，以及目标参考者的多个发音片段各自对应的时长，之后，根据受试者的多个发音片段各自对应的时长以及目标参考者的多个发音片段各自对应的时长，确定受试者的多个发音连贯性分数，其中，多个发音连贯性分数对应于受试者的多个发音片段。最后，根据受试者的多个发音连贯性分数，确定受试者的发音连贯性总分数。

本实施例中提供一种可选的连贯性分数计算方式，表示为：

tmp_score(i)＝count_time(xj’)/[count_time(xi)],若i＝j； (1)

tmp_score(i)＝count_time(xj’)/[count_time(xi)+δ],若i≠j (2)

其中，xi表示受试者的第i个发音片段，xi’表示目标参考者的第j个发音片段，count_time(xi)表示受试者的第i个发音片段对应的时长，count_time(xj’)表示目标参考者的第j个发音片段对应的时长，tmp_score(i)表示受试者的第i个发音片段对应的连贯性分数,δ是预设的一个无穷大值。其中，i的取值范围是[0,n1]，j的取值范围是[1,n2]，其中，n1表示受试者的发音片段总数，n2表示目标参考者的发音片段总数。

可以理解的是，如上述举例可知，目标跟随者与受试者读目标内容所产生的发音片段数量可能不等，比如，目标参考者仅存在第一个、第二个和第三个发音片段，而受试者具有第一个、第二个、第三个、第四个和第五个发音片段。在该假设情形下，由于受试者和目标参考者都具有前三个发音片段，所以根据公式(1)可以分别确定受试者前三个发音片段各自对应的连贯性分数。因为目标参考者不具有第四个和第五个发音片段，所以基于上述公式(2)进行计算，由于此时count_time(x4’)和count_time(x5’)取值均为0，从而导致受试者的第四个和第五个发音片段对应的连贯性分数均为0。类似地，如果受试者的发音片段数量小于目标参考者的发音片段数量，比如受试者具有3个发音片段而目标参考者具有4个，则受试者的第四个发音片段的时长count_time(x4)＝0，基于公式(2)，由于分母此时是个无穷大值，所以受试者的第四个发音片段的连贯性分数为0。

也就是说，上述公式(1)与公式(2)想要表达的是：针对受试者来说，如果其发音片段的数量与目标参考者不同，则其缺少的或者多出的发音片段对应的连贯性分数都为0。

在得到受试者的多个发音片段分别对应的连贯性分数之后，可选地，可以将多个连贯性分数加和在一起，作为受试者的连贯性总分数。

除此之外，可选地，还可以将多个发音连贯性分数输入至连贯性分数权重预测模型，得到多个发音连贯性分数的权重，根据多个发音连贯性分数的权重对多个发音连贯性分数进行加权求和以确定受试者的发音连贯性总分数，以便结合受试者的发音连贯性总分数确定受试者的发音质量。

其中，连贯性分数权重预测模型是预先训练的用于预测输入的多个发音连贯性分数各自对应的权重的模型，从实现结构上说，可以实现为由多个卷积层构成的卷积神经网络。

通常，目标内容中会包括长度不等的多个语句，这多个语句可以认为是按照语法、意群等因素预先设定的应该断开发音的多个语句，可以认为包括目标参考者在内的各个作为参考对象的参考者都应该按照该划定的断句结果来朗读目标内容。假设目标内容是：你好，请跟随老师读取以下内容，注意断句位置。下面以“/”表示停顿点，则划定的多个语句如下：你好/请跟随老师读取以下内容/注意断句位置。

实际上，对于受试者来说，比如受试者是失语症人员，或者受试者学习能力不佳，对于短句，往往能够更加容易地正确发音与停顿，但是对于长句，准确停顿会更难。因此，连贯性分数权重预测模型被训练使其具有能够为长句分配更高的权重，为短句分配更低的权重的能力。

为训练具有上述能力的连贯性分数权重预测模型，首先需要准备训练集。本发明实施例中，为便于描述，仅以上述目标内容作为训练素材为例，实际上训练素材可以包括多个不同内容。可以预先收集作为参考对象的多个参考者分别朗读目标内容的发音过程中的视频，并根据前述实施例中所介绍的方法，得到每个参考者对应的多个发音片段的时长。这里为便于描述，假设多个参考者都是严格按照预先划定的断句位置(即停顿位置)来朗读的，因此多个参考者的发音片段数量是相同的，实际上每个发音片段对应的起止文字也是相同的。区别主要体现为不同参考者的同一次发音片段的时长可能不等。比如参考者a第一个发音片段的时长为ta1，参考者b第一个发音片段的时长为tb1，参考者c第一个发音片段的时长为tc1。可以确定多个参考者的同一次发音片段的时长的均值作为这次发音片段对应的参考时长，比如(ta1+tb1+tc1)/3作为第一个发音片段的参考时长。如此便可以得到参考对象的多个发音片段分别对应的参考时长。

之后，类似于上述受试者，可以收集作为测试对象的任一测试者朗读目标内容的发音过程中的视频，并根据前述实施例中所介绍的方法，得到该测试者对应的多个发音片段的时长，进而根据上述公式(1)和公式(2)得到该测试者的多个发音片段分别对应的连贯性分数。

之后，根据如下方式确定训练过程中使用的监督信息。连贯性分数权重预测模型的训练需要使用到两种监督信息：一种是测试者对应的连贯性总分数，另一种是反映语句的长短情况的监督信息。

具体地，可以根据测试者朗读目标内容的实际质量情况的主观感受，人为地为测试者标注出其朗读目标内容过程中对应的连贯性总分数，比如总分100分，实际打分95分、80分。

针对反映语句长短的监督信息，可选地，可以在得到测试者的多个发音片段各自对应的时长后，根据预设的不同时长范围，为测试者的多个发音片段分别标记对应的语句长短类别。可以预先设置几种语句长短类别，比如：特长句、中长句、短句，其中，每种类别的语句对应于设定的时长范围。从而，在得到该测试者的多个发音片段分别对应的连贯性分数后，便可以将测试者的多个发音片段各自对应的语句长短类别，作为相应的每个连贯性分数对应的语句长短类别。

针对反映语句长短的监督信息，可选地，还可以在得到该测试者的多个发音片段分别对应的连贯性分数后，根据多个连贯性分数的取值，为其标注对应的语句长短类别。简单来说，针对短句，测试者与参考对象的发音时长相差不大，导致相应的连贯性分数较高；而对于长句，测试者与参考对象的发音时长相差较大，导致相应的连贯性分数较低。基于此，可以设置不同的分数取值范围与语句长短类别之间的对应关系，据此实现多个连贯性分数对应的语句长短类别的标注。

将标记有上述语句长短类别的多个连贯性分数以及标注的连贯性总分数输入到连贯性分数权重预测模型中，连贯性分数权重预测模型基于为长句对应的连贯性分数分配更高的权重，为短句对应的连贯性分数分配更低的权重，以使得按照分配后的权重对多个连贯性分数的加权和接近标注的连贯性总分数的原则确定每个连贯性分数对应的权重。

下面结合图4示例型说明上述连贯性分数权重预测模型的训练过程。

在图4中，假设一个测试者对某个目标内容的发音过程中，确定出三个发音片段：Y1、Y2、Y3，并且假设这三个发音片段对应的语句长短类别分别是：短句、中长句、特长句。以及假设根据该测试者的实际发音情况标注出的连贯性总分数为95分，三个发音片段分别对应的连贯性分数为：s1、s2、s3。则将标记有相应语句长短类别的这三个分数以及连贯性总分数输入连贯性分数权重预测模型，连贯性分数权重预测模型输出这三个分数分别对应的权重：w1、w2、w3，从而基于这三个权重对这三个分数进行加权求和。实际上，这三个权重值的大小关系可能是：w1<w2<w3。

以上介绍了受试者的发音连贯性的判断过程，下面介绍受试者的发音正确性的判断过程。

在一可选实施例中，提供了一种基于视觉的发音正确性判断方案。具体地，首先获取受试者的第一发音片段对应的口型动作单元强度，以及目标参考者的第二发音片段对应的口型动作单元强度，其中，第一发音片段在所述受试者的多个发音片段中对应的序号与第二发音片段在目标参考者的多个发音片段中对应的序号相同。之后，可以对比受试者的第一发音片段对应的口型动作单元强度与目标参考者的第二发音片段对应的口型动作单元强度，以确定受试者的第一发音片段的发音正确性分数。最后，根据受试者的多个发音片段对应的多个发音正确性分数确定受试者的发音正确性总分数。

在上述实施例中，受试者的第一发音片段以及目标参考者的第二发音片段即为同一次发音片段，比如各自的第一个发音片段、各自的第二个发音片段，等等。其中，本实施例中，一个发音片段对应的正确性分数可以设置为1和0。

如前文所述，一个发音片段往往对应于多帧图像，每帧图像会对应有多个口型动作单元的强度。可选地，针对上述第一发音片段和第二发音片段，可以分别计算其中多帧图像各自对应的每个口型动作单元的多个强度的平均值，从而得到第一发音片段和第二发音片段分别对应的多个口型动作单元的平均强度。比如，假设第一发音片段中包括P1帧图像，第二发音片段中包括P2帧图像，并假设共有n个口型动作单元：AU1、AU2、…、AUn，则针对P1帧图像对应的AU1的P1个强度进行平均值计算，得到第一发音片段对应的AU1的平均强度，同理得到第一发音片段中n个口型动作单元各自对应的平均强度。同理，对第二发音片段中的P2帧图像进行同样的计算，得到第二发音片段中n个口型动作单元各自对应的平均强度。

之后，对比第一发音片段中n个口型动作单元各自对应的平均强度与第二发音片段中n个口型动作单元各自对应的平均强度，以确定第一发音片段的发音正确性分数。概括来说，第一发音片段中n个口型动作单元各自对应的平均强度越是接近第二发音片段中n个口型动作单元各自对应的平均强度，则说明第一发音片段中的发音口型与第二发音片段中的发音口型越接近，发音正确性分数越过，反之越低。

其中，可选地，可以进一步计算第一发音片段对应的n个口型动作单元各自对应的平均强度的平均值，即这n个数值的均值A1，计算第二发音片段对应的n个口型动作单元各自对应的平均强度的平均值，即这n个数值的均值A2，若A1和A2的差值小于设定阈值，则认为第一发音片段与第二发音片段的发音很接近，确定第一发音片段的发音正确性分数为1，否则为0。或者可选地，可以分别计算同一个口型动作单元在第一发音片段和第二发音片段中分别对应的平均强度的差值，若n个口型动作单元对应的该强度差值均小于设定阈值，则确定第一发音片段的发音正确性分数为1，否则若存在强度差值大于或等于该设定阈值的口型动作单元，则确定第一发音片段的发音正确性分数为0。

在另一可选实施例中，提供了一种基于音频的发音正确性判断方案。具体地，首先分别对受试者的第一发音片段以及目标参考者的第二发音片段进行文字识别处理，以得到第一发音片段对应的第一文字内容以及第二发音片段对应的第二文字内容，其中，第一发音片段在受试者的多个发音片段中对应的序号与第二发音片段在目标参考者的多个发音片段中对应的序号相同。之后，对比第一文字内容与第二文字内容，以确定受试者的第一发音片段的发音正确性分数。最后，根据受试者的多个发音片段对应的多个发音正确性分数确定受试者的发音正确性总分数。

上述文字识别处理即语音识别处理，得到每个发音片段对应的文字内容。在能够识别出每个发音片段中包含的一个个文字的基础上，一个发音片段对应的正确性分数可以定义为该发音片段中包含的发音正确的文字数量。

举例来说，如果第一发音片段对应的第一文字内容与第二发音片段对应的第二文字内容相同，且该文字内容包括5个字，则确定受试者的第一发音片段的发音正确性分数为5。如果第一发音片段对应的第一文字内容与第二发音片段对应的第二文字内容不相同，且假设第一文字内容中的第一个字和第三个字与第二文字内容中的第一个字和第三个字是相同的，其他文字不同，则确定受试者的第一发音片段的发音正确性分数为2。

在根据上述实施例提供的方式确定受试者的多个发音片段对应的发音正确性分数后，可以将多个发音正确性分数加和在一起，得到发音正确性总分数。当健康度分数仅考虑发音正确性总分数时，便可以基于该发音正确性总分数与设定阈值的比较结果确定受试者的发音质量。

与前述多个发音连贯性分数的权重预测相似地，本发明实施例中，还可以预先训练一个正确性分数权重预测模型，用于预测每个发音正确性分数对应的权重，以便基于权重预测结果对多个发音正确性分数进行加权求和，得到发音正确性总分数。

其中，正确性分数权重预测模型也可以实现为由多个卷积层构成的卷积神经网络模型。与连贯性分数权重预测模型相似地，正确性分数权重预测模型同样被训练使其具有能够为长句分配更高的权重，为短句分配更低的权重的能力。

为训练具有上述能力的正确性分数权重预测模型，首先需要准备训练集。本发明实施例中，为便于描述，仅以上述目标内容作为训练素材为例，实际上训练素材可以包括多个不同内容。可以预先收集作为参考对象的某个参考者朗读目标内容的发音过程中的视频，并根据前述实施例中所介绍的方法，得到每个参考者对应的多个发音片段，对各个发音片段进行语音识别以得到每个发音片段中包含的文字内容。之后，可以收集作为测试对象的任一测试者朗读目标内容的发音过程中的视频，并根据前述实施例中所介绍的方法，得到该测试者对应的多个发音片段，对各个发音片段进行语音识别以得到每个发音片段中包含的文字内容。需要说明的是，这里所说的视频是指包含有音频的视频。之后，根据如上文介绍的正确性分数计算方式，得到测试者每个发音片段对应的发音正确性分数。

针对正确性分数权重预测模型的训练同样需要使用到两种监督信息：一种是测试者对应的正确性总分数，另一种是反映语句的长短情况的监督信息，即语句长短类别。

其中，正确性总分数可以是人为地在听到测试者郎读目标内容的发音之后主观确定出的正确字数数量。

其中，语句长短类别的标注，可以参考连贯性分数权重预测模型的相关介绍。除此之外，还可以根据语音识别后每个发音片段对应的文字数量来标注语句长短类别。预先设定不同文字数量与语句长短类别的对应关系，据此实现语句长短类别的标注。

正确性分数权重预测模型的训练过程可以参考连贯性分数权重预测模型的训练过程，在此不展开赘述。

综上，在得到受试者的发音连贯性总分数和发音正确性总分数之后，可以将两个总分数的加和结果确定为是受试者的健康度分数，若健康度分数大于设定阈值，则确定受试者发音质量良好，否则发音质量不佳。

如上文所述，本发明实施例提供的发音质量测试方案，可以应用于对失语症人员的恢复情况进行测试，对某种语言学习者的学习效果进行测试等发音测试场景中。以失语症人员的恢复情况测试为例，结合图5示例型说明该方案的实施过程。

如图5中所示，以某失语症用户为例，可以在用户终端中下载并使用相应的测试应用程序，在该测试应用程序中提供有不同的测试内容(或者说测试文本)。实际上，这些测试内容可以按照受试者的失语症严重程度划分为几种类别，比如图5中示意的轻度、中度、重度。可以理解的是，重度的失语症用户所对应的测试内容在发音难度上以及在测试内容篇幅长度上会低于中度和轻度的失语症用户。在每个类别下，可以设置至少一个测试内容，并且针对每个测试内容可以设置有至少一个跟读视频。其中，跟读视频是指作为参考对象(或者说模仿对象)的参考者在发音某测试内容的过程中被采集的视频。图5中示意了一些测试内容以及每个测试内容对应的跟读视频。

失语症用户本人或者其他执行测试的相关人员，根据受试的失语症用户的情况，选择某个测试内容以及对应的一个跟读视频(对应于上述第二视频，假设为图中示意的跟读视频1)，之后，播放该跟读视频让该失语症用户听到参考者是如何发音的。之后，失语症用户便可以看着测试内容，学着参考者的发音，朗读该测试内容，该失语症用户的朗读过程被进行视频采集，得到上述第一视频，在图5中表示为用户视频。

在图5中，假设测试内容1是：你好，请跟随老师读取以下内容，注意断句位置。假设基于前述实施例中所述的处理过程，基于每个视频中的各帧图像对应的口型动作单元的强度的变化程度，确定跟读视频1中多个发音片段分别为Y1、Y2、Y3，失语症用户的用户视频中多个发音片段分别为Z1、Z2、Z3、Z4、Z5。为便于理解，假设Y1、Y2、Y3对应的停顿情形为：你好/请跟随老师读取以下内容/注意断句位置。假设Z1、Z2、Z3、Z4、Z5对应的停顿情形为：你好/请跟随老师/读取以下内容/注意/断句位置。

在得到上述多个发音片段后，针对失语症用户的多个发音片段可以分别计算对应的发音连贯性分数。基于前文介绍的发音连贯性分数计算公式可知，发音片段Z4、Z5对应的发音连贯性分数为0，发音片段Z1、Z2、Z3对应的发音连贯性分数根据前述公式(1)确定。进而可以得到失语症用户与该测试内容对应的发音连贯性总分数SM1。

在得到上述多个发音片段后，针对失语症用户的多个发音片段还可以分别计算对应的发音正确性分数。这里假设Z1、Z2、Z3、Z4、Z5对应的文字内容识别结果是：你好/请跟追老师/读取一内容/注意/断句位置。即其中有三个字读错。根据每个发音片段对应的发音正确性分数可以得到失语症用户与该测试内容对应的发音正确性总分数SM2。

之后，发音连贯性总分数SM1与发音正确性总分数SM2的加和结果作为该失语症用户的健康度分数。若该健康度分数大于设定阈值，则确定该失语症用户的发音质量良好。

图6为本发明实施例提供的一种发音质量测试方法的流程图，如图6所示，该方法包括如下步骤：

601、获取多个参考者朗读目标内容的多个第三视频。

602、对目标第三视频中多帧第三图像分别进行口型动作单元强度检测，得到多帧第三图像各自对应的口型动作单元强度，根据多帧第三图像各自对应的口型动作单元强度，确定目标第三视频对应的口型特征向量。

其中，目标第三视频是多个第三视频中任一个。

603、对多个第三视频各自对应的口型特征向量进行聚类，得到多个聚类结果。

604、获取受试者朗读目标内容的第一视频，对第一视频中多帧第一图像分别进行口型动作单元强度检测得到多帧第一图像各自对应的口型动作单元强度，根据多帧第一图像各自对应的口型动作单元强度，确定第一视频对应的口型特征向量。

605、从多个聚类结果中确定与第一视频对应的口型特征向量对应的目标聚类结果，从目标聚类结果所对应的参考者中确定目标参考者。

606、获取目标参考者朗读目标内容的第二视频，对第二视频中多帧第二图像分别进行口型动作单元强度检测得到多帧第二图像各自对应的口型动作单元强度。

607、对比多帧第一图像各自对应的口型动作单元强度与多帧第二图像各自对应的口型动作单元强度，以确定受试者的发音质量。

本实施例提供的发音质量测试方案中，还考虑了不同个体的个性化发音特点。不同的个体，读同样的文字或发同样的音，口型都会有略微的差异。本实施例充分考虑了这方面的差异，实现了针对当前的受试者的个性化的发音质量测试。

概括来说，本实施例中的个性化发音质量测试方案的核心思想是：针对同一目标内容，可以收集多个参考者的发音视频，不同参考者具有不同的个性化发音特点，根据个性化发音特点对多个参考者进行聚类，从而得到多个聚类结果。针对当前的受试者，从多个聚类结果中选择与其发音特点相匹配的目标聚类结果，以便结合目标聚类结果完成对该受试者的发音质量测试。其中，上述个性化发音特点可以通过发音视频中各帧图像对应的口型动作单元强度来反映。

具体来说，获取多个参考者朗读目标内容的多个第三视频(即多个发音视频)，之后，针对每个第三视频进行采样得到其中包含的多帧图像(称为多帧第三图像)。以其中的任一目标第三视频来说，对其中包含的每帧第三图像进行口型动作单元强度检测，得到多帧第三图像各自对应的口型动作单元强度，之后根据多帧第三图像各自对应的口型动作单元强度，确定该目标第三视频对应的口型特征向量。其中，目标第三视频对应的口型特征向量可以是目标第三视频中多帧第三图像各自对应的口型动作单元强度的拼接结果。假设目标第三视频中包括m帧图像，口型动作单元数量为n，则该口型特征向量即为m*n维特征向量。

之后，采用设定的聚类算法(比如k均值算法等)对多个第三视频各自对应的口型特征向量进行聚类，得到多个聚类结果。可以理解的是，被聚为一类的参考者往往具有相似的发音特点。

实际应用中，为了覆盖范围的广泛性，上述多个参考者的选择可以充分考虑个体差异，比如年龄、性别、胖瘦、地理区域分布，等等。

由于每个第三视频对应的口型特征向量的维度往往是较高的，在进行聚类计算过程中，可以先进行降维处理，将各第三视频对应的口型特征向量降低为设定维度。在得到上述多个聚类结果后，可以确定每个聚类结果对应的聚类中心特征向量。比如将同一聚类结果中包含的多个口型特征向量进行求均值计算，将均值计算结果确定为聚类中心特征向量。

针对当前的受试者，获取受试者朗读相同目标内容的第一视频，对第一视频中多帧第一图像分别进行口型动作单元强度检测得到多帧第一图像各自对应的口型动作单元强度，根据多帧第一图像各自对应的口型动作单元强度，确定第一视频对应的口型特征向量。之后，可以计算第一视频对应的口型特征向量与各个聚类中心特征向量之间的相似度，从中确定最高相似度所对应的聚类结果为目标聚类结果，之后可以从目标聚类结果所对应的参考者中确定目标参考者。其中，相似度可以通过某种距离来表示，比如余弦距离等。

其中，从目标聚类结果所对应的参考者中确定目标参考者，可以是从目标聚类结果所对应的参考者中随机确定一个作为目标参考者。此时选择出目标参考者与受试者具有更相似的发音特点，从而可以使得受试者能够更好地跟读目标参考者的发音，以便更加客观、准确地测试出受试者的发音质量。

下面介绍前文中所提及的脸部检测模型的训练方案。

图7为本发明实施例提供的一种脸部检测模型训练方法的流程图，如图7所示，该训练方法可以包括如下步骤：

701、获取第一人脸样本图像，将第一人脸样本图像输入第一脸部检测模型，得到第一人脸样本图像对应的多种人脸重建参数，多种人脸重建参数中包括口型动作单元强度。

702、将第一人脸样本图像对应的多种人脸重建参数输入到人脸重建模型，得到第一人脸三维模型，并基于多种人脸重建参数和第一人脸三维模型生成第一人脸重建图像。

703、根据第一人脸样本图像与第一人脸重建图像确定损失函数值，根据所述损失函数值训练第一脸部检测模型。

概括来说，是在人脸重建的任务下完成脸部检测模型的训练。本实施例中，被训练的脸部检测模型称为第一脸部检测模型，其可以实现为由多个特征提取层构成的一个编码网络模型(encoder)。人脸重建模型，可以是一种三维可变形人脸模型(3D Morphable FaceModels，简称3DMM)。

第一脸部检测模型用于检测包括口型动作单元强度在内的多种人脸重建参数。人脸重建模型用于基于这些人脸重建参数完成人脸图像重建。

具体地，训练过程中，输入2D的第一人脸样本图像，第一脸部检测模型输出多种人脸重建参数，包括但不限于：身份参数(identity)、表情参数(expression)、口型参数(mouth)、纹理参数(texture)、姿态参数(pose)、光照参数(light)。其中，身份参数是控制人脸形状的参数，因此也可以称为形状参数。其中，口型参数即为多个口型动作单元的强度。训练第一人脸检测模型的目标是使口型参数尽可能准确，其它参数是自监督训练过程中用于重建人脸的必要参数。

第一人脸样本图像仅为第一脸部检测模型的若干训练样本图像中的一个，仅以其为例进行训练过程的说明。第一脸部检测模型的训练截止条件可以是所有的训练样本图像使用完毕，或者训练轮次达到设定值，或者模型的准确性达到设定要求。

在得到上述多种人脸重建参数后，可以将这些参数输入到人脸重建模型中，以得到人脸重建模型的输出结果。具体地，在进行人脸重建过程中，该人脸重建模型首先基于多种人脸重建参数进行人脸三维模型(即mesh模型)的建立，建立出的第一人脸三维模型中可以呈现出第一人脸样本图像中人脸的表情、姿态、口型等特点，但是并没有准确的纹理特征，简单来说就是先重建出来该第一人脸样本图像中人脸的三维轮廓。之后，基于该第一人脸三维模型以及多种人脸重建参数再生成2D的第一人脸重建图像。其中，在生成第一人脸重建图像的过程中，上述多种人脸重建参数中的比如纹理参数、光照参数会被充分使用，以使得第一人脸重建图像中所呈现出的纹理、亮度特征与第一人脸样本图像相匹配。

另外，需要说明的是，在人脸重建模型进行人脸重建的过程中，会使用到多种人脸重建参数各自对应的变形基或者称为混合变形(Blend Shape,简称BS)模型，每种BS模型的系数是可调的，不同的系数使得相应的BS模型呈现出不同的形态。实际上，BS模型也是一种三维几何模型。对于口型参数即多个口型动作单元的强度来说，由于设置了多个口型动作单元，那么每个口型动作单元一一对应有相应的口型BS模型，每个口型动作单元的强度即为相应口型BS模型的系数。

在本实施例中，上述各自BS模型都是预设的通用模型，即与人脸样本图像中的人脸(或者说训练对象)无关。

在人脸重建模型进行人脸重建的过程中，对各种人脸重建参数对应的BS模型的使用，简单来说就是：根据某种人脸重建参数确定相应BS模型的系数，将调整为该系数的BS模型叠加到预设的中性人脸三维模型上，从而，各种人脸重建参数所对应的BS模型叠加到中性人脸三维模型上，便可以得到第一人脸三维模型。

综上，人脸重建模型的输出结果可以认为有两个：第一人脸三维模型以及第一人脸重建图像。基于该输出结果可以计算设定的几种损失函数的取值，进而反向传播以调整被训练的第一脸部检测模型的参数。

可选地，损失函数可以包括如下至少一种：身份或者说形状损失函数(下文中的第一损失函数)、关键点损失函数(下文中的第二损失函数)、光度损失函数(下文中的第三损失函数)。基于这些损失函数，可以使得脸部检测模型具有更佳的性能。

其中，可以分别提取第一人脸样本图像对应的第一人脸特征以及第一人脸重建图像对应的第二人脸特征，根据第一人脸特征和第二人脸特征确定第一损失函数值。

其中，可以提取第一人脸样本图像中的第一人脸关键点，以及从第一人脸三维模型中获取第二人脸关键点，根据第一人脸关键点和第二人脸关键点确定第二损失函数值。

其中，可以对比第一人脸样本图像和第一人脸重建图像的像素值，以确定第三损失函数值。

具体地，可以使用预先训练好的一个人脸特征检测模型进行上述人脸特征的提取。本实施例中，人脸特征是指能够区分不同人脸的特征参数。可以通过计算上述第一人脸特征与第二人脸特征之间的距离或相似度来确定第一损失函数值。

类似地，可以使用预先训练好的人脸关键点检测模型进行上述第一人脸关键点的提取。实际应用中，也可以让第一脸部检测模型具有该人脸关键点的检测功能，从而可以获取该第一脸部检测模型从第一人脸样本图像中检测出的第一人脸关键点。实际上，可以预先定义若干种人脸关键点，比如眉毛、鼻子、嘴部、眼睛、耳朵、脸部轮廓等不同部位的关键点。人脸关键点的检测目的就是确定每种人脸关键点在输入图像(本实施例中为第一人脸样本图像)中对应的位置坐标。

由于人脸重建模型在进行第一人脸三维模型的建立过程中，实际上会生成由若干三角面片构成的该第一人脸三维模型，其中，每个三角面片对应于一个编号，可以按照设定的编号顺序和位置排列关系生成上述第一人脸三维模型。其中，可以预先标记好对应于设定的多个人脸关键点的三角面片的编号，从而，在生成第一人脸三维模型后，从中查找到多个人脸关键点对应的三角面片，每个三角面片对应于一个位置坐标，从而可以从第一人脸三维模型中获取上述第二人脸关键点。之后，可以对比第一人脸关键点与第二人脸关键点的位置坐标的差异，比如计算某种距离，以确定第二损失函数值。

关于第三损失函数值，简单来说就是确定第一人脸样本图像和第一人脸重建图像的像素差异情况。这两个图像的尺寸是相同的，可以通过计算两个图像中各相同像素位置对应的像素值的差值的和，或者累计对应的像素值不一致的像素位置数量，来确定第三损失函数值。

当第一脸部检测模型的损失函数采用上述三种中的至少两种时，可以加和所采用的至少两种损失函数的值，得到总损失，基于总损失值来调整第一脸部检测模型的参数。

可以理解的是，在完成上述训练过程后，在发音质量检测过程中，仅需要获取第一脸部检测模型针对输入图像检测出的口型参数，即口型动作单元强度，其他人脸重建参数不需要使用。

为便于直观地理解上述训练过程，图8中对上述训练过程进行了示意说明。

图9为本发明实施例提供的另一种脸部检测模型训练方法的流程图，如图9所示，该训练方法可以包括如下步骤：

901、获取第一人脸样本图像，将第一人脸样本图像输入第一脸部检测模型，得到第一人脸样本图像对应的多种人脸重建参数，多种人脸重建参数中包括口型动作单元强度。

902、将第一人脸样本图像对应的多种人脸重建参数输入到人脸重建模型，得到第一人脸三维模型，并基于多种人脸重建参数和第一人脸三维模型生成第一人脸重建图像。

903、根据第一人脸样本图像与第一人脸重建图像确定损失函数值，根据所述损失函数值训练第一脸部检测模型。

904、获取第二人脸样本图像，将第二人脸样本图像输入第二脸部检测模型，得到第二人脸样本图像对应的多种人脸重建参数，多种人脸重建参数中包括身份参数，其中，第二脸部检测模型是将第一脸部检测模型训练至符合设定截止条件时得到的模型。

905、将所述身份参数输入到人脸重建模型，得到第二人脸三维模型，根据第二人脸三维模型、预设中性人脸三维模型以及通用口型变形基模型，通过预设形变迁移算法，确定第二人脸样本图像对应的训练者的口型变形基模型。

906、根据训练者的口型变形基模型对第二脸部检测模型进行优化训练。

本实施例中，预先构建包含若干人脸样本图像的训练集，上述第一、第二人脸样本图像是该训练集中的任一个样本图像。

本实施例中，将对脸部检测模型的训练过程划分为三个阶段：第一阶段对应于上述步骤901-903，即为前述图7所示实施例中的训练过程，在该阶段的训练过程中，将初始的第一脸部检测模型训练至符合设定截止条件，将此时的脸部检测模型称为第二脸部检测模型；第二阶段对应于上述步骤904-905，用于获取个性化的口型BS模型；第三阶段对应于上述步骤906，用于基于上述个性化的口型BS模型进行第二脸部检测模型的优化训练，以得到优化训练至符合截止条件的第三脸部检测模型。

结合图10示意了上述三个训练阶段。在图10中，假设第一阶段和第三阶段中使用的损失函数为上文中举例的三种损失函数：身份或者说形状损失函数、关键点损失函数、光度损失函数。

如前文所述，在第一阶段训练第一脸部检测模型的过程中，使用的各种BS模型都是通用的模型，即与个体无关的模型。本实施例中，充分考虑个体差异，即不同的个体，读同样的文字或发同样的音，口型都会有略微的差异，基于此，通过引入个性化的口型BS模型，优化脸部检测模型的训练过程，实现使得对于不同个体的同一发音口型，预测出的口型动作单元强度尽可能一致的目的。其中，所谓个性化的口型BS模型，是指获取不同个体(即不同人脸样本图像中的训练者)的口型BS模型。

需要说明的是，由于在发音质量测试过程中，仅需要使用到脸部检测模型输出的口型参数，因此本实施例中仅需要获得个性化的口型BS模型，不需要获得针对其他类型参数的个性化BS模型。

另外，需要说明的是，引入个性化的口型BS模型的最终目的是使得脸部检测模型对于不同个体的同一发音口型，预测出的口型动作单元强度尽可能一致，以便依据受试者和目标参考者的发音视频中检测出的口型动作单元强度的对比结果，获得更加准确地受试者发音质量测试结果。而第一阶段的训练过程中，由于针对所有人脸样本图像进行人脸重建的过程中，都是采用同一通用的口型BS模型，不能体现不同个体的差异，使得训练出的第二脸部检测模型针对不同个人的同一口型，预测出的口型动作单元强度的不一致性更加明显。因此，在完成第一阶段的训练，使得第二脸部检测模型能够具有初步的口型参数检测能力后，在第二阶段，使用第二脸部检测模型，以便基于第二脸部检测模型的输出结果学习到不同个体各自对应的口型BS模型。

具体来说，在第二阶段，使用第一阶段训练好的第二脸部检测模型以及人脸重建模型，对训练集中的各人脸样本图像进行人脸重建。以其中的第二人脸样本图像为例，将第二人脸样本图像输入第二脸部检测模型，得到第二人脸样本图像对应的多种人脸重建参数，多种人脸重建参数中包括身份参数。然后，将身份参数输入到人脸重建模型，得到第二人脸三维模型。之后，根据第二人脸三维模型、预设中性人脸三维模型以及通用口型BS模型，通过预设形变迁移算法，确定第二人脸样本图像对应的训练者的口型BS模型。

在第二阶段中进行人脸重建时，如上所述，可选地，为简化处理过程，可以仅使用第二脸部检测模型输出的多种人脸重建参数中的身份参数进行人脸重建，得到第二人脸三维模型。因为身份参数是用于区分不同个体人脸形状的主要参数，而个性化口型BS模型的获取，便是针对不同个体获取与之对应的口型BS模型。当然，使用多种人脸重建参数来生成第二人脸三维模型也是可以的。之后，基于某种形变迁移(deformation transfer)算法，通过形变迁移的方式，得到与该第二人脸三维模型相对应的口型BS模型，作为第二人脸样本图像中的训练者所对应的口型BS模型。

简单来说，形变迁移算法需要已知三种输入信息：源始对象A，与A对应的发生形变的对象A’，目标对象B，需要求解的是目标对象B形变后的对象B’。其中，需要按照使得A变为A’的形变方式，作用到目标对象B上，得到对目标对象B进行该形变方式的形变处理后的结果B’。

基于上述形变迁移算法的原理，本实施例中，作为源始对象A的是预设的中性人脸三维模型，作为与A对应的发生形变的对象A’的是：通用的口型BS模型，作为目标对象B的是：第二人脸三维模型。形变迁移算法基于这三个输入信息便可以得到B’：第二人脸样本图像对应的训练者的口型BS模型。

假设训练集中一共包含500个训练者，那么通过第二阶段，便可以学习到这500个训练者各自的口型BS模型。

之后，在第三阶段，利用每个训练者的口型BS模型，微调第一阶段中训练好的第二脸部检测模型，得到最终的第三脸部检测模型。

仍以第二人脸样本图像为例，通过第二脸部检测模型获得第二人脸样本图像对应的多种人脸重建参数后，在第三阶段中，将第二人脸样本图像对应的多种人脸重建参数以及其中训练者的口型BS模型输入到人脸重建模型，得到第三人脸三维模型，并基于第三人脸三维模型和该多种人脸重建参数生成第二人脸重建图像。之后，根据第二人脸样本图像与第二人脸重建图像确定损失函数值，根据确定出的损失函数值训练第二脸部检测模型。

本实施例中，考虑到不同个体的发音的口型上的差异，通过引入个性化的口型BS模型，对用于进行口型动作单元强度检测的脸部检测模型进行优化训练，使得基于优化后的脸部检测模型能够检测出更准确的口型动作单元强度，从而有助于提高受试者的发音质量测试结果的准确性。

本发明实施例提供的视频识别方法可以在云端来执行，在云端可以部署有若干计算节点(云服务器)，每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口，用户调用该服务接口以使用相应的服务。

针对本发明实施例提供的方案，云端可以提供有发音质量测试服务的服务接口，用户通过用户设备调用该服务接口，以向云端触发发音质量测试请求，该请求中包括受试者朗读目标内容的第一视频，以及目标参考者朗读所述目标内容的第二视频。云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行如下步骤：

对比所述多帧第一图像各自对应的口型动作单元强度与所述多帧第二图像各自对应的口型动作单元强度，以确定所述受试者的发音质量；其中，任一图像对应的口型动作单元强度是指形成所述任一图像中的口型时，多种预设口型动作单元分别对应的强度系数；

将所述受试者的发音质量反馈至用户设备。

上述执行过程可以参考前述其他实施例中的相关说明，在此不赘述。

为便于理解，结合图11来示例性说明。用户可以通过图11中示意的用户设备E1调用发音质量测试服务，以上传包含受试者朗读目标内容的第一视频以及目标参考者朗读目标内容的第二视频的服务请求。用户调用该服务的服务接口包括软件开发工具包(Software Development Kit，简称SDK)、应用程序接口(Application ProgrammingInterface，简称API)等形式。图11中示意的是API接口的情形。在云端，如图中所示，假设由服务集群E2提供发音质量测试服务，服务集群E2中包括至少一个计算节点。服务集群E2收到该请求后，执行前述实施例中所述的步骤，以得到受试者的发音质量，将受试者的发音质量发送给用户设备E1。

以下将详细描述本发明的一个或多个实施例的发音质量测试装置。本领域技术人员可以理解，这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图12为本发明实施例提供的一种发音质量测试装置的结构示意图，如图12所示，该装置包括：获取模块11、检测模块12和确定模块13。

获取模块11，用于获取受试者朗读目标内容的第一视频，以及目标参考者朗读所述目标内容的第二视频。

检测模块12，用于对所述第一视频中多帧第一图像分别进行口型动作单元强度检测，得到所述多帧第一图像各自对应的口型动作单元强度；以及，对所述第二视频中多帧第二图像分别进行口型动作单元强度检测，得到所述多帧第二图像各自对应的口型动作单元强度。

确定模块13，用于对比所述多帧第一图像各自对应的口型动作单元强度与所述多帧第二图像各自对应的口型动作单元强度，以确定所述受试者的发音质量；其中，任一图像对应的口型动作单元强度是指形成所述任一图像中的口型时，多种预设口型动作单元分别对应的强度系数。

可选地，所述装置还包括：聚类模块，用于获取多个参考者朗读所述目标内容的多个第三视频；对目标第三视频中多帧第三图像分别进行口型动作单元强度检测，得到所述多帧第三图像各自对应的口型动作单元强度，所述目标第三视频是所述多个第三视频中任一个；根据所述多帧第三图像各自对应的口型动作单元强度，确定所述目标第三视频对应的口型特征向量；对所述多个第三视频各自对应的口型特征向量进行聚类，得到多个聚类结果；根据所述多帧第一图像各自对应的口型动作单元强度，确定所述第一视频对应的口型特征向量；从所述多个聚类结果中确定与所述第一视频对应的口型特征向量对应的目标聚类结果；从所述目标聚类结果所对应的参考者中确定所述目标参考者。

可选地，所述确定模块13具体用于：根据所述多帧第一图像各自对应的口型动作单元强度的变化程度，确定所述受试者的多个停顿点；根据所述多帧第二图像各自对应的口型动作单元强度的变化程度，确定所述目标参考者的多个停顿点；根据所述受试者的多个停顿点，确定所述受试者的多个发音片段；以及，根据所述目标参考者的多个停顿点，确定所述目标参考者的多个发音片段；其中，一个发音片段包括相邻停顿点之间的多帧图像；对比所述受试者的多个发音片段和所述目标参考者的多个发音片段，以确定所述受试者的发音连贯性总分数和/或发音正确性总分数，以根据所述发音连贯性总分数和/或所述发音正确性总分数确定所述受试者的发音质量。

可选地，所述确定模块13具体用于：确定所述受试者的多个发音片段各自对应的时长；确定所述目标参考者的多个发音片段各自对应的时长；根据所述受试者的多个发音片段各自对应的时长以及所述目标参考者的多个发音片段各自对应的时长，确定所述受试者的多个发音连贯性分数，其中，所述多个发音连贯性分数对应于所述受试者的多个发音片段；根据所述多个发音连贯性分数，确定所述受试者的发音质量。

可选地，所述确定模块13具体用于：将所述多个发音连贯性分数输入至连贯性分数权重预测模型，得到所述多个发音连贯性分数的权重；根据所述多个发音连贯性分数的权重确定所述受试者的发音连贯性总分数；根据所述受试者的发音连贯性总分数，确定所述受试者的发音质量，所述连贯性分数权重预测模型为神经网络模型。

可选地，所述确定模块13具体用于：获取所述受试者的第一发音片段对应的口型动作单元强度，以及所述目标参考者的第二发音片段对应的口型动作单元强度，其中，所述第一发音片段在所述受试者的多个发音片段中对应的序号与所述第二发音片段在所述目标参考者的多个发音片段中对应的序号相同；对比所述受试者的第一发音片段对应的口型动作单元强度与所述目标参考者的第二发音片段对应的口型动作单元强度，以确定所述受试者的第一发音片段的发音正确性分数；根据所述受试者的多个发音正确性分数，确定所述受试者的发音质量，其中，所述多个发音正确性分数对应于所述受试者的多个发音片段。

可选地，所述确定模块13具体用于：分别对所述受试者的第一发音片段以及所述目标参考者的第二发音片段进行文字识别处理，以得到所述第一发音片段对应的第一文字内容以及所述第二发音片段对应的第二文字内容，其中，所述第一发音片段在所述受试者的多个发音片段中对应的序号与所述第二发音片段在所述目标参考者的多个发音片段中对应的序号相同；对比所述第一文字内容与所述第二文字内容，以确定所述受试者的第一发音片段的发音正确性分数；根据所述受试者的多个发音正确性分数，确定所述受试者的发音质量，其中，所述多个发音正确性分数对应于所述受试者的多个发音片段。

可选地，所述确定模块13具体用于：将所述多个发音正确性分数输入至正确性分数权重预测模型，得到所述多个发音正确性分数的权重；根据所述多个发音正确性分数的权重确定所述受试者的发音正确性总分数；根据所述受试者的发音正确性总分数，确定所述受试者的发音质量，所述正确性分数权重预测模型为神经网络模型。

可选地，所述装置还包括：训练模块，用于获取第一人脸样本图像；将所述第一人脸样本图像输入第一脸部检测模型，得到所述第一人脸样本图像对应的多种人脸重建参数，所述多种人脸重建参数中包括口型动作单元强度；将所述第一人脸样本图像对应的多种人脸重建参数输入到人脸重建模型，得到第一人脸三维模型，并基于所述多种人脸重建参数和所述第一人脸三维模型生成第一人脸重建图像；根据所述第一人脸样本图像与所述第一人脸重建图像确定损失函数值；根据所述损失函数值训练所述第一脸部检测模型。

其中，可选地，所述训练模块具体用于：提取所述第一人脸样本图像对应的第一人脸特征以及所述第一人脸重建图像对应的第二人脸特征；根据所述第一人脸特征和所述第二人脸特征确定第一损失函数值；提取所述第一人脸样本图像中的第一人脸关键点，以及从所述第一人脸三维模型中获取第二人脸关键点；根据所述第一人脸关键点和所述第二人脸关键点确定第二损失函数值；对比所述第一人脸样本图像和所述第一人脸重建图像的像素值，以确定第三损失函数值。

可选地，所述训练模块还用于：获取第二人脸样本图像；将所述第二人脸样本图像输入第二脸部检测模型，得到所述第二人脸样本图像对应的多种人脸重建参数，所述多种人脸重建参数中包括身份参数，其中，所述第二脸部检测模型是将所述第一脸部检测模型训练至符合设定截止条件时得到的模型；将所述身份参数输入到所述人脸重建模型，得到第二人脸三维模型；根据所述第二人脸三维模型、预设中性人脸三维模型以及通用口型变形基模型，通过预设形变迁移算法，确定所述第二人脸样本图像对应的训练者的口型变形基模型；根据所述训练者的口型变形基模型对所述第二脸部检测模型进行优化训练。

其中，可选地，对所述第二脸部检测模型进行优化训练的过程中，所述训练模块具体用于：将所述第二人脸样本图像对应的多种人脸重建参数以及所述训练者的口型变形基模型输入到所述人脸重建模型，得到第三人脸三维模型，并基于所述第三人脸三维模型和所述多种人脸重建参数生成第二人脸重建图像；根据所述第二人脸样本图像与所述第二人脸重建图像确定损失函数值；根据所述损失函数值训练所述第二脸部检测模型。

图12所示装置可以执行前述实施例中的步骤，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图12所示发音质量测试装置的结构可实现为一电子设备。如图13所示，该电子设备可以包括：处理器21、存储器22、通信接口23。其中，存储器22上存储有可执行代码，当所述可执行代码被处理器21执行时，使处理器21至少可以实现如前述实施例中提供的发音质量测试方法。

在一可选实施例中，用于执行本发明实施例提供的视频识别方法的电子设备可以是任一种用户终端，比如手机、笔记本电脑、PC机，还可以是扩展现实(Extended Reality，简称XR)设备。XR，是虚拟现实、增强现实等多种形式的统称。

在实际应用中，可以在XR设备中运行有发音质量测试程序，当该程序被启动后，可以在相关程序界面上显示多个测试内容以及每个测试内容对应的参考者视频(即某参考者朗读相应测试内容时的视频)。根据测试需求从中选择一个目标内容以及目标参考者朗读该目标内容的视频(第二视频)。在XR设备屏幕上显示该视频，以便受试者观看该视频进行跟读。

在一可选实施例中，在对受试者跟读产生的第一视频进行发音质量判定的过程中，可以产出一些中间结果，比如上文实施例中所述的受试者以及目标参考者的多个发音片段所对应的停顿位置、受试者每个发音片段的连贯性分数、正确性分数、受试者的健康度分数。这些中间结果也可以在XR设备的屏幕上进行显示，以便更为直观地了解受试者的发音具体情况。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述实施例中提供的发音质量测试方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种发音质量测试方法，其特征在于，包括：

对所述第一视频中多帧第一图像分别进行口型动作单元强度检测，得到所述多帧第一图像各自对应的口型动作单元强度；对所述第二视频中多帧第二图像分别进行口型动作单元强度检测，得到所述多帧第二图像各自对应的口型动作单元强度；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个参考者朗读所述目标内容的多个第三视频；

对目标第三视频中多帧第三图像分别进行口型动作单元强度检测，得到所述多帧第三图像各自对应的口型动作单元强度，所述目标第三视频是所述多个第三视频中任一个；

根据所述多帧第三图像各自对应的口型动作单元强度，确定所述目标第三视频对应的口型特征向量；

对所述多个第三视频各自对应的口型特征向量进行聚类，得到多个聚类结果；

根据所述多帧第一图像各自对应的口型动作单元强度，确定所述第一视频对应的口型特征向量；

从所述多个聚类结果中确定与所述第一视频对应的口型特征向量对应的目标聚类结果；

从所述目标聚类结果所对应的参考者中确定所述目标参考者。

3.根据权利要求1所述的方法，其特征在于，所述对比所述多帧第一图像各自对应的口型动作单元强度与所述多帧第二图像各自对应的口型动作单元强度，以确定所述受试者的发音质量，包括：

根据所述多帧第一图像各自对应的口型动作单元强度的变化程度，确定所述受试者的多个停顿点；

根据所述多帧第二图像各自对应的口型动作单元强度的变化程度，确定所述目标参考者的多个停顿点；

根据所述受试者的多个停顿点，确定所述受试者的多个发音片段；以及，根据所述目标参考者的多个停顿点，确定所述目标参考者的多个发音片段；其中，一个发音片段包括相邻停顿点之间的多帧图像；

对比所述受试者的多个发音片段和所述目标参考者的多个发音片段，以确定所述受试者的发音连贯性总分数和/或发音正确性总分数，以根据所述发音连贯性总分数和/或所述发音正确性总分数确定所述受试者的发音质量。

4.根据权利要求3所述的方法，其特征在于，所述对比所述受试者的多个发音片段和所述目标参考者的多个发音片段，以确定所述受试者的发音质量，包括：

确定所述受试者的多个发音片段各自对应的时长；

确定所述目标参考者的多个发音片段各自对应的时长；

根据所述受试者的多个发音片段各自对应的时长以及所述目标参考者的多个发音片段各自对应的时长，确定所述受试者的多个发音连贯性分数，其中，所述多个发音连贯性分数对应于所述受试者的多个发音片段；

根据所述多个发音连贯性分数，确定所述受试者的发音质量。

5.根据权利要求4所述的方法，其特征在于，所述根据所述多个发音连贯性分数，确定所述受试者的发音质量，包括：

将所述多个发音连贯性分数输入至连贯性分数权重预测模型，得到所述多个发音连贯性分数的权重，所述连贯性分数权重预测模型为神经网络模型；

根据所述多个发音连贯性分数的权重确定所述受试者的发音连贯性总分数；

根据所述受试者的发音连贯性总分数，确定所述受试者的发音质量。

6.根据权利要求3所述的方法，其特征在于，所述对比所述受试者的多个发音片段和所述目标参考者的多个发音片段，以确定所述受试者的发音质量，包括：

获取所述受试者的第一发音片段对应的口型动作单元强度，以及所述目标参考者的第二发音片段对应的口型动作单元强度，其中，所述第一发音片段在所述受试者的多个发音片段中对应的序号与所述第二发音片段在所述目标参考者的多个发音片段中对应的序号相同；

对比所述受试者的第一发音片段对应的口型动作单元强度与所述目标参考者的第二发音片段对应的口型动作单元强度，以确定所述受试者的第一发音片段的发音正确性分数；

根据所述受试者的多个发音正确性分数，确定所述受试者的发音质量，其中，所述多个发音正确性分数对应于所述受试者的多个发音片段。

7.根据权利要求3所述的方法，其特征在于，所述对比所述受试者的多个发音片段和所述目标参考者的多个发音片段，以确定所述受试者的发音质量，包括：

分别对所述受试者的第一发音片段以及所述目标参考者的第二发音片段进行文字识别处理，以得到所述第一发音片段对应的第一文字内容以及所述第二发音片段对应的第二文字内容，其中，所述第一发音片段在所述受试者的多个发音片段中对应的序号与所述第二发音片段在所述目标参考者的多个发音片段中对应的序号相同；

对比所述第一文字内容与所述第二文字内容，以确定所述受试者的第一发音片段的发音正确性分数；

8.根据权利要求6或7所述的方法，其特征在于，所述根据所述受试者的多个发音正确性分数，确定所述受试者的发音质量，包括：

将所述多个发音正确性分数输入至正确性分数权重预测模型，得到所述多个发音正确性分数的权重，所述正确性分数权重预测模型为神经网络模型；

根据所述多个发音正确性分数的权重确定所述受试者的发音正确性总分数；

根据所述受试者的发音正确性总分数，确定所述受试者的发音质量。

9.根据权利要求1所述的方法，其特征在于，用于进行口型动作单元强度检测的脸部检测模型的训练过程，包括：

获取第一人脸样本图像；

将所述第一人脸样本图像输入第一脸部检测模型，得到所述第一人脸样本图像对应的多种人脸重建参数，所述多种人脸重建参数中包括口型动作单元强度；

将所述第一人脸样本图像对应的多种人脸重建参数输入到人脸重建模型，得到第一人脸三维模型，并基于所述多种人脸重建参数和所述第一人脸三维模型生成第一人脸重建图像；

根据所述第一人脸样本图像与所述第一人脸重建图像确定损失函数值；

根据所述损失函数值训练所述第一脸部检测模型。

10.根据权利要求9所述的方法，其特征在于，所述根据所述第一人脸样本图像与所述第一人脸重建图像确定损失函数值，包括：

提取所述第一人脸样本图像对应的第一人脸特征以及所述第一人脸重建图像对应的第二人脸特征；

根据所述第一人脸特征和所述第二人脸特征确定第一损失函数值；

提取所述第一人脸样本图像中的第一人脸关键点，以及从所述第一人脸三维模型中获取第二人脸关键点；

根据所述第一人脸关键点和所述第二人脸关键点确定第二损失函数值；

对比所述第一人脸样本图像和所述第一人脸重建图像的像素值，确定第三损失函数值。

11.根据权利要求9所述的方法，其特征在于，所述方法还包括：

获取第二人脸样本图像；

将所述第二人脸样本图像输入第二脸部检测模型，得到所述第二人脸样本图像对应的多种人脸重建参数，所述多种人脸重建参数中包括身份参数，其中，所述第二脸部检测模型是将所述第一脸部检测模型训练至符合设定截止条件时得到的模型；

将所述身份参数输入到所述人脸重建模型，得到第二人脸三维模型；

根据所述第二人脸三维模型、预设中性人脸三维模型以及通用口型变形基模型，通过预设形变迁移算法，确定所述第二人脸样本图像对应的训练者的口型变形基模型；

根据所述训练者的口型变形基模型对所述第二脸部检测模型进行优化训练。

12.根据权利要求11所述的方法，其特征在于，所述根据所述训练者的口型变形基模型对所述第二脸部检测模型进行优化训练，包括：

将所述第二人脸样本图像对应的多种人脸重建参数以及所述训练者的口型变形基模型输入到所述人脸重建模型，得到第三人脸三维模型，并基于所述第三人脸三维模型和所述多种人脸重建参数生成第二人脸重建图像；

根据所述第二人脸样本图像与所述第二人脸重建图像确定损失函数值；

根据所述损失函数值训练所述第二脸部检测模型。

13.一种发音质量测试方法，其特征在于，包括：

利用所述发音质量测试服务对应的处理资源执行如下步骤：

14.一种发音质量测试方法，其特征在于，应用于扩展现实设备，所述方法包括：

在所述扩展现实设备屏幕上渲染显示所述发音质量。