CN108038461B

CN108038461B - 交互式外语口型和舌型同时矫正的***和方法

Info

Publication number: CN108038461B
Application number: CN201711403011.4A
Authority: CN
Inventors: 申磊; 李佩珊; 段珂; 仝露华; 付余佩
Original assignee: Henan Institute of Technology
Current assignee: Henan Institute of Technology
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2020-05-08
Anticipated expiration: 2037-12-22
Also published as: CN108038461A

Abstract

本发明涉及一种交互式外语口型和舌型同时矫正***及方法。利用结构光进行用户面部口型识别，并在服务器上对教师和学生的口型、语音、文字信息进行对比分析从而发现外语朗读过程中的口型问题。本发明通过“辅导”、“跟读”、“重复”、“矫正舌型”等多个模式，使得在外语学习中，朗读口型、舌型矫正过程更优针对性，多个用户之间交互性更好，能够更准确有效地进行口型和舌型矫正。

Description

交互式外语口型和舌型同时矫正的***和方法

技术领域

本发明属于智能识别领域，特别属于利用结构光进行口型和舌型同时识别领域。

背景技术

口型问题导致发音不正确一直是困扰使用外语人员的问题。现有技术中已经探索了很多方法解决这一问题。例如：观看标准发音视频，对照视频中人物示范的口型进行改进。但这种方法并不是交互式，使用者无法衡量自己口型是否正确。为了解决这一问题，现有技术中也出现了采集使用者面部特征，并将用户面部特征与标准面部特征进行视频或图像的对比，从而找出差距。特别是一些技术还对读音进行切分，提取某个单元的发音，与标准发音对比，并且根据该单元发音确定该发音所对应的图像，并与标准图像对比，从而对用户发音与口型进行全面评价。虽然用户利用这种***/方法可以了解自己口型及发音的情况，但依然存在以下问题：①用户只能与标准图像进行对比，缺少交互性，无法针对自己特殊的问题提出额外的演示要求。也没有办法和其他学习者进行对比比较，不利于激发学习动力。②面部识别不准确。首先，目前现有的识别需求对准确性要求不高，因此本领域没有动机过度提高成本提高准确性。其次，利用摄像机进行的视频或图像拍摄是二维信息，而人的面部，特别是嘴附近有丰富的立体信息，将这些信息丢失将导致口型识别不准确。③现有***均是在电脑、电视或其他相对固定、体积大、处理能力强的装置上实现观看和使用，使用场合固定，使用不方便④现有拍摄视频和图像均采用通用的光学摄像头，无法实现高精度脸部信息采集。⑤利用切分语音信号再寻找对应的图像信号进行比较的方式算法复杂，且依赖于语音识别的准确性，会导致比对结果不准确。⑥口型并不是发音不准确的唯一问题，发音不准确的原因在于口型和舌型的双重影响，现有技术没有意识到要区分两者，因此训练效率低。

发明内容

为解决准确、方便、有效纠正外语发音的上述技术问题，现提出本发明。但本发明要解决的技术问题不限于此，上下文中提到的技术问题同样是本发明可以解决的技术问题，特别是实施例中的诸多技术问题，是实现本发明最佳效果所要解决的技术问题。

本发明的技术方案

一种交互式外语口型矫正方法，其特征在于包括如下步骤：

步骤1：教师客户端向教师显示一段外语文字供教师朗读；

步骤2：教师客户端根据教师触摸文字的信号，启动语音采集和结构光采集；教师客户端的结构光发射器发射结构光至教师用户面部，反射的多个结构光图像被教师客户端的结构光接收器接收；

步骤3：在朗读结束后，教师客户端将文字、语音、多个结构光图像发送给服务器，并向服务器指定待发送的一个或多个学生客户端；

步骤4：服务器将多个结构光图像模型化，对应生成多个口型图像，并根据教师客户的指定，将文字、语音及多个口型图像发送至一个或多个学生客户端；

步骤5：学生客户端接收到服务器发送来的文字、语音及多个口型图像后，首先将文字内容呈现给学生；

步骤6：学生客户端在学生触摸文字后启动朗读练习模式；

步骤7：学生客户端启动语音及结构光图像采集，学生客户端的结构光发射器发射结构光至学生用户面部，反射的结构光图像被学生客户端的结构光接收器接收；

步骤8：在朗读结束后，学生客户端将文字、及其采集的语音、多个结构光图像发送给服务器，并向服务器发送分析请求；

服务器启动如下分析：将学生客户端发送的多个结构光图像模型化，对应生成多个口型图；比较教师客户端和学生客户端对应的多个口型图像，找出两者相似度小于一定范围的口型图；再根据该口型图找到对应的结构光图像，进而找到与之对应的语音片段，对比教师语音片段和学生语音片段的相似度，相似度小于一定范围则认为该学生发音有问题，且是由于口型导致的。

服务器将涉及上述问题的多个教师口型图像和多个学生口型图像及对应语音和文字发送给教师客户端和学生客户端。

在学生客户端上同时显示涉及问题的文字、教师口型图像和学生口型图像，并播放对应语音，供学生对照。

服务器分析得出口型导致发音问题后，学生客户端向学生提供跟读模式。

服务器分析得出口型导致发音问题后，学生客户端向学生提供辅导模式。

一种交互式外语舌型矫正方法，包括如下步骤：

步骤1：学生客户端接收服务器发送来的与教师客户端相关的多个教师口型图像、对应的语音和文字，并将它们显示；

步骤2：学生客户端响应用户对于显示文字的点击动作，开始采集用户朗读语音，同时学生客户端的结构光发射器开始发射结构光，学生客户端的结构光接收器开始接收从用户面部反射的结构光；学生客户端将用户面部的结构光图像、用户朗读的语音和对应的文字发送给服务器。

步骤3：服务器接收用户发送的结构光图像、语音和文字，并将结构光图像模型化，生成学生口型图像，并将其发送回学生客户端；同时，服务器将新的口型图像与标准口型图像进行比较两者相似度大于一定范围则认为合格，服务器将合格信息返回给学生客户端；

步骤4：学生客户端将学生口型图像和标准口型图像同时在屏幕上显示，用户可以自行观察自己口型是否与标准口型一致，也可以参考服务器返回的合格信息；若不一致，则自行调整直至一致为止。

步骤5：在学生口型图像与标准口型图像一致的情况下，服务器比较此时用户的发音与标准发音是否一致，若相似度在一定范围以下，则向学生客户端发送舌型不对的信号；

步骤6：学生客户端收到舌型不正确的信号后，提示用户在保持正确口型不变的前提下，再次变换舌型进行朗读；学生客户端采集客户语音，并上传服务器，服务器比较此时用户的发音与标准发音是否一致，若相似度在一定范围以下，则向客户端发送舌型不正确的信号，继续重复步骤6，直至用户找到一种舌型，使得发音与标准发音一致。

一种执行上述矫正方法的交互式外语发音矫正***，包括：

教师客户端，包括结构光发射器和结构光接收器；同时采集教师的语音、结构光图像，并为其打上时间戳，保证两者同步采集且可以相互对应；将文字、与其对应的语音及多个结构光图像发送给服务器，并接收服务器返回的文字、与其对应的语音、及多个口型图；

学生客户端，包括结构光发射器和结构光接收器；同时采集学生的语音、结构光图像，并为其打上时间戳，保证两者同步采集且可以相互对应；将文字、与其对应的语音及多个结构光图像发送给服务器，并接收服务器返回的文字、与其对应的语音、及多个口型图；还用于在收到舌型不正确的信号后，提示用户在保持正确口型不变的前提下，再次变换舌型进行朗读；

服务器，接收教师客户端及学生客户端发送的文字、语音、多个结构光图像，将其中多个结构光图像模型化生成多个口型图像，并根据用户指令将文字、语音和多个口型图像发送给指定客户端；

比较学生客户端和教师客户端的多个口型图像，找出两者相似度小于一定范围的口型图，再根据该口型图找到对应的结构光图像，进而找到与之对应的语音片段，对比教师语音片段和学生语音片段的相似度，相似度小于一定范围则认为该学生发音有问题，且是由于口型导致的；

还用于在学生口型图像与教师口型图像一致的情况下，服务器比较此时用户的发音与标准发音是否一致，若相似度在一定范围以下，则向学生客户端发送舌型不对的信号。

结构光发射器包括红外激光发射单元和镜头。

红外激光发射单元依次包括红外激光源、扩束镜片和点状光栅。

所述镜头包括三组透镜，其中至少一个面为非球面。

本发明的发明点：

①***采用教师端手机和多个学生端手机相连，学生不仅可以将自己口型与***标准口型对比，而且可以根据自己口型的问题通过***向老师提出额外演示需求，使得学习更有针对性。

②***中多个学生端手机相连，学生可以将自己口型与其他学生对比，进行互相监督，激发学习兴趣。

③不依赖于语音识别的准确性，以文字作为面部识别和对照的触发方式，再根据面部识别的结果去比较对应的语音信号，矫正效果更好。

④利用红外激光投影，进行三维信息采集，提高口型识别的准确性，训练正确口型，并且能在固定口型的基础上纠正舌型。

⑤采用独特的光学镜头实现在小设备、近距离的情况下投射较大面积，覆盖使用者面部。

⑥在手机等移动小设备上实现上述所有功能，使用更方便。对手机要求不高，将数据传递至服务器，更多的处理在服务器上进行。

⑦创造性地提出将外部口型和舌型因素区分开。利用标准口型图像和客户端，固定使用者口型，使其能够在此基础上不断尝试舌型，从而找到正确口型基础上的正确舌型，从而准确发音。

本发明达到的技术效果

①使用交互性更强，能够根据需要提出特殊演示需求。②能够激发学习兴趣。③识别更准确，矫正效果好。④能够在手机上实现，使用更方便。⑤有效区分口型和舌型，两方面同时矫正，真正实现发音纠正。

本发明实现的技术效果不限于此，上文及下文中提到的技术效果同样是本发明可以实现的，特别是实施例中的诸多技术效果，是本发明最佳实施例达到的技术效果。

附图说明

图1为外语口型和舌型矫正***示意图。

图2为外语口型和舌型矫正***客户端的示意图。

图3为结构光发射器的镜头示意图。

具体实施方式

外语口型和舌型矫正***工作原理

外语口型和舌型矫正***包括服务器、教师客户端、多个学生客户端。教师可以通过教师客户端朗读一段文字，并由客户端生成教师的语音和多个结构光图像（具体生成方法后续介绍），根据教师指令，客户端将文字发送给指定的多个学生客户端，并将文字、语音和结构光图像发送给服务器。学生客户端收到文字后，将其呈现在屏幕或投影上。学生点击文字开始跟读，同时学生客户端生成学生的语音和多个结构光图像，并将语音和结构光图像发送给服务器。服务器将教师的结构光图像和学生的结构光图像进行模型化，分别得到多个教师口型图和学生口型图，并对两者进行一一比较，找出两者相似度小于一定范围（例如80%）的口型图。再根据该口型图找到对应的结构光图像，进而找到与之对应的语音片段，对比教师语音片段和学生语音片段的相似度，相似度小于一定范围（例如80%）则认为该学生发音有问题，且是由于口型导致的。这样一方面可以避免语音识别的误差，另一方面可以准确找到由于口型而导致的发音问题，而不会将例如语音识别问题、背景噪音问题误判为发音问题，从而加重***分析负担。这也是本发明的发明点之一。

上述模型化可采用现有的三维激光点云数据生成模型的方法。例如可以用PCL平台对点云数据进行滤波，利用Cyclone平台对点云数据进行匹配，利用PCL平台对点云数据进行压缩，利用Geomagic Studio平台进行3D建模，利用3Dmax对3D模型进行贴图。

图像相似度和语音相似度也可以用现有的相似度匹配方法进行计算。例如语音相似度可以采用如下方法：对声音信号的形状进行傅里叶变换处理，向上用1表示，向下用0表示，这样声音信号的形状就可以数字化，再根据海明距离，算出相似度。这样方法简单，***负担更小，也是发明点之一。图像相似度可以利用诸如尺度不变特征转换法进行处理得到。

***还可以将一个学生客户端的三种数据发送给另一个学生客户端，从而在学生之间进行互相学习和比较，增进学习兴趣。

***还可以将学生口型图像和教师口型图像同时在屏幕上显示，学生用户参考服务器返回的合格信息；若不一致，则自行调整直至一致为止。在学生口型图像与教师口型图像一致的情况下，服务器比较此时用户的发音与标准发音是否一致，若相似度在80%以下，则向学生客户端发送舌型不正确的信号；学生客户端收到舌型不正确的信号后，提示学生用户在保持正确口型不变的前提下，再次变换舌型进行朗读；学生客户端采集客户语音，并上传服务器，服务器比较此时学生用户的发音与教师发音是否一致，若相似度在80%以下，则向客户端发送舌型不正确的信号，继续重复本步骤，直至学生用户找到一种舌型，使得发音与标准发音相似度大于80%。这样，用户可以既保证口型正确，又保证舌型正确，从而真正达到发音准确。根据研究表明，60%以上的发音不准确原因其实是舌型，特别是一些发音近似的音节，舌型起到更为重要的因素。因此本发明创造性地提出了纠正口型-固定口型-纠正舌型的构思，可以避免传统方法中仅仅不断摸索、纠正口型，也无法高效、准确的进行发音的问题。

客户端工作原理

客户端通常为手机、平板等移动设备，可以方便用户使用。客户端100包括结构光发射器102、结构光接收器103、投影器101。

结构光发射器102可以向用户面部发射多个激光点，通常为100×100激光点阵。由于在纠正舌型时，需要反复识别比较口型，因此点阵数量不易过大（例如不宜超过170×170），过大会导致***处理速度较慢，无法实时比较，也就无法实现“固定口型，纠正舌型”的技术构思。但也不宜过小（例如不宜小于65×65），过小会导致识别不准确。经过大量实验，优选100×100激光点阵。结构光发射器光源波长为900nm，肉眼不可见。结构光接收器103采集用户脸部反射的由激光点阵构成的结构光，形成用户脸部，特别是嘴部附近的结构光图像。并将上述结构光图像发送给服务器，服务器将结构光图像进行模型化形成口型图，并将其返回给客户端。

投影器101可以向投影屏幕300上投射口型图，方便用户观看自己或他人的口型图。同时，还可以投射文字，方便用户一边观看文字一边朗读。即在投影屏幕300左边显示文字内容，右边显示口型图。而且，可以重叠显示两个口型图，例如可以用淡色或虚线显示标准口型图或教师口型图或他人口型图，而在其上叠加显示用户自己的口型图，从而准确进行比较。这也是发明点之一。当然，也可以在投影屏幕300右上显示标准口型图或教师口型图或他人口型图，而在右下显示用户自己的口型图。另外，上述内容均可以在客户端自身的屏幕上显示，显示方式与投影屏幕相同。但由于手机屏幕尺寸有限，难以清楚发现口型的区别，因此采用投影投射的方式是更佳的，这也是发明点之一。

客户端可以同时采集客户的语音、结构光图像，并为其打上时间戳，保证两者同步采集且可以相互对应。客户端将文字、与其对应的语音及结构光图像发送给服务器，并接收服务器返回的文字、与其对应的语音、及口型图。

结构光发射器102需要在短距离内投射较大范围的光，才能保证覆盖用户面部，特别是嘴部，而且镜头尺寸要小，因此结构光发射器102的光学镜头需要专门设计。普通投影或激光发射器镜头并不适合。为此，本发明专门设计的如下。结构光发射器102包括红外激光发射单元1024和镜头。

红外激光发射单元1024依次包括红外激光源、扩束镜片和点状光栅，其中扩束镜片为凹透镜，焦距为F2。红外激光源的波长为900nm。

镜头包括镜片1021、1022、1023，每个镜片有两个面，分别为S1、S2、S3、S4、S5、S6。在光轴位置，S1和S2的距离为d1，S2和S3的距离为d2，S3和S4的距离为d3，S4和S5的距离为d4，S5和S6的距离为d5，S6和发射单元1024的距离为d6。面S1-S6的曲率半径分别为R1-R6。各个镜片满足如下关系：

d1=0.573，d2=1.385，d3=0.491，d4=0.313，d5=2.014，d6=0.439。

S1、S3-S6为球面，曲率半径R1=32.4，R3=10.25，R4=0.9，R5=2.1，R6=-42.6，单位mm。

S2为非球面，曲率半径满足下述公式：

R2=(1/3.9)H²{1+[1-(1-0.23189)(H/3.9)²]^1/2}-0.9643×10^-4×H⁴-1.1397×10^-5×H⁶-2.8539×10^-7×H⁸-1.1577×10^-8×H¹⁰，其中H为距光轴的垂直距离。

上述镜片组成的镜头焦距为F1

3.0<F1/F2<6.0。

这样的参数设计，投射角可以达到120°，在手持距离（15-70cm）使用时可以全面有效覆盖用户面部。在投射100×100激光点阵时，可以保证大多数点阵落在用户面部，从而保证嘴部附近的光点密度，使得口型识别准确，这样才能保证在固定口型的基础上纠正舌型。这也是本发明的发明点之一。

此外，保证投影激光点密度的方式优选还可以根据用户手持距离和初步得到的用户面对点云数据，调整投影角度，从而使得投射100×100激光点阵的85%落在用户面部。

服务器工作原理

接收客户端发送的文字、语音、结构光图像，将其中结构光图像模型化生成口型图像，并根据用户指令将文字、语音和口型图像发送给指定用户。

比较两个客户端的多个口型图像，找出两者相似度小于一定范围（根据大量数据分析得到，优选80%）的口型图。再根据该口型图找到对应的结构光图像，进而找到与之对应的语音片段，对比教师语音片段和学生语音片段的相似度，相似度小于一定范围（根据大量数据分析得到，优选80%）则认为该学生发音有问题，且初步是由于口型导致的。

一般口型矫正方法

步骤1：教师启动客户端，并选择客户端上的一端文字进行朗读。

步骤2：客户端根据教师触摸文字的信号，启动语音及结构光采集。结构光发射器102发射结构光至教师用户面部，反射的结构光图像被结构光接收器103接收。随着朗读进行，能够接收到一系列结构光图像。

步骤3：在朗读结束后，客户端将文字、语音、多个结构光图像发送给服务器，并向服务器指定待发送的一个或多个客户端。

步骤4：服务器将多个结构光图像模型化，生成口型图像，并根据教师客户的指定，将文字、语音及口型图像发送至一个或多个客户端。

步骤5：一个或多个客户端为学生使用，其接收到服务器发送来的文字、语音及多个口型图像后，首先将文字内容呈现给学生用户。可通过客户端屏幕，或投影屏幕呈现。

步骤6：学生用户根据需要选择文字，播放对应的语音和多个口型图像。或只显示文字，触摸文字后开始朗读练习。

步骤7：客户端启动语音及结构光采集。结构光发射器102发射结构光至学生用户面部，反射的结构光图像被结构光接收器103接收。随着朗读进行，能够接收到一系列结构光图像。

步骤8：在朗读结束后，客户端将文字、语音、多个结构光图像发送给服务器，并向服务器发送分析请求。

步骤9：服务器将多个结构光图像模型化，对应生成多个口型图。

步骤10：服务器比较两个客户端的多个口型图像，找出两者相似度小于一定范围（例如80%）的口型图。再根据该口型图找到对应的结构光图像，进而找到与之对应的语音片段，对比教师语音片段和学生语音片段的相似度，相似度小于一定范围（例如80%）则认为该学生发音有问题，且是由于口型导致的。

步骤:11：服务器将涉及上述问题的多个教师口型图像和多个学生口型图像及对应语音和文字发送给教师客户端和学生客户端。在学生客户端的投影屏幕上同时显示文字、多个教师口型图像和多个学生口型图像（多个口型图像组成视频流进行播放显示），并播放对应语音，供学生对照，发现自己发音问题。

针对性口型矫正方法

针对上面步骤中发现的口型问题，为了能够更准确的发现问题，纠正问题，学生可以请求专门训练有问题词，具体步骤如下：

步骤1：出现上述问题后，将不一致的学生口型图像对应的文字发送给学生客户端，并且利用客户端在投影屏幕上显示。

步骤2：学生用户如果觉得该文字发音的口型还不完全清楚，可以点击该文字，选择“重复”。客户端会重复播放与该文字对应的教师的多个口型图像供学生反复观看。

步骤3：学习完毕后，用户点击该文字，选择“跟读”，客户端结构光发射器102开始发射结构光，结构光接收器103开始接收从用户面部反射的结构光。用户一边朗读相应词语，客户端一边生成结构光图像、采集用户朗读语音。客户端将用户面部的结构光图像、用户朗读的语音和对应的文字发送给服务器。

步骤4：服务器接收用户发送的结构光图像、语音和文字，并将结构光图像模型化，生成新的口型图像，并将其与之前教师的口型图像进行比较（该口型图像为学生用户出现问题的文字（词语）所对应的口型图像），两者相似度大于一定范围（例如80%）时，则认为学生纠正完成。

步骤5：如果两者相似度小于80%，学生可以点击文字，选择“辅导”，客户端会将辅导请求，及学生的多个口型图像、对应语音和文字通过服务器发送给教师客户端，在教师客户端利用上述同样的方法显示三种信息，便于教师查找学生口型问题。

步骤6：教师查找到原因后，根据问题情况，语音或文字输入发音口型要点，并再次做有针对性的发音和口型示范。客户端按照上述一样的客户端采集信息的方法采集教师的三种信息，并将其发送给服务器，服务器生成口型图像后发送给学生客户端，供学生学习。从而实现了有针对性的交互式口型矫正训练。

舌型矫正方法

对于外语发音而言，除了口型外，舌型也会影响发音的正确性。但这两种因素通常交织在一起，使得发音变得难以学习。尤其对于初学者，很难清楚自己究竟是口型不对还是舌型不对，更无法学习到正确的口型和舌型，从而发音正确。为了解决这个问题，采用如下方法（该方法可以接着上述任何一种方法，也可以独立使用）。

步骤1：客户端接收服务器发送来的多个标准口型图像（组成口型视频流）、对应的语音和文字，并将它们显示。标准口型图像可以源自教师客户端，也可以是服务器预先存储好的。

步骤2：用户点击显示的文字，选择“舌型矫正”，客户端结构光发射器102开始发射结构光，结构光接收器103开始接收从用户面部反射的结构光。用户一边朗读相应词语，客户端一边生成结构光图像、采集用户朗读语音。客户端将用户面部的结构光图像、用户朗读的语音和对应的文字发送给服务器。

步骤4：服务器接收用户发送的结构光图像、语音和文字，并将结构光图像模型化，生成新的口型图像，并将其发送回客户端。同时，服务器将新的口型图像与标准口型图像进行比较两者相似度大于一定范围（例如80%）则认为合格，服务器将合格信息返回给客户端。

步骤5：客户端将用户的口型图像和标准口型图像同时在屏幕上显示（可分区域显示或重叠显示）。用户可以自行观察自己口型是否与标准口型一致，也可以参考服务器返回的合格信息。若不一致，则自行调整直至一致为止。

步骤6：在用户口型图像与标准口型图像一致的情况下，服务器比较此时用户的发音与标准发音是否一致，若相似度在80%以下，则向客户端发送舌型不对的信号（因为此时口型是正确的，发音不正确的主要原因就是舌型）。

步骤7：客户端收到舌型不正确的信号后，提示用户。用户保持正确口型不变的前提下，再次变换舌型进行朗读。客户端采集客户语音，并上传服务器，与标准语音进行比较，服务器比较此时用户的发音与标准发音是否一致，若相似度在80%以下，则向客户端发送舌型不对的信号，依次类推，直至用户找到一种舌型，使得发音与标准发音一致，此时即为正确口型和舌型。

联合训练口型、舌型方法

将上述口型训练方法与舌型训练方法结合在一起，先训练口型，再训练舌型。

教师客户端向教师显示一段外语文字供教师朗读；

教师客户端根据教师触摸文字的信号，启动语音采集和结构光采集；教师客户端的结构光发射器发射结构光至教师用户面部，反射的多个结构光图像被教师客户端的结构光接收器接收；

在朗读结束后，教师客户端将文字、语音、多个结构光图像发送给服务器，并向服务器指定待发送的一个或多个学生客户端；

服务器将多个结构光图像模型化，对应生成多个口型图像，并根据教师客户的指定，将文字、语音及多个口型图像发送至一个或多个学生客户端；

学生客户端接收到服务器发送来的文字、语音及多个口型图像后，首先将文字内容呈现给学生用户；

学生客户端在学生触摸文字后启动朗读练习模式；

学生客户端启动语音及结构光图像采集，学生客户端的结构光发射器发射结构光至学生用户面部，反射的结构光图像被学生客户端的结构光接收器接收；

在朗读结束后，学生客户端将文字、及其采集的语音、多个结构光图像发送给服务器，并向服务器发送分析请求；

服务器启动如下分析：将学生客户端发送的多个结构光图像模型化，对应生成多个口型图；比较教师客户端和学生客户端对应的多个口型图像，找出两者相似度小于80%的口型图；再根据该口型图找到对应的结构光图像，进而找到与之对应的语音片段，对比教师语音片段和学生语音片段的相似度，相似度小于80%则判断该学生发音有问题，且初步判断是由于口型导致的。

在学生客户端上同时显示涉及问题的文字、教师口型图像和学生口型图像，并播放对应语音，供学生用户对照练习；

服务器分析得出口型导致发音问题后，练习的同时，在学生客户端向学生提供跟读模式（具体方式参见上述“跟读”），也可同时或先后供辅导模式（具体方式参见上述“辅导”）。

练习和/或跟读和/或辅导完毕后，学生客户端响应用户对于显示文字的点击动作，开始采集学生用户朗读语音，同时学生客户端的结构光发射器开始发射结构光，学生客户端的结构光接收器开始接收从用户面部反射的结构光；学生客户端将用户面部的结构光图像、用户朗读的语音和对应的文字发送给服务器。

服务器接收用户发送的结构光图像、语音和文字，并将结构光图像模型化，生成学生口型图像，并将其发送回学生客户端；同时，服务器将新的口型图像与标准口型图像进行比较两者相似度大于80%则认为合格，服务器将合格信息返回给学生客户端；

学生客户端将学生口型图像和教师口型图像同时在屏幕上显示，学生用户参考服务器返回的合格信息；若不一致，则自行调整直至一致为止。

在学生口型图像与教师口型图像一致的情况下，服务器比较此时用户的发音与标准发音是否一致，若相似度在80%以下，则向学生客户端发送舌型不正确的信号；

学生客户端收到舌型不正确的信号后，提示学生用户在保持正确口型不变的前提下，再次变换舌型进行朗读；学生客户端采集客户语音，并上传服务器，服务器比较此时学生用户的发音与教师发音是否一致，若相似度在80%以下，则向客户端发送舌型不正确的信号，继续重复本步骤，直至学生用户找到一种舌型，使得发音与标准发音相似度大于80%。

这样，用户可以既保证口型正确，又保证舌型正确，从而真正达到发音准确。根据研究表明，60%以上的发音不准确原因其实是舌型，特别是一些发音近似的音节，舌型起到更为重要的因素。因此本发明创造性地提出了纠正口型-固定口型-纠正舌型的构思，可以避免传统方法中仅仅不断摸索、纠正口型，也无法高效、准确的进行发音的问题。

以上实施方式并不构成对权利要求保护范围的限定，与本发明构思相同或相似的实施方式均在本发明的保护范围之中。

Claims

1.一种交互式外语口型和舌型同时矫正的方法，其特征在于包括如下步骤：

教师客户端向教师显示一段外语文字供教师朗读；

学生客户端在学生触摸文字后启动朗读练习模式；

服务器启动如下分析：将学生客户端发送的多个结构光图像模型化，对应生成多个口型图像；比较教师客户端和学生客户端对应的多个口型图像，找出两者相似度小于80%的口型图像；再根据该口型图像找到对应的结构光图像，进而找到与之对应的语音片段，对比教师语音片段和学生语音片段的相似度，相似度小于80%则判断该学生发音有问题，且初步判断是由于口型导致的；

服务器将涉及上述问题的多个教师口型图像和多个学生口型图像及对应语音和文字发送给教师客户端和学生客户端；

练习完毕后，学生客户端响应用户对于显示文字的点击动作，开始采集学生用户朗读语音，同时学生客户端的结构光发射器开始发射结构光，学生客户端的结构光接收器开始接收从用户面部反射的结构光；学生客户端将用户面部的结构光图像、用户朗读的语音和对应的文字发送给服务器；

学生客户端将学生口型图像和教师口型图像同时在屏幕上显示，学生用户参考服务器返回的合格信息；若不一致，则自行调整直至一致为止；

2.如权利要求1所述的交互式外语口型和舌型同时矫正的方法，其特征在于：服务器分析得出口型导致发音问题后，在学生客户端向学生提供跟读模式。

3.如权利要求2所述的交互式外语口型和舌型同时矫正的方法，其特征在于：服务器分析得出口型导致发音问题后，学生客户端向学生提供辅导模式。

4.一种执行上述权利要求1-3之一矫正方法的交互式外语口型和舌型同时矫正的***，其特征在于：包括：

教师客户端，包括结构光发射器和结构光接收器；同时采集教师的语音、结构光图像，并为其打上时间戳，保证两者同步采集且可以相互对应；将文字、与其对应的语音及多个结构光图像发送给服务器，并接收服务器返回的文字、与其对应的语音、及多个口型图像；

学生客户端，包括结构光发射器和结构光接收器；同时采集学生的语音、结构光图像，并为其打上时间戳，保证两者同步采集且可以相互对应；将文字、与其对应的语音及多个结构光图像发送给服务器，并接收服务器返回的文字、与其对应的语音、及多个口型图像；还用于在收到舌型不正确的信号后，提示用户在保持正确口型不变的前提下，再次变换舌型进行朗读；

比较学生客户端和教师客户端的多个口型图像，找出两者相似度小于一定范围的口型图像，再根据该口型图像找到对应的结构光图像，进而找到与之对应的语音片段，对比教师语音片段和学生语音片段的相似度，相似度小于一定范围则认为该学生发音有问题，且是由于口型导致的；

5.如权利要求4所述的交互式外语口型和舌型同时矫正的***，其特征在于：结构光发射器包括红外激光发射单元和镜头。

6.如权利要求5所述的交互式外语口型和舌型同时矫正的***，其特征在于：红外激光发射单元依次包括红外激光源、扩束镜片和点状光栅。

7.如权利要求5所述的交互式外语口型和舌型同时矫正的***，其特征在于：所述镜头包括三组透镜，其中至少一个面为非球面。