CN108038461B - 交互式外语口型和舌型同时矫正的***和方法 - Google Patents
交互式外语口型和舌型同时矫正的***和方法 Download PDFInfo
- Publication number
- CN108038461B CN108038461B CN201711403011.4A CN201711403011A CN108038461B CN 108038461 B CN108038461 B CN 108038461B CN 201711403011 A CN201711403011 A CN 201711403011A CN 108038461 B CN108038461 B CN 108038461B
- Authority
- CN
- China
- Prior art keywords
- student
- mouth shape
- client
- voice
- structured light
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012937 correction Methods 0.000 title claims abstract description 22
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种交互式外语口型和舌型同时矫正***及方法。利用结构光进行用户面部口型识别,并在服务器上对教师和学生的口型、语音、文字信息进行对比分析从而发现外语朗读过程中的口型问题。本发明通过“辅导”、“跟读”、“重复”、“矫正舌型”等多个模式,使得在外语学习中,朗读口型、舌型矫正过程更优针对性,多个用户之间交互性更好,能够更准确有效地进行口型和舌型矫正。
Description
技术领域
本发明属于智能识别领域,特别属于利用结构光进行口型和舌型同时识别领域。
背景技术
口型问题导致发音不正确一直是困扰使用外语人员的问题。现有技术中已经探索了很多方法解决这一问题。例如:观看标准发音视频,对照视频中人物示范的口型进行改进。但这种方法并不是交互式,使用者无法衡量自己口型是否正确。为了解决这一问题,现有技术中也出现了采集使用者面部特征,并将用户面部特征与标准面部特征进行视频或图像的对比,从而找出差距。特别是一些技术还对读音进行切分,提取某个单元的发音,与标准发音对比,并且根据该单元发音确定该发音所对应的图像,并与标准图像对比,从而对用户发音与口型进行全面评价。虽然用户利用这种***/方法可以了解自己口型及发音的情况,但依然存在以下问题:①用户只能与标准图像进行对比,缺少交互性,无法针对自己特殊的问题提出额外的演示要求。也没有办法和其他学习者进行对比比较,不利于激发学习动力。②面部识别不准确。首先,目前现有的识别需求对准确性要求不高,因此本领域没有动机过度提高成本提高准确性。其次,利用摄像机进行的视频或图像拍摄是二维信息,而人的面部,特别是嘴附近有丰富的立体信息,将这些信息丢失将导致口型识别不准确。③现有***均是在电脑、电视或其他相对固定、体积大、处理能力强的装置上实现观看和使用,使用场合固定,使用不方便④现有拍摄视频和图像均采用通用的光学摄像头,无法实现高精度脸部信息采集。⑤利用切分语音信号再寻找对应的图像信号进行比较的方式算法复杂,且依赖于语音识别的准确性,会导致比对结果不准确。⑥口型并不是发音不准确的唯一问题,发音不准确的原因在于口型和舌型的双重影响,现有技术没有意识到要区分两者,因此训练效率低。
发明内容
为解决准确、方便、有效纠正外语发音的上述技术问题,现提出本发明。但本发明要解决的技术问题不限于此,上下文中提到的技术问题同样是本发明可以解决的技术问题,特别是实施例中的诸多技术问题,是实现本发明最佳效果所要解决的技术问题。
本发明的技术方案
一种交互式外语口型矫正方法,其特征在于包括如下步骤:
步骤1:教师客户端向教师显示一段外语文字供教师朗读;
步骤2:教师客户端根据教师触摸文字的信号,启动语音采集和结构光采集;教师客户端的结构光发射器发射结构光至教师用户面部,反射的多个结构光图像被教师客户端的结构光接收器接收;
步骤3:在朗读结束后,教师客户端将文字、语音、多个结构光图像发送给服务器,并向服务器指定待发送的一个或多个学生客户端;
步骤4:服务器将多个结构光图像模型化,对应生成多个口型图像,并根据教师客户的指定,将文字、语音及多个口型图像发送至一个或多个学生客户端;
步骤5:学生客户端接收到服务器发送来的文字、语音及多个口型图像后,首先将文字内容呈现给学生;
步骤6:学生客户端在学生触摸文字后启动朗读练习模式;
步骤7:学生客户端启动语音及结构光图像采集,学生客户端的结构光发射器发射结构光至学生用户面部,反射的结构光图像被学生客户端的结构光接收器接收;
步骤8:在朗读结束后,学生客户端将文字、及其采集的语音、多个结构光图像发送给服务器,并向服务器发送分析请求;
服务器启动如下分析:将学生客户端发送的多个结构光图像模型化,对应生成多个口型图;比较教师客户端和学生客户端对应的多个口型图像,找出两者相似度小于一定范围的口型图;再根据该口型图找到对应的结构光图像,进而找到与之对应的语音片段,对比教师语音片段和学生语音片段的相似度,相似度小于一定范围则认为该学生发音有问题,且是由于口型导致的。
服务器将涉及上述问题的多个教师口型图像和多个学生口型图像及对应语音和文字发送给教师客户端和学生客户端。
在学生客户端上同时显示涉及问题的文字、教师口型图像和学生口型图像,并播放对应语音,供学生对照。
服务器分析得出口型导致发音问题后,学生客户端向学生提供跟读模式。
服务器分析得出口型导致发音问题后,学生客户端向学生提供辅导模式。
一种交互式外语舌型矫正方法,包括如下步骤:
步骤1:学生客户端接收服务器发送来的与教师客户端相关的多个教师口型图像、对应的语音和文字,并将它们显示;
步骤2:学生客户端响应用户对于显示文字的点击动作,开始采集用户朗读语音,同时学生客户端的结构光发射器开始发射结构光,学生客户端的结构光接收器开始接收从用户面部反射的结构光;学生客户端将用户面部的结构光图像、用户朗读的语音和对应的文字发送给服务器。
步骤3:服务器接收用户发送的结构光图像、语音和文字,并将结构光图像模型化,生成学生口型图像,并将其发送回学生客户端;同时,服务器将新的口型图像与标准口型图像进行比较两者相似度大于一定范围则认为合格,服务器将合格信息返回给学生客户端;
步骤4:学生客户端将学生口型图像和标准口型图像同时在屏幕上显示,用户可以自行观察自己口型是否与标准口型一致,也可以参考服务器返回的合格信息;若不一致,则自行调整直至一致为止。
步骤5:在学生口型图像与标准口型图像一致的情况下,服务器比较此时用户的发音与标准发音是否一致,若相似度在一定范围以下,则向学生客户端发送舌型不对的信号;
步骤6:学生客户端收到舌型不正确的信号后,提示用户在保持正确口型不变的前提下,再次变换舌型进行朗读;学生客户端采集客户语音,并上传服务器,服务器比较此时用户的发音与标准发音是否一致,若相似度在一定范围以下,则向客户端发送舌型不正确的信号,继续重复步骤6,直至用户找到一种舌型,使得发音与标准发音一致。
一种执行上述矫正方法的交互式外语发音矫正***,包括:
教师客户端,包括结构光发射器和结构光接收器;同时采集教师的语音、结构光图像,并为其打上时间戳,保证两者同步采集且可以相互对应;将文字、与其对应的语音及多个结构光图像发送给服务器,并接收服务器返回的文字、与其对应的语音、及多个口型图;
学生客户端,包括结构光发射器和结构光接收器;同时采集学生的语音、结构光图像,并为其打上时间戳,保证两者同步采集且可以相互对应;将文字、与其对应的语音及多个结构光图像发送给服务器,并接收服务器返回的文字、与其对应的语音、及多个口型图;还用于在收到舌型不正确的信号后,提示用户在保持正确口型不变的前提下,再次变换舌型进行朗读;
服务器,接收教师客户端及学生客户端发送的文字、语音、多个结构光图像,将其中多个结构光图像模型化生成多个口型图像,并根据用户指令将文字、语音和多个口型图像发送给指定客户端;
比较学生客户端和教师客户端的多个口型图像,找出两者相似度小于一定范围的口型图,再根据该口型图找到对应的结构光图像,进而找到与之对应的语音片段,对比教师语音片段和学生语音片段的相似度,相似度小于一定范围则认为该学生发音有问题,且是由于口型导致的;
还用于在学生口型图像与教师口型图像一致的情况下,服务器比较此时用户的发音与标准发音是否一致,若相似度在一定范围以下,则向学生客户端发送舌型不对的信号。
结构光发射器包括红外激光发射单元和镜头。
红外激光发射单元依次包括红外激光源、扩束镜片和点状光栅。
所述镜头包括三组透镜,其中至少一个面为非球面。
本发明的发明点:
①***采用教师端手机和多个学生端手机相连,学生不仅可以将自己口型与***标准口型对比,而且可以根据自己口型的问题通过***向老师提出额外演示需求,使得学习更有针对性。
②***中多个学生端手机相连,学生可以将自己口型与其他学生对比,进行互相监督,激发学习兴趣。
③不依赖于语音识别的准确性,以文字作为面部识别和对照的触发方式,再根据面部识别的结果去比较对应的语音信号,矫正效果更好。
④利用红外激光投影,进行三维信息采集,提高口型识别的准确性,训练正确口型,并且能在固定口型的基础上纠正舌型。
⑤采用独特的光学镜头实现在小设备、近距离的情况下投射较大面积,覆盖使用者面部。
⑥在手机等移动小设备上实现上述所有功能,使用更方便。对手机要求不高,将数据传递至服务器,更多的处理在服务器上进行。
⑦创造性地提出将外部口型和舌型因素区分开。利用标准口型图像和客户端,固定使用者口型,使其能够在此基础上不断尝试舌型,从而找到正确口型基础上的正确舌型,从而准确发音。
本发明达到的技术效果
①使用交互性更强,能够根据需要提出特殊演示需求。②能够激发学习兴趣。③识别更准确,矫正效果好。④能够在手机上实现,使用更方便。⑤有效区分口型和舌型,两方面同时矫正,真正实现发音纠正。
本发明实现的技术效果不限于此,上文及下文中提到的技术效果同样是本发明可以实现的,特别是实施例中的诸多技术效果,是本发明最佳实施例达到的技术效果。
附图说明
图1为外语口型和舌型矫正***示意图。
图2为外语口型和舌型矫正***客户端的示意图。
图3为结构光发射器的镜头示意图。
具体实施方式
外语口型和舌型矫正***工作原理
外语口型和舌型矫正***包括服务器、教师客户端、多个学生客户端。教师可以通过教师客户端朗读一段文字,并由客户端生成教师的语音和多个结构光图像(具体生成方法后续介绍),根据教师指令,客户端将文字发送给指定的多个学生客户端,并将文字、语音和结构光图像发送给服务器。学生客户端收到文字后,将其呈现在屏幕或投影上。学生点击文字开始跟读,同时学生客户端生成学生的语音和多个结构光图像,并将语音和结构光图像发送给服务器。服务器将教师的结构光图像和学生的结构光图像进行模型化,分别得到多个教师口型图和学生口型图,并对两者进行一一比较,找出两者相似度小于一定范围(例如80%)的口型图。再根据该口型图找到对应的结构光图像,进而找到与之对应的语音片段,对比教师语音片段和学生语音片段的相似度,相似度小于一定范围(例如80%)则认为该学生发音有问题,且是由于口型导致的。这样一方面可以避免语音识别的误差,另一方面可以准确找到由于口型而导致的发音问题,而不会将例如语音识别问题、背景噪音问题误判为发音问题,从而加重***分析负担。这也是本发明的发明点之一。
上述模型化可采用现有的三维激光点云数据生成模型的方法。例如可以用PCL平台对点云数据进行滤波,利用Cyclone平台对点云数据进行匹配,利用PCL平台对点云数据进行压缩,利用Geomagic Studio平台进行3D建模,利用3Dmax对3D模型进行贴图。
图像相似度和语音相似度也可以用现有的相似度匹配方法进行计算。例如语音相似度可以采用如下方法:对声音信号的形状进行傅里叶变换处理,向上用1表示,向下用0表示,这样声音信号的形状就可以数字化,再根据海明距离,算出相似度。这样方法简单,***负担更小,也是发明点之一。图像相似度可以利用诸如尺度不变特征转换法进行处理得到。
***还可以将一个学生客户端的三种数据发送给另一个学生客户端,从而在学生之间进行互相学习和比较,增进学习兴趣。
***还可以将学生口型图像和教师口型图像同时在屏幕上显示,学生用户参考服务器返回的合格信息;若不一致,则自行调整直至一致为止。在学生口型图像与教师口型图像一致的情况下,服务器比较此时用户的发音与标准发音是否一致,若相似度在80%以下,则向学生客户端发送舌型不正确的信号;学生客户端收到舌型不正确的信号后,提示学生用户在保持正确口型不变的前提下,再次变换舌型进行朗读;学生客户端采集客户语音,并上传服务器,服务器比较此时学生用户的发音与教师发音是否一致,若相似度在80%以下,则向客户端发送舌型不正确的信号,继续重复本步骤,直至学生用户找到一种舌型,使得发音与标准发音相似度大于80%。这样,用户可以既保证口型正确,又保证舌型正确,从而真正达到发音准确。根据研究表明,60%以上的发音不准确原因其实是舌型,特别是一些发音近似的音节,舌型起到更为重要的因素。因此本发明创造性地提出了纠正口型-固定口型-纠正舌型的构思,可以避免传统方法中仅仅不断摸索、纠正口型,也无法高效、准确的进行发音的问题。
客户端工作原理
客户端通常为手机、平板等移动设备,可以方便用户使用。客户端100包括结构光发射器102、结构光接收器103、投影器101。
结构光发射器102可以向用户面部发射多个激光点,通常为100×100激光点阵。由于在纠正舌型时,需要反复识别比较口型,因此点阵数量不易过大(例如不宜超过170×170),过大会导致***处理速度较慢,无法实时比较,也就无法实现“固定口型,纠正舌型”的技术构思。但也不宜过小(例如不宜小于65×65),过小会导致识别不准确。经过大量实验,优选100×100激光点阵。结构光发射器光源波长为900nm,肉眼不可见。结构光接收器103采集用户脸部反射的由激光点阵构成的结构光,形成用户脸部,特别是嘴部附近的结构光图像。并将上述结构光图像发送给服务器,服务器将结构光图像进行模型化形成口型图,并将其返回给客户端。
投影器101可以向投影屏幕300上投射口型图,方便用户观看自己或他人的口型图。同时,还可以投射文字,方便用户一边观看文字一边朗读。即在投影屏幕300左边显示文字内容,右边显示口型图。而且,可以重叠显示两个口型图,例如可以用淡色或虚线显示标准口型图或教师口型图或他人口型图,而在其上叠加显示用户自己的口型图,从而准确进行比较。这也是发明点之一。当然,也可以在投影屏幕300右上显示标准口型图或教师口型图或他人口型图,而在右下显示用户自己的口型图。另外,上述内容均可以在客户端自身的屏幕上显示,显示方式与投影屏幕相同。但由于手机屏幕尺寸有限,难以清楚发现口型的区别,因此采用投影投射的方式是更佳的,这也是发明点之一。
客户端可以同时采集客户的语音、结构光图像,并为其打上时间戳,保证两者同步采集且可以相互对应。客户端将文字、与其对应的语音及结构光图像发送给服务器,并接收服务器返回的文字、与其对应的语音、及口型图。
结构光发射器102需要在短距离内投射较大范围的光,才能保证覆盖用户面部,特别是嘴部,而且镜头尺寸要小,因此结构光发射器102的光学镜头需要专门设计。普通投影或激光发射器镜头并不适合。为此,本发明专门设计的如下。结构光发射器102包括红外激光发射单元1024和镜头。
红外激光发射单元1024依次包括红外激光源、扩束镜片和点状光栅,其中扩束镜片为凹透镜,焦距为F2。红外激光源的波长为900nm。
镜头包括镜片1021、1022、1023,每个镜片有两个面,分别为S1、S2、S3、S4、S5、S6。在光轴位置,S1和S2的距离为d1,S2和S3的距离为d2,S3和S4的距离为d3,S4和S5的距离为d4,S5和S6的距离为d5,S6和发射单元1024的距离为d6。面S1-S6的曲率半径分别为R1-R6。各个镜片满足如下关系:
d1=0.573,d2=1.385,d3=0.491,d4=0.313,d5=2.014,d6=0.439。
S1、S3-S6为球面,曲率半径R1=32.4,R3=10.25,R4=0.9,R5=2.1,R6=-42.6,单位mm。
S2为非球面,曲率半径满足下述公式:
R2=(1/3.9)H2{1+[1-(1-0.23189)(H/3.9)2]1/2}-0.9643×10-4×H4-1.1397×10-5×H6-2.8539×10-7×H8-1.1577×10-8×H10,其中H为距光轴的垂直距离。
上述镜片组成的镜头焦距为F1
3.0<F1/F2<6.0。
这样的参数设计,投射角可以达到120°,在手持距离(15-70cm)使用时可以全面有效覆盖用户面部。在投射100×100激光点阵时,可以保证大多数点阵落在用户面部,从而保证嘴部附近的光点密度,使得口型识别准确,这样才能保证在固定口型的基础上纠正舌型。这也是本发明的发明点之一。
此外,保证投影激光点密度的方式优选还可以根据用户手持距离和初步得到的用户面对点云数据,调整投影角度,从而使得投射100×100激光点阵的85%落在用户面部。
服务器工作原理
接收客户端发送的文字、语音、结构光图像,将其中结构光图像模型化生成口型图像,并根据用户指令将文字、语音和口型图像发送给指定用户。
比较两个客户端的多个口型图像,找出两者相似度小于一定范围(根据大量数据分析得到,优选80%)的口型图。再根据该口型图找到对应的结构光图像,进而找到与之对应的语音片段,对比教师语音片段和学生语音片段的相似度,相似度小于一定范围(根据大量数据分析得到,优选80%)则认为该学生发音有问题,且初步是由于口型导致的。
一般口型矫正方法
步骤1:教师启动客户端,并选择客户端上的一端文字进行朗读。
步骤2:客户端根据教师触摸文字的信号,启动语音及结构光采集。结构光发射器102发射结构光至教师用户面部,反射的结构光图像被结构光接收器103接收。随着朗读进行,能够接收到一系列结构光图像。
步骤3:在朗读结束后,客户端将文字、语音、多个结构光图像发送给服务器,并向服务器指定待发送的一个或多个客户端。
步骤4:服务器将多个结构光图像模型化,生成口型图像,并根据教师客户的指定,将文字、语音及口型图像发送至一个或多个客户端。
步骤5:一个或多个客户端为学生使用,其接收到服务器发送来的文字、语音及多个口型图像后,首先将文字内容呈现给学生用户。可通过客户端屏幕,或投影屏幕呈现。
步骤6:学生用户根据需要选择文字,播放对应的语音和多个口型图像。或只显示文字,触摸文字后开始朗读练习。
步骤7:客户端启动语音及结构光采集。结构光发射器102发射结构光至学生用户面部,反射的结构光图像被结构光接收器103接收。随着朗读进行,能够接收到一系列结构光图像。
步骤8:在朗读结束后,客户端将文字、语音、多个结构光图像发送给服务器,并向服务器发送分析请求。
步骤9:服务器将多个结构光图像模型化,对应生成多个口型图。
步骤10:服务器比较两个客户端的多个口型图像,找出两者相似度小于一定范围(例如80%)的口型图。再根据该口型图找到对应的结构光图像,进而找到与之对应的语音片段,对比教师语音片段和学生语音片段的相似度,相似度小于一定范围(例如80%)则认为该学生发音有问题,且是由于口型导致的。
步骤:11:服务器将涉及上述问题的多个教师口型图像和多个学生口型图像及对应语音和文字发送给教师客户端和学生客户端。在学生客户端的投影屏幕上同时显示文字、多个教师口型图像和多个学生口型图像(多个口型图像组成视频流进行播放显示),并播放对应语音,供学生对照,发现自己发音问题。
针对性口型矫正方法
针对上面步骤中发现的口型问题,为了能够更准确的发现问题,纠正问题,学生可以请求专门训练有问题词,具体步骤如下:
步骤1:出现上述问题后,将不一致的学生口型图像对应的文字发送给学生客户端,并且利用客户端在投影屏幕上显示。
步骤2:学生用户如果觉得该文字发音的口型还不完全清楚,可以点击该文字,选择“重复”。客户端会重复播放与该文字对应的教师的多个口型图像供学生反复观看。
步骤3:学习完毕后,用户点击该文字,选择“跟读”,客户端结构光发射器102开始发射结构光,结构光接收器103开始接收从用户面部反射的结构光。用户一边朗读相应词语,客户端一边生成结构光图像、采集用户朗读语音。客户端将用户面部的结构光图像、用户朗读的语音和对应的文字发送给服务器。
步骤4:服务器接收用户发送的结构光图像、语音和文字,并将结构光图像模型化,生成新的口型图像,并将其与之前教师的口型图像进行比较(该口型图像为学生用户出现问题的文字(词语)所对应的口型图像),两者相似度大于一定范围(例如80%)时,则认为学生纠正完成。
步骤5:如果两者相似度小于80%,学生可以点击文字,选择“辅导”,客户端会将辅导请求,及学生的多个口型图像、对应语音和文字通过服务器发送给教师客户端,在教师客户端利用上述同样的方法显示三种信息,便于教师查找学生口型问题。
步骤6:教师查找到原因后,根据问题情况,语音或文字输入发音口型要点,并再次做有针对性的发音和口型示范。客户端按照上述一样的客户端采集信息的方法采集教师的三种信息,并将其发送给服务器,服务器生成口型图像后发送给学生客户端,供学生学习。从而实现了有针对性的交互式口型矫正训练。
舌型矫正方法
对于外语发音而言,除了口型外,舌型也会影响发音的正确性。但这两种因素通常交织在一起,使得发音变得难以学习。尤其对于初学者,很难清楚自己究竟是口型不对还是舌型不对,更无法学习到正确的口型和舌型,从而发音正确。为了解决这个问题,采用如下方法(该方法可以接着上述任何一种方法,也可以独立使用)。
步骤1:客户端接收服务器发送来的多个标准口型图像(组成口型视频流)、对应的语音和文字,并将它们显示。标准口型图像可以源自教师客户端,也可以是服务器预先存储好的。
步骤2:用户点击显示的文字,选择“舌型矫正”,客户端结构光发射器102开始发射结构光,结构光接收器103开始接收从用户面部反射的结构光。用户一边朗读相应词语,客户端一边生成结构光图像、采集用户朗读语音。客户端将用户面部的结构光图像、用户朗读的语音和对应的文字发送给服务器。
步骤4:服务器接收用户发送的结构光图像、语音和文字,并将结构光图像模型化,生成新的口型图像,并将其发送回客户端。同时,服务器将新的口型图像与标准口型图像进行比较两者相似度大于一定范围(例如80%)则认为合格,服务器将合格信息返回给客户端。
步骤5:客户端将用户的口型图像和标准口型图像同时在屏幕上显示(可分区域显示或重叠显示)。用户可以自行观察自己口型是否与标准口型一致,也可以参考服务器返回的合格信息。若不一致,则自行调整直至一致为止。
步骤6:在用户口型图像与标准口型图像一致的情况下,服务器比较此时用户的发音与标准发音是否一致,若相似度在80%以下,则向客户端发送舌型不对的信号(因为此时口型是正确的,发音不正确的主要原因就是舌型)。
步骤7:客户端收到舌型不正确的信号后,提示用户。用户保持正确口型不变的前提下,再次变换舌型进行朗读。客户端采集客户语音,并上传服务器,与标准语音进行比较,服务器比较此时用户的发音与标准发音是否一致,若相似度在80%以下,则向客户端发送舌型不对的信号,依次类推,直至用户找到一种舌型,使得发音与标准发音一致,此时即为正确口型和舌型。
联合训练口型、舌型方法
将上述口型训练方法与舌型训练方法结合在一起,先训练口型,再训练舌型。
教师客户端向教师显示一段外语文字供教师朗读;
教师客户端根据教师触摸文字的信号,启动语音采集和结构光采集;教师客户端的结构光发射器发射结构光至教师用户面部,反射的多个结构光图像被教师客户端的结构光接收器接收;
在朗读结束后,教师客户端将文字、语音、多个结构光图像发送给服务器,并向服务器指定待发送的一个或多个学生客户端;
服务器将多个结构光图像模型化,对应生成多个口型图像,并根据教师客户的指定,将文字、语音及多个口型图像发送至一个或多个学生客户端;
学生客户端接收到服务器发送来的文字、语音及多个口型图像后,首先将文字内容呈现给学生用户;
学生客户端在学生触摸文字后启动朗读练习模式;
学生客户端启动语音及结构光图像采集,学生客户端的结构光发射器发射结构光至学生用户面部,反射的结构光图像被学生客户端的结构光接收器接收;
在朗读结束后,学生客户端将文字、及其采集的语音、多个结构光图像发送给服务器,并向服务器发送分析请求;
服务器启动如下分析:将学生客户端发送的多个结构光图像模型化,对应生成多个口型图;比较教师客户端和学生客户端对应的多个口型图像,找出两者相似度小于80%的口型图;再根据该口型图找到对应的结构光图像,进而找到与之对应的语音片段,对比教师语音片段和学生语音片段的相似度,相似度小于80%则判断该学生发音有问题,且初步判断是由于口型导致的。
服务器将涉及上述问题的多个教师口型图像和多个学生口型图像及对应语音和文字发送给教师客户端和学生客户端。
在学生客户端上同时显示涉及问题的文字、教师口型图像和学生口型图像,并播放对应语音,供学生用户对照练习;
服务器分析得出口型导致发音问题后,练习的同时,在学生客户端向学生提供跟读模式(具体方式参见上述“跟读”),也可同时或先后供辅导模式(具体方式参见上述“辅导”)。
练习和/或跟读和/或辅导完毕后,学生客户端响应用户对于显示文字的点击动作,开始采集学生用户朗读语音,同时学生客户端的结构光发射器开始发射结构光,学生客户端的结构光接收器开始接收从用户面部反射的结构光;学生客户端将用户面部的结构光图像、用户朗读的语音和对应的文字发送给服务器。
服务器接收用户发送的结构光图像、语音和文字,并将结构光图像模型化,生成学生口型图像,并将其发送回学生客户端;同时,服务器将新的口型图像与标准口型图像进行比较两者相似度大于80%则认为合格,服务器将合格信息返回给学生客户端;
学生客户端将学生口型图像和教师口型图像同时在屏幕上显示,学生用户参考服务器返回的合格信息;若不一致,则自行调整直至一致为止。
在学生口型图像与教师口型图像一致的情况下,服务器比较此时用户的发音与标准发音是否一致,若相似度在80%以下,则向学生客户端发送舌型不正确的信号;
学生客户端收到舌型不正确的信号后,提示学生用户在保持正确口型不变的前提下,再次变换舌型进行朗读;学生客户端采集客户语音,并上传服务器,服务器比较此时学生用户的发音与教师发音是否一致,若相似度在80%以下,则向客户端发送舌型不正确的信号,继续重复本步骤,直至学生用户找到一种舌型,使得发音与标准发音相似度大于80%。
这样,用户可以既保证口型正确,又保证舌型正确,从而真正达到发音准确。根据研究表明,60%以上的发音不准确原因其实是舌型,特别是一些发音近似的音节,舌型起到更为重要的因素。因此本发明创造性地提出了纠正口型-固定口型-纠正舌型的构思,可以避免传统方法中仅仅不断摸索、纠正口型,也无法高效、准确的进行发音的问题。
以上实施方式并不构成对权利要求保护范围的限定,与本发明构思相同或相似的实施方式均在本发明的保护范围之中。
Claims (7)
1.一种交互式外语口型和舌型同时矫正的方法,其特征在于包括如下步骤:
教师客户端向教师显示一段外语文字供教师朗读;
教师客户端根据教师触摸文字的信号,启动语音采集和结构光采集;教师客户端的结构光发射器发射结构光至教师用户面部,反射的多个结构光图像被教师客户端的结构光接收器接收;
在朗读结束后,教师客户端将文字、语音、多个结构光图像发送给服务器,并向服务器指定待发送的一个或多个学生客户端;
服务器将多个结构光图像模型化,对应生成多个口型图像,并根据教师客户的指定,将文字、语音及多个口型图像发送至一个或多个学生客户端;
学生客户端接收到服务器发送来的文字、语音及多个口型图像后,首先将文字内容呈现给学生用户;
学生客户端在学生触摸文字后启动朗读练习模式;
学生客户端启动语音及结构光图像采集,学生客户端的结构光发射器发射结构光至学生用户面部,反射的结构光图像被学生客户端的结构光接收器接收;
在朗读结束后,学生客户端将文字、及其采集的语音、多个结构光图像发送给服务器,并向服务器发送分析请求;
服务器启动如下分析:将学生客户端发送的多个结构光图像模型化,对应生成多个口型图像;比较教师客户端和学生客户端对应的多个口型图像,找出两者相似度小于80%的口型图像;再根据该口型图像找到对应的结构光图像,进而找到与之对应的语音片段,对比教师语音片段和学生语音片段的相似度,相似度小于80%则判断该学生发音有问题,且初步判断是由于口型导致的;
服务器将涉及上述问题的多个教师口型图像和多个学生口型图像及对应语音和文字发送给教师客户端和学生客户端;
在学生客户端上同时显示涉及问题的文字、教师口型图像和学生口型图像,并播放对应语音,供学生用户对照练习;
练习完毕后,学生客户端响应用户对于显示文字的点击动作,开始采集学生用户朗读语音,同时学生客户端的结构光发射器开始发射结构光,学生客户端的结构光接收器开始接收从用户面部反射的结构光;学生客户端将用户面部的结构光图像、用户朗读的语音和对应的文字发送给服务器;
服务器接收用户发送的结构光图像、语音和文字,并将结构光图像模型化,生成学生口型图像,并将其发送回学生客户端;同时,服务器将新的口型图像与标准口型图像进行比较两者相似度大于80%则认为合格,服务器将合格信息返回给学生客户端;
学生客户端将学生口型图像和教师口型图像同时在屏幕上显示,学生用户参考服务器返回的合格信息;若不一致,则自行调整直至一致为止;
在学生口型图像与教师口型图像一致的情况下,服务器比较此时用户的发音与标准发音是否一致,若相似度在80%以下,则向学生客户端发送舌型不正确的信号;
学生客户端收到舌型不正确的信号后,提示学生用户在保持正确口型不变的前提下,再次变换舌型进行朗读;学生客户端采集客户语音,并上传服务器,服务器比较此时学生用户的发音与教师发音是否一致,若相似度在80%以下,则向客户端发送舌型不正确的信号,继续重复本步骤,直至学生用户找到一种舌型,使得发音与标准发音相似度大于80%。
2.如权利要求1所述的交互式外语口型和舌型同时矫正的方法,其特征在于:服务器分析得出口型导致发音问题后,在学生客户端向学生提供跟读模式。
3.如权利要求2所述的交互式外语口型和舌型同时矫正的方法,其特征在于:服务器分析得出口型导致发音问题后,学生客户端向学生提供辅导模式。
4.一种执行上述权利要求1-3之一矫正方法的交互式外语口型和舌型同时矫正的***,其特征在于:包括:
教师客户端,包括结构光发射器和结构光接收器;同时采集教师的语音、结构光图像,并为其打上时间戳,保证两者同步采集且可以相互对应;将文字、与其对应的语音及多个结构光图像发送给服务器,并接收服务器返回的文字、与其对应的语音、及多个口型图像;
学生客户端,包括结构光发射器和结构光接收器;同时采集学生的语音、结构光图像,并为其打上时间戳,保证两者同步采集且可以相互对应;将文字、与其对应的语音及多个结构光图像发送给服务器,并接收服务器返回的文字、与其对应的语音、及多个口型图像;还用于在收到舌型不正确的信号后,提示用户在保持正确口型不变的前提下,再次变换舌型进行朗读;
服务器,接收教师客户端及学生客户端发送的文字、语音、多个结构光图像,将其中多个结构光图像模型化生成多个口型图像,并根据用户指令将文字、语音和多个口型图像发送给指定客户端;
比较学生客户端和教师客户端的多个口型图像,找出两者相似度小于一定范围的口型图像,再根据该口型图像找到对应的结构光图像,进而找到与之对应的语音片段,对比教师语音片段和学生语音片段的相似度,相似度小于一定范围则认为该学生发音有问题,且是由于口型导致的;
还用于在学生口型图像与教师口型图像一致的情况下,服务器比较此时用户的发音与标准发音是否一致,若相似度在一定范围以下,则向学生客户端发送舌型不对的信号。
5.如权利要求4所述的交互式外语口型和舌型同时矫正的***,其特征在于:结构光发射器包括红外激光发射单元和镜头。
6.如权利要求5所述的交互式外语口型和舌型同时矫正的***,其特征在于:红外激光发射单元依次包括红外激光源、扩束镜片和点状光栅。
7.如权利要求5所述的交互式外语口型和舌型同时矫正的***,其特征在于:所述镜头包括三组透镜,其中至少一个面为非球面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711403011.4A CN108038461B (zh) | 2017-12-22 | 2017-12-22 | 交互式外语口型和舌型同时矫正的***和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711403011.4A CN108038461B (zh) | 2017-12-22 | 2017-12-22 | 交互式外语口型和舌型同时矫正的***和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108038461A CN108038461A (zh) | 2018-05-15 |
CN108038461B true CN108038461B (zh) | 2020-05-08 |
Family
ID=62100398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711403011.4A Active CN108038461B (zh) | 2017-12-22 | 2017-12-22 | 交互式外语口型和舌型同时矫正的***和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108038461B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036464B (zh) * | 2018-09-17 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 发音检错方法、装置、设备及存储介质 |
CN109191968A (zh) * | 2018-10-25 | 2019-01-11 | 重庆鲁班机器人技术研究院有限公司 | 语言教育机器人及多教育机器人语言学习*** |
CN109448463A (zh) * | 2018-12-29 | 2019-03-08 | 江苏师范大学 | 基于虚拟现实技术的外语发音自主学习训练***及其方法 |
CN109830132A (zh) * | 2019-03-22 | 2019-05-31 | 邱洵 | 一种外语语言教学***及教学应用方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0493980A (ja) * | 1990-08-06 | 1992-03-26 | Takeshige Fujitani | 語学学習システム |
KR20050058606A (ko) * | 2003-12-12 | 2005-06-17 | 주식회사 언어과학 | 억양의 유사도 측정방법 |
CN201886650U (zh) * | 2010-07-17 | 2011-06-29 | 成伟 | 个体化互动的远程多媒体语言在线教学*** |
CN102169642A (zh) * | 2011-04-06 | 2011-08-31 | 李一波 | 具有智能纠错功能的交互式虚拟教师*** |
CN104361620A (zh) * | 2014-11-27 | 2015-02-18 | 韩慧健 | 一种基于综合加权算法的口型动画合成方法 |
CN105390133A (zh) * | 2015-10-09 | 2016-03-09 | 西北师范大学 | 藏语ttvs***的实现方法 |
CN106409030A (zh) * | 2016-12-08 | 2017-02-15 | 河南牧业经济学院 | 一种个性化外语口语学习*** |
-
2017
- 2017-12-22 CN CN201711403011.4A patent/CN108038461B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0493980A (ja) * | 1990-08-06 | 1992-03-26 | Takeshige Fujitani | 語学学習システム |
KR20050058606A (ko) * | 2003-12-12 | 2005-06-17 | 주식회사 언어과학 | 억양의 유사도 측정방법 |
CN201886650U (zh) * | 2010-07-17 | 2011-06-29 | 成伟 | 个体化互动的远程多媒体语言在线教学*** |
CN102169642A (zh) * | 2011-04-06 | 2011-08-31 | 李一波 | 具有智能纠错功能的交互式虚拟教师*** |
CN104361620A (zh) * | 2014-11-27 | 2015-02-18 | 韩慧健 | 一种基于综合加权算法的口型动画合成方法 |
CN105390133A (zh) * | 2015-10-09 | 2016-03-09 | 西北师范大学 | 藏语ttvs***的实现方法 |
CN106409030A (zh) * | 2016-12-08 | 2017-02-15 | 河南牧业经济学院 | 一种个性化外语口语学习*** |
Non-Patent Citations (2)
Title |
---|
基于汉语普通话口语发音特点的多媒体学习***的设计与实现研究;孙云帆;《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》;20150515;正文第1-50页 * |
大学英语多媒体辅助教学资源的设计与实现;李菲;《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》;20160715;正文第1-30页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108038461A (zh) | 2018-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108038461B (zh) | 交互式外语口型和舌型同时矫正的***和方法 | |
EP3593958B1 (en) | Data processing method and nursing robot device | |
US9754503B2 (en) | Systems and methods for automated scoring of a user's performance | |
CN109065055B (zh) | 基于声音生成ar内容的方法、存储介质和装置 | |
US10706738B1 (en) | Systems and methods for providing a multi-modal evaluation of a presentation | |
CN106409030A (zh) | 一种个性化外语口语学习*** | |
WO2018233398A1 (zh) | 学习监控方法、装置及电子设备 | |
Bidwell et al. | Classroom analytics: Measuring student engagement with automated gaze tracking | |
CN109101879B (zh) | 一种vr虚拟课堂教学的姿态交互***及实现方法 | |
CN107945625A (zh) | 一种英语发音测试与评价*** | |
TW202008293A (zh) | 教學品質監測系統及方法 | |
CN114898861A (zh) | 基于全注意力机制的多模态抑郁症检测方法和*** | |
CN113870395A (zh) | 动画视频生成方法、装置、设备及存储介质 | |
Arsan et al. | Sign language converter | |
CN110490173B (zh) | 一种基于3d体感模型的智能动作打分*** | |
CN111428686A (zh) | 一种学生兴趣偏好评估方法、装置及*** | |
CN115205764B (zh) | 基于机器视觉的在线学习专注度监测方法、***及介质 | |
CN114187544A (zh) | 大学英语演讲多模态自动评分方法 | |
CN112331001A (zh) | 一种基于虚拟现实技术的教学*** | |
CN104505089A (zh) | 口语纠错方法及设备 | |
Liu et al. | An interactive speech training system with virtual reality articulation for Mandarin-speaking hearing impaired children | |
CN111757140B (zh) | 一种基于直播课堂的教学方法及装置 | |
CN117351797A (zh) | 一种位置实时联动*** | |
CN113077819A (zh) | 发音评价方法和装置、存储介质和电子设备 | |
Wei | Development and evaluation of an emotional lexicon system for young children |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |