CN112863263A - 一种基于大数据挖掘技术的韩语发音纠正*** - Google Patents
一种基于大数据挖掘技术的韩语发音纠正*** Download PDFInfo
- Publication number
- CN112863263A CN112863263A CN202110060609.8A CN202110060609A CN112863263A CN 112863263 A CN112863263 A CN 112863263A CN 202110060609 A CN202110060609 A CN 202110060609A CN 112863263 A CN112863263 A CN 112863263A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- tongue
- korean
- signal
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 21
- 238000005516 engineering process Methods 0.000 title claims abstract description 11
- 238000007418 data mining Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 19
- 230000033001 locomotion Effects 0.000 claims abstract description 15
- 238000002595 magnetic resonance imaging Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 24
- 230000001755 vocal effect Effects 0.000 claims description 21
- 230000005236 sound signal Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 210000000214 mouth Anatomy 0.000 claims description 10
- 230000002040 relaxant effect Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 7
- 210000001260 vocal cord Anatomy 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000007405 data analysis Methods 0.000 claims description 5
- 239000000700 radioactive tracer Substances 0.000 claims description 5
- 230000008054 signal transmission Effects 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000021615 conjugation Effects 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 230000001915 proofreading effect Effects 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 claims description 2
- 230000001052 transient effect Effects 0.000 claims description 2
- 238000012800 visualization Methods 0.000 claims description 2
- 210000003254 palate Anatomy 0.000 abstract 1
- 210000002105 tongue Anatomy 0.000 description 63
- 210000000867 larynx Anatomy 0.000 description 6
- 241001672694 Citrus reticulata Species 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 210000004072 lung Anatomy 0.000 description 3
- 238000004080 punching Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 210000004704 glottis Anatomy 0.000 description 2
- 210000001847 jaw Anatomy 0.000 description 2
- 210000004373 mandible Anatomy 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 210000000088 lip Anatomy 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 210000005176 supraglottis Anatomy 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001256 tonic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
- G10L2025/906—Pitch tracking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种基于大数据挖掘技术的韩语发音纠正***,在发音过程中,利用传感器检测共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数,并在发音过程中,进行了声学和肌电图分析,还利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。
Description
技术领域
本发明涉及语言学习领域,具体而言,涉及一种基于大数据挖掘技术的韩语发音纠正***。
技术背景
由于历史原因,韩语受到汉语的影响很大,使其和汉语有很多相似之处,这种相似给韩国人学习汉语带来很多便利,同时也带来很多负迁移。从发音方面说,虽然有很多韩语发音和汉语发音很像,尤其在韩语的汉字词中表现得尤为明显,但事实上,无论是发音方法还是发音部位,都存在着很大的差异。这种差异使韩国学生在学习汉语时,有很多难以克服的困难,给对韩的汉语语音教学带来很多麻烦。研究汉韩语音的辅音差异问题,探讨汉韩辅音方面的差异,并探讨相应的教学策略很有必要。
辅音,即指发音时气流在发音部位受到明显的阻碍而形成的音,又叫子音。汉语和韩语中的辅音,二者在发音方法、发音部位及发音强弱方面有着不同。汉语普通话的辅音***和韩语辅音***并无对应关系,有一些音汉语普通话中存在,而韩语中并不存在,比如f[f];也有一些音似乎发音部位和发音方法相同,但事实上发出的音并不一样,比如和g、k;还有一些音是韩语中存在,而汉语中没有,比如韩语的紧音,汉语辅音***没有。韩语中还存在紧音,紧音与松音的区别在于气流更强一些。同时,韩语辅音***中存在喉音鼻音闪音这三个音在汉语中并不存在,在韩语中也较为特别,鼻音在音节开头位置的时候不发音,喉音与h音相似,闪音在做收音时发音方法较为类似于r音。
语习过程中,学习者往往对母语依赖性较强。一般而言,学习者喜欢从母语出发去学习第二种语言,以母语与目的语中相似的音代替目的语的情况十分普遍,或用母语思维学习目的语也同样会引起偏误。(1)语音相似引起偏误,汉语普通话和韩语本身就很相似,替代现象更为常见,如上文所述一些近似音,比如用代替g、k,由此引起偏误;(2)用母语语音替代母语中没有的发音,比如用喉音代替h,或以发音代替l或者r。(3)韩语语流音变引起偏误。因此,以母语的语流音变思维学习汉语普通话,同样会造成偏误。
综上,理解发音特征与声信号之间的关系对于解决发音反转问题至关重要。
发明内容
本发明提出了一种基于大数据挖掘技术的韩语发音纠正***,实现了韩语口语发音错误的检测和自动纠正,为学生学习韩语提供了技术支持。
一种基于大数据挖掘技术的韩语发音纠正***,包括音频信号采集模块、数据分析模块、纠正模块、控制模块、终端模块,云端模块,所述信号传输装置包括声带振动传感器、电磁传感器,电磁传感器用于捕捉语音识别中舌头和下巴的运动,所述电磁传感器是穿戴永磁示踪剂,利用磁传感器阵列无线跟踪舌头的运动,对舌头的坐标及其曲率位置的超声成像测量,以表示说话过程中的舌头,同时基于下颌、舌头和喉部的组合来估计发音模型中元音的共振峰频率,所述数据分析模块对韩语元音和辅音前两个共振峰进行优化,具体步骤包括:
口腔被认为是一个管状模型,并认为是一个谐振器,对模型进行修正,获得:
β1和β2是提供的舌头元音发音***共振峰响应的最接近的常量值,β1、β2∈R,c是音速,c=340m/s;
S2.确定β1和β2的值,β1和β2的值基于永磁示踪剂实验值的现有口腔***共振峰的采集值计算而得,为了提高准确率,计算估计***和舌发音***的共振峰之间的损失函数,使用均方误差函数计算损失:
计算损失函数的偏导数,并通过下式更新β1和β2的当前值:
S3.松音、紧音、送气音的第一共振峰分别表示为:
松音、紧音、送气音的第二共振峰分别表示为:
式中,γ1、γ2是提供的舌头辅音发音***共振峰响应的最接近的常量值,c是音速,B是***释放时间,Duration是发音持续时间;
S5.所述纠正模块通过传感器获知共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数;并在发音过程中,进行了声学和肌电图分析,利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。
进一步地,引入消错计算可以有效地进行高精度的口语发音校正计算,首先进行数据处理和误差计算,其过程如下:
式中,E误差,H为误差阈值,B为振动波谷的极值,C为音频的有效周期律,D为恒频参数,PAH为韩语语音的标准振幅;
将收集到的韩语口语发音“规范化”:
式中,ηE是韩语发音过程中的函数离散值,n是函数离散值的权重,T表示两个音频节点之间的跳数,dij表示音频节点i和节点j之间的最短路径;
按如下公式对发音进行纠正:
Vi=RUi(ATS-1)-1
式中,AT为音频固有偏斜度,是衡量音符的参数,S-1为音频属性的组合,是音频校对的函数参数,R为高级音频的提升权重,Ui是音频的度量,Vi为音频防错极限。
进一步地,声带振动传感器包括语音信号采集传感器阵列,韩语语音信号特征检测的频域为v(t,θ),即:
采用自适应波束形成方法对语音信号进行时域匹配和滤波。输出信号的频域特性如下:
V(t,θ)=xH(t)ω(θ)
式中,H表示复共轭转置;
韩语语音输出的瞬时时域信号的加权向量和分量可以表示为:
x(t)=[x1(t),x2(t),…,xM(t)]T
ω(θ)=[ω1(θ),ω2(θ),…,ωM(θ)]T;
结合自适应滤波和盲源分离,对语音信号进行分解,得到韩语语音检测的FM分量输出如下:
Tm(θ)=(m-1)T0(θ);
式中,T0(θ)表示初始FM分量。结合传感器阵列的信号处理方法,得到韩语发音错误检测的信号模型如下:
式中,gm为计算系数,nm(t)为辅助参数。
进一步地,所述音频信号采集模块包括信号传输装置、音频信号调制器、解调器、语音采集器。
进一步地,所述音频信号调制器通过数字信号处理技术将低频数字信号调制成高频数字信号并进行传输,所述音频信号调制器与所述解调器成对使用,用来将数字信号调整为高频信号进行传输,而所述解调器则将数字信号还原为原始信号。
进一步地,所述解调器将调制在高频数字信号中的低频数字信号还原。
进一步地,所述控制模块由程序计数器、指令寄存器、指令译码器、时序发生器和操作控制器组成,用于发布命令,协调和指挥整个***的运行。
进一步地,所述终端模块包括客户端UI模块、可视化模块,所述客户端UI模块适于采集终端用户信息。
进一步地,所述云端模块包括讯号接收模块,所述云端模块包括韩语标准发音以及口腔***与喉部***的数据库。
本发明在发音过程中,利用传感器检测共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数。并在发音过程中,进行了声学和肌电图分析,还利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的韩语发音错误纠正***主要用于韩语口语发音的识别、韩语口语发音错误的检测和自动纠正。口语发音是学习韩语的第一步,是整个韩语学习的基础。学习韩语的首要问题是记住单词。记住单词的首要任务是记住单词的发音。正确的口语发音习惯也能大大提高听力。即使是一些熟悉的单词在句中,他们也会因为自己独特的口语发音而无法理解别人正确的口语发音,从而导致韩语口语交际的困难。所以准确的韩语发音对学生听力非常重要。
***硬件架构构建根据韩语口语发音错误自动纠错***的要求,构建了***的硬件架构,包括音频信号采集模块、数据分析模块、纠正模块、控制模块、终端模块,云端模块。
音频信号调制器是通过数字信号处理技术将低频数字信号调制成高频数字信号并进行传输的设备。音频信号调制器通常与解调器成对使用,用来将数字信号调整为高频信号进行传输,而解调器则将数字信号还原为原始信号。解调器是一种利用数字信号处理技术将调制在高频数字信号中的低频数字信号还原的设备。语音采集器的主要功能是采集韩语口语发音。控制器是指改变预定顺序的主电路,对控制电路的接线和电路进行说明,控制冲模电阻,控制冲模电机在冲模中的转速,制动和反转的主装置,控制器主要由程序计数器、指令寄存器、指令译码器、时序发生器和操作控制器组成;发布命令,即协调和指挥整个***的运行,是“决策主体”。
传统的口语语音纠正***,采用信号处理的方法提取口语语音信号的特征并识别信息,将提取的声纹图与标准的声纹进行比较,但并没有从发音机理上对其进行纠正。本发明对语音***进行了研究,通过放置在颈带上的信号传输装置,使用户能够感知并检测发音过程中自己的发音器官(包括嘴唇、下巴、舌头和牙齿)的肌肉运动方式,进而对发音进行纠错调整。语音***用于记录发音***(包括面部肌肉)的活动,使用电磁信号检测语音信号的合成,通过描述下颌、嘴唇、舌体和舌尖的发音轨迹来确定发音映射的声学性能。
声带振动装置位于喉部并捕捉传感器信号,这些信号被发送到控制***,以检测与发声相关的周期性振动。同时,电磁传感器被连接到面部并记录脉冲,而舌头和耳朵接口是一个可穿戴***,可以捕捉用于语音识别的舌头和下巴的运动。
舌头在元音产生方面的特征,在本发明中被认为是通过口腔产生语音的主要角色。在舌头上固定可穿戴永磁示踪剂,利用磁传感器阵列无线跟踪舌头的运动,可穿戴***没有物理入侵。对舌头的坐标及其曲率位置的超声成像测量,以表示说话过程中的舌头,同时基于下颌、舌头和喉部的组合来估计发音模型中元音的共振峰频率。元音共振峰频率值是用一万名韩国人的记录语音进行实验统计的,这些语音与他们的舌头曲率相关,这些曲率是通过超声分析口腔声道***的共振机制获得的。通过舌头的坐标与共振峰频率之间的关系,得出结论:第一共振峰频率取决于舌头的高度,第二共振峰取决于舌头的水平轴的推进长度。
在的发音过程中,利用传感器检测共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数。并在发音过程中,进行了声学和肌电图分析,还利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征。
第一共振峰与舌体高度成反比,第二共振峰频率与前额口腔的大小或基于显示舌头和嘴唇位置的舌头推进程度有关。且共振峰频率与说话人有关,并随性别和年龄而变化。在本发明中,从元音的积累结果出发,提出了元音共振峰频率的优化统计公式,并扩展到辅音,所有的研究都是基于元音和辅音发音过程中的舌运动映射。本发明所提出的舌基口腔统计模型已与喉模型相关联,并与声道模型产生的语音进行了详细的比较。该算法基于共振峰表达式,适用于不同年龄组和性别的元音和辅音生成。
本发明提出韩语元音和辅音前两个共振峰的优化统计关系,使用人类的舌头运动来定义年龄和性别独立的语音生成***,并将舌头的发音***和一个已知的喉模型关联在一起。
当声带突然关闭时,振动源中的脉冲状激励导致声门闭合,正是在这一阶段,声门下区和声门上区分离,因此,声道的有效长度减少,从而仅因声门上部分而产生共振。声道长度的这种变化引起了频谱主要共振的变化,准确提取共振频率及其相关带宽是困难的,因为这些频率及其相关带宽由于声道形状的变化而不断变化,不仅在基音周期内,而且在基音周期内(即从声门的闭合相位到开放相位),因此,共振带宽的估计必须针对短的语音片段仔细地进行。当语音频谱被分解为振幅和相位分量时,突出的共振位置以及与之相关的带宽被称为共振峰。在元音发音过程中,口腔***共振峰的前两个共振峰分别与舌头高度和舌头推进成反比。采用声道合成器和元音空间理论,通过映射舌头方向特征进行统计估计。声道形状和四边形成对显示,代表每个元音。在元音空间理论中,同样的模式是四边形的,其中水平轴l表示舌头前进,例如,前、中、后,它描述了在元音发音过程中舌头被抬高,倾斜线h表示舌头高度,例如,闭合、中间和张开。
口腔被认为是一个管状模型,并假定为一个谐振器。对模型进行修正,获得:
β1和β2是提供的舌头元音发音***共振峰响应的最接近的常量值,β1、β2∈R,c是音速,c=340m/s。
下一步是确定β1和β2的值,β1和β2的值基于永磁示踪剂实验值的现有口腔***共振峰的采集值计算而得,为了提高准确率,计算估计***和舌发音***的共振峰之间的损失函数,使用均方误差函数计算损失:
计算损失函数的偏导数,并通过下式更新β1和β2的当前值。
对辅音产生的发音通过辅音的舌高h和水平轴推进l之间的关系来表示舌头的位置和运动。以类似于元音的方式,建立了辅音四边形的舌头高度h和舌头的水平轴推进l之间的关系。利用梯度下降法得到了辅音口腔共振峰的统计公式,并对其进行了优化。辅音是用音位和方式***来描述和区分的,在此基础上,将辅音分为三个不同的组:松音、紧音、送气音。从辅音的声学特性来看,第一和第二共振峰受收缩的大小、发音方式(舌头高度)和***(突然释放空气)、舌头位置的影响,以及浊音或清音和发音部位(舌头向前)影响。
松音、紧音、送气音的第一共振峰分别表示为:
松音、紧音、送气音的第二共振峰分别表示为:
式中,γ1、γ2是提供的舌头辅音发音***共振峰响应的最接近的常量值,c是音速,B是***释放时间,Duration是发音持续时间。
在建立了全套元音和辅音的共振峰后,利用上述结果,本发明提出了一种定量语音清晰度的新方法,并指出舌发音***的前两个共振峰的共振***是不同的。
声道模型包括肺(声门源)和喉部,以及作为单个管道的口腔。肺起着动力作用,为喉部提供气流。喉部调节来自肺部的气流,并提供周期性的气流或嘈杂的气流源。因此,输出通过对光源进行光谱整形来提供调制气流,通过将简化的基于舌头的口腔***(舌头发音***)与喉部***级联而提出声道***的计算公式,声道***共振峰频率的传递函数由表示为V(z)k,喉***和舌的共振峰频率的传递函数表示为L(z)k和
此外,本发明还可以通过短时处理得到的共振峰带宽可以近似于每个共振峰的瞬时带宽,除了利用瞬时频带宽度来提取振幅分量外,还可以利用瞬时频带宽度来提取共振峰。共振峰带宽是通过将语音信号通过一组带通滤波器进行分解,然后对每个频带进行解调,得到振幅包络和瞬时频率信号来确定的。然后利用能量分离算法从这些瞬时频率信号中提取共振峰的带宽,将带宽值相对于最大值进行标准化,并绘制为直方图曲线,从语音的短片段中提取频谱响应的主共振频率处的带宽,以突出元音和辅音片段中带宽的变化。
声带振动传感器包括语音信号采集传感器阵列,韩语语音信号特征检测的频域为v(t,θ),即:
采用自适应波束形成方法对语音信号进行时域匹配和滤波。输出信号的频域特性如下:
V(t,θ)=xH(t)ω(θ)
式中,H表示复共轭转置。
韩语语音输出的瞬时时域信号的加权向量和分量可以表示为:
x(t)=[x1(t),x2(t),…,xM(t)]T
ω(θ)=[ω1(θ),ω2(θ),…,ωM(θ)]T
结合自适应滤波和盲源分离,对语音信号进行分解,得到韩语语音检测的FM分量输出如下:
Tm(θ)=(m-1)T0(θ)
式中,T0(θ)表示初始FM分量。结合传感器阵列的信号处理方法,得到韩语发音错误检测的信号模型如下:
式中,gm为计算系数,nm(t)为辅助参数。
语音错误检测
学习者根据***提示发音后,***会结合标准发音词典和发音规则,形成音位检测网络。同时,通过传感器获知共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数;并在发音过程中,进行了声学和肌电图分析,利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。
引入消错计算可以有效地进行高精度的口语发音校正计算,首先进行数据处理和误差计算,其过程如下:
式中,E误差,H为误差阈值,B为振动波谷的极值,C为音频的有效周期律,D为恒频参数,PAH为韩语语音的标准振幅。
通过以上方法,将收集到的韩语口语发音“规范化”:
式中,ηE是韩语发音过程中的函数离散值,n是函数离散值的权重,T表示两个音频节点之间的跳数,dij表示音频节点i和节点j之间的最短路径。
按如下公式对发音进行纠正:
Vi=RUi(ATS-1)-1
式中,AT为音频固有偏斜度,是衡量音符的参数,S-1为音频属性的组合,是音频校对的函数参数,R为高级音频的提升权重,Ui是音频的度量,Vi为音频防错极限。
通过对声道及口腔模型的研究,基于发音音位对韩语口语发音错误进行自动纠错,为学生学习韩语提供了技术支持。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (9)
1.一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,包括音频信号采集模块、数据分析模块、纠正模块、控制模块、终端模块,云端模块,所述信号传输装置包括声带振动传感器、电磁传感器,电磁传感器用于捕捉语音识别中舌头和下巴的运动,所述电磁传感器是穿戴永磁示踪剂,利用磁传感器阵列无线跟踪舌头的运动,对舌头的坐标及其曲率位置的超声成像测量,以表示说话过程中的舌头,同时基于下颌、舌头和喉部的组合来估计发音模型中元音的共振峰频率,所述数据分析模块对韩语元音和辅音前两个共振峰进行优化,具体步骤包括:
口腔被认为是一个管状模型,并认为是一个谐振器,对模型进行修正,获得:
β1和β2是提供的舌头元音发音***共振峰响应的最接近的常量值,β1、β2∈R,c是音速,c=340m/s;
S2.确定β1和β2的值,β1和β2的值基于永磁示踪剂实验值的现有口腔***共振峰的采集值计算而得,为了提高准确率,计算估计***和舌发音***的共振峰之间的损失函数,使用均方误差函数计算损失:
计算损失函数的偏导数,并通过下式更新β1和β2的当前值:
S3.松音、紧音、送气音的第一共振峰分别表示为:
松音、紧音、送气音的第二共振峰分别表示为:
式中,γ1、γ2是提供的舌头辅音发音***共振峰响应的最接近的常量值,c是音速,B是***释放时间,Duration是发音持续时间;
S5.所述纠正模块通过传感器获知共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数;并在发音过程中,进行了声学和肌电图分析,利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。
2.根据权利要求1所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,引入消错计算可以有效地进行高精度的口语发音校正计算,首先进行数据处理和误差计算,其过程如下:
式中,E误差,H为误差阈值,B为振动波谷的极值,C为音频的有效周期律,D为恒频参数,PAH为韩语语音的标准振幅;
将收集到的韩语口语发音“规范化”:
式中,ηE是韩语发音过程中的函数离散值,n是函数离散值的权重,T表示两个音频节点之间的跳数,dij表示音频节点i和节点j之间的最短路径;
按如下公式对发音进行纠正:
Vi=RUi(ATS-1)-1
式中,AT为音频固有偏斜度,是衡量音符的参数,S-1为音频属性的组合,是音频校对的函数参数,R为高级音频的提升权重,Ui是音频的度量,Vi为音频防错极限。
3.根据权利要求1所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,声带振动传感器包括语音信号采集传感器阵列,韩语语音信号特征检测的频域为v(t,θ),即:
采用自适应波束形成方法对语音信号进行时域匹配和滤波。输出信号的频域特性如下:
V(t,θ)=xH(t)ω(θ)
式中,H表示复共轭转置;
韩语语音输出的瞬时时域信号的加权向量和分量可以表示为:
x(t)=[x1(t),x2(t),…,xM(t)]T
ω(θ)=[ω1(θ),ω2(θ),…,ωM(θ)]T;
结合自适应滤波和盲源分离,对语音信号进行分解,得到韩语语音检测的FM分量输出如下:
Tm(θ)=(m-1)T0(θ);
式中,T0(θ)表示初始FM分量。结合传感器阵列的信号处理方法,得到韩语发音错误检测的信号模型如下:
式中,gm为计算系数,nm(t)为辅助参数。
4.根据权利要求1-3所述的一种基于大数据挖掘技术的韩语发音纠正***,所述音频信号采集模块包括信号传输装置、音频信号调制器、解调器、语音采集器。
5.根据权利要求4所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,所述音频信号调制器通过数字信号处理技术将低频数字信号调制成高频数字信号并进行传输,所述音频信号调制器与所述解调器成对使用,用来将数字信号调整为高频信号进行传输,而所述解调器则将数字信号还原为原始信号。
6.根据权利要求1-4所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,所述解调器将调制在高频数字信号中的低频数字信号还原。
7.根据权利要求1-4所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,所述控制模块由程序计数器、指令寄存器、指令译码器、时序发生器和操作控制器组成,用于发布命令,协调和指挥整个***的运行。
8.根据权利要求1所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,所述终端模块包括客户端UI模块、可视化模块,所述客户端UI模块适于采集终端用户信息。
9.根据权利要求1所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,所述云端模块包括讯号接收模块,所述云端模块包括韩语标准发音以及口腔***与喉部***的数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110060609.8A CN112863263B (zh) | 2021-01-18 | 2021-01-18 | 一种基于大数据挖掘技术的韩语发音纠正*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110060609.8A CN112863263B (zh) | 2021-01-18 | 2021-01-18 | 一种基于大数据挖掘技术的韩语发音纠正*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112863263A true CN112863263A (zh) | 2021-05-28 |
CN112863263B CN112863263B (zh) | 2021-12-07 |
Family
ID=76005979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110060609.8A Active CN112863263B (zh) | 2021-01-18 | 2021-01-18 | 一种基于大数据挖掘技术的韩语发音纠正*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112863263B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150056580A1 (en) * | 2013-08-26 | 2015-02-26 | Seli Innovations Inc. | Pronunciation correction apparatus and method thereof |
CN104732977A (zh) * | 2015-03-09 | 2015-06-24 | 广东外语外贸大学 | 一种在线口语发音质量评价方法和*** |
CN105261246A (zh) * | 2015-12-02 | 2016-01-20 | 武汉慧人信息科技有限公司 | 一种基于大数据挖掘技术的英语口语纠错*** |
CN108922563A (zh) * | 2018-06-17 | 2018-11-30 | 海南大学 | 基于偏差器官形态行为可视化的口语学习矫正方法 |
KR20190066314A (ko) * | 2017-12-05 | 2019-06-13 | 순천향대학교 산학협력단 | 농아인을 위한 발음 및 발성 연습 장치 및 방법 |
US20200126557A1 (en) * | 2017-04-13 | 2020-04-23 | Inha University Research And Business Foundation | Speech intention expression system using physical characteristics of head and neck articulator |
CN112185186A (zh) * | 2020-09-30 | 2021-01-05 | 北京有竹居网络技术有限公司 | 一种发音纠正方法、装置、电子设备及存储介质 |
-
2021
- 2021-01-18 CN CN202110060609.8A patent/CN112863263B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150056580A1 (en) * | 2013-08-26 | 2015-02-26 | Seli Innovations Inc. | Pronunciation correction apparatus and method thereof |
WO2015030471A1 (en) * | 2013-08-26 | 2015-03-05 | Seli Innovations Inc. | Pronunciation correction apparatus and method thereof |
CN104732977A (zh) * | 2015-03-09 | 2015-06-24 | 广东外语外贸大学 | 一种在线口语发音质量评价方法和*** |
CN105261246A (zh) * | 2015-12-02 | 2016-01-20 | 武汉慧人信息科技有限公司 | 一种基于大数据挖掘技术的英语口语纠错*** |
US20200126557A1 (en) * | 2017-04-13 | 2020-04-23 | Inha University Research And Business Foundation | Speech intention expression system using physical characteristics of head and neck articulator |
KR20190066314A (ko) * | 2017-12-05 | 2019-06-13 | 순천향대학교 산학협력단 | 농아인을 위한 발음 및 발성 연습 장치 및 방법 |
CN108922563A (zh) * | 2018-06-17 | 2018-11-30 | 海南大学 | 基于偏差器官形态行为可视化的口语学习矫正方法 |
CN112185186A (zh) * | 2020-09-30 | 2021-01-05 | 北京有竹居网络技术有限公司 | 一种发音纠正方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112863263B (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lieberman et al. | Speech physiology, speech perception, and acoustic phonetics | |
US6275795B1 (en) | Apparatus and method for normalizing an input speech signal | |
JP2000504849A (ja) | 音響学および電磁波を用いた音声の符号化、再構成および認識 | |
KR20190037183A (ko) | 조음기관의 물리 특성과 음성 및 문자 간 매칭을 통한 발화 의도 측정 및 발화 구현 시스템 | |
CN103928023A (zh) | 一种语音评分方法及*** | |
US20140379348A1 (en) | Method and apparatus for improving disordered voice | |
Dellwo et al. | How is individuality expressed in voice? An introduction to speech production and description for speaker classification | |
Philips et al. | Acoustic–phonetic descriptions of speech production in speakers with cleft palate and other velopharyngeal disorders | |
Ladefoged | Speculations on the control of speech | |
CN113496696A (zh) | 一种基于语音识别的言语功能自动评估***和方法 | |
CN112863263B (zh) | 一种基于大数据挖掘技术的韩语发音纠正*** | |
Kröger et al. | Articulatory synthesis of speech and singing: State of the art and suggestions for future research | |
CN113241065B (zh) | 基于视觉面部轮廓运动的构音障碍语音识别方法及*** | |
Koreman | Decoding linguistic information in the glottal airflow | |
Hueber et al. | Ouisper: corpus based synthesis driven by articulatory data | |
Deng et al. | Speech analysis: the production-perception perspective | |
Garnier et al. | Efforts and coordination in the production of bilabial consonants | |
US10388184B2 (en) | Computer implemented method and system for training a subject's articulation | |
CN116701709B (zh) | 建立单辅音生理语音数据库的方法、***及装置 | |
Huang et al. | Model-based articulatory phonetic features for improved speech recognition | |
JP6894081B2 (ja) | 語学学習装置 | |
Nataraj | Estimation of place of articulation of fricatives from spectral parameters using artificial neural network | |
Bush | Modeling coarticulation in continuous speech | |
Liu et al. | A study on the pronunciation of nasal initial syllables in Shigatse dialect based on Glottal MS-110 | |
CN112967538A (zh) | 一种英语发音信息采集*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |