CN112863263A - 一种基于大数据挖掘技术的韩语发音纠正*** - Google Patents

一种基于大数据挖掘技术的韩语发音纠正*** Download PDF

Info

Publication number
CN112863263A
CN112863263A CN202110060609.8A CN202110060609A CN112863263A CN 112863263 A CN112863263 A CN 112863263A CN 202110060609 A CN202110060609 A CN 202110060609A CN 112863263 A CN112863263 A CN 112863263A
Authority
CN
China
Prior art keywords
pronunciation
tongue
korean
signal
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110060609.8A
Other languages
English (en)
Other versions
CN112863263B (zh
Inventor
金清子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Agricultural Science and Technology College
Original Assignee
Jilin Agricultural Science and Technology College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Agricultural Science and Technology College filed Critical Jilin Agricultural Science and Technology College
Priority to CN202110060609.8A priority Critical patent/CN112863263B/zh
Publication of CN112863263A publication Critical patent/CN112863263A/zh
Application granted granted Critical
Publication of CN112863263B publication Critical patent/CN112863263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种基于大数据挖掘技术的韩语发音纠正***,在发音过程中,利用传感器检测共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数,并在发音过程中,进行了声学和肌电图分析,还利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。

Description

一种基于大数据挖掘技术的韩语发音纠正***
技术领域
本发明涉及语言学习领域,具体而言,涉及一种基于大数据挖掘技术的韩语发音纠正***。
技术背景
由于历史原因,韩语受到汉语的影响很大,使其和汉语有很多相似之处,这种相似给韩国人学习汉语带来很多便利,同时也带来很多负迁移。从发音方面说,虽然有很多韩语发音和汉语发音很像,尤其在韩语的汉字词中表现得尤为明显,但事实上,无论是发音方法还是发音部位,都存在着很大的差异。这种差异使韩国学生在学习汉语时,有很多难以克服的困难,给对韩的汉语语音教学带来很多麻烦。研究汉韩语音的辅音差异问题,探讨汉韩辅音方面的差异,并探讨相应的教学策略很有必要。
辅音,即指发音时气流在发音部位受到明显的阻碍而形成的音,又叫子音。汉语和韩语中的辅音,二者在发音方法、发音部位及发音强弱方面有着不同。汉语普通话的辅音***和韩语辅音***并无对应关系,有一些音汉语普通话中存在,而韩语中并不存在,比如f[f];也有一些音似乎发音部位和发音方法相同,但事实上发出的音并不一样,比如
Figure BDA0002902200860000011
和g、k;还有一些音是韩语中存在,而汉语中没有,比如韩语的紧音,汉语辅音***没有。韩语中还存在紧音,紧音与松音的区别在于气流更强一些。同时,韩语辅音***中存在喉音
Figure BDA0002902200860000012
鼻音
Figure BDA0002902200860000013
闪音
Figure BDA0002902200860000014
这三个音在汉语中并不存在,在韩语中也较为特别,鼻音
Figure BDA0002902200860000015
在音节开头位置的时候不发音,喉音
Figure BDA0002902200860000016
与h音相似,闪音
Figure BDA0002902200860000017
在做收音时发音方法较为类似于r音。
语习过程中,学习者往往对母语依赖性较强。一般而言,学习者喜欢从母语出发去学习第二种语言,以母语与目的语中相似的音代替目的语的情况十分普遍,或用母语思维学习目的语也同样会引起偏误。(1)语音相似引起偏误,汉语普通话和韩语本身就很相似,替代现象更为常见,如上文所述一些近似音,比如用
Figure BDA0002902200860000018
代替g、k,由此引起偏误;(2)用母语语音替代母语中没有的发音,比如用喉音
Figure BDA0002902200860000019
代替h,或以
Figure BDA00029022008600000110
发音代替l或者r。(3)韩语语流音变引起偏误。因此,以母语的语流音变思维学习汉语普通话,同样会造成偏误。
综上,理解发音特征与声信号之间的关系对于解决发音反转问题至关重要。
发明内容
本发明提出了一种基于大数据挖掘技术的韩语发音纠正***,实现了韩语口语发音错误的检测和自动纠正,为学生学习韩语提供了技术支持。
一种基于大数据挖掘技术的韩语发音纠正***,包括音频信号采集模块、数据分析模块、纠正模块、控制模块、终端模块,云端模块,所述信号传输装置包括声带振动传感器、电磁传感器,电磁传感器用于捕捉语音识别中舌头和下巴的运动,所述电磁传感器是穿戴永磁示踪剂,利用磁传感器阵列无线跟踪舌头的运动,对舌头的坐标及其曲率位置的超声成像测量,以表示说话过程中的舌头,同时基于下颌、舌头和喉部的组合来估计发音模型中元音的共振峰频率,所述数据分析模块对韩语元音和辅音前两个共振峰进行优化,具体步骤包括:
S1.对于元音,第一共振峰表示为
Figure BDA0002902200860000021
其值与舌头高度h成反比:
Figure BDA0002902200860000022
第二个共振峰,表示为
Figure BDA0002902200860000023
对于元音的产生,其值与舌头的水平轴推进l成反比:
Figure BDA0002902200860000024
口腔被认为是一个管状模型,并认为是一个谐振器,对模型进行修正,获得:
Figure BDA0002902200860000025
Figure BDA0002902200860000026
β1和β2是提供的舌头元音发音***共振峰响应的最接近的常量值,β1、β2∈R,c是音速,c=340m/s;
S2.确定β1和β2的值,β1和β2的值基于永磁示踪剂实验值的现有口腔***共振峰的采集值计算而得,为了提高准确率,计算估计***和舌发音***的共振峰之间的损失函数,使用均方误差函数计算损失:
Figure BDA0002902200860000027
计算损失函数的偏导数,并通过下式更新β1和β2的当前值:
Figure BDA0002902200860000031
Figure BDA0002902200860000032
S3.松音、紧音、送气音的第一共振峰分别表示为:
Figure BDA0002902200860000033
Figure BDA0002902200860000034
Figure BDA0002902200860000035
松音、紧音、送气音的第二共振峰分别表示为:
Figure BDA0002902200860000036
Figure BDA0002902200860000037
Figure BDA0002902200860000038
式中,γ1、γ2是提供的舌头辅音发音***共振峰响应的最接近的常量值,c是音速,B是***释放时间,Duration是发音持续时间;
S4.将简化的基于舌头的口腔***与喉部***级联而提出声道***的计算公式,声道***共振峰频率的传递函数由表示为V(z)k,喉***和舌的共振峰频率的传递函数表示为L(z)k
Figure BDA0002902200860000039
Figure BDA00029022008600000310
Figure BDA00029022008600000311
Figure BDA00029022008600000312
A1,A2分别表示喉和舌发音***的共振峰频率,T表示每个共振峰的持续时长,z表示共振峰的带宽,Fik表示根据i,k取值的不同,分别代表
Figure BDA00029022008600000313
Figure BDA00029022008600000314
S5.所述纠正模块通过传感器获知共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数;并在发音过程中,进行了声学和肌电图分析,利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。
进一步地,引入消错计算可以有效地进行高精度的口语发音校正计算,首先进行数据处理和误差计算,其过程如下:
Figure BDA0002902200860000041
式中,E误差,H为误差阈值,B为振动波谷的极值,C为音频的有效周期律,D为恒频参数,PAH为韩语语音的标准振幅;
将收集到的韩语口语发音“规范化”:
Figure BDA0002902200860000042
式中,ηE是韩语发音过程中的函数离散值,n是函数离散值的权重,T表示两个音频节点之间的跳数,dij表示音频节点i和节点j之间的最短路径;
按如下公式对发音进行纠正:
Vi=RUi(ATS-1)-1
式中,AT为音频固有偏斜度,是衡量音符的参数,S-1为音频属性的组合,是音频校对的函数参数,R为高级音频的提升权重,Ui是音频的度量,Vi为音频防错极限。
进一步地,声带振动传感器包括语音信号采集传感器阵列,韩语语音信号特征检测的频域为v(t,θ),即:
Figure BDA0002902200860000043
式中,ωi(θ)表示韩语第i条发音输出的瞬时时域信号加权向量,
Figure BDA0002902200860000044
表示韩语发音输出的瞬时时域信号分量,θ为语音信号参数,*表示共轭算子,m表示传感器,且数量的最大值为M;
采用自适应波束形成方法对语音信号进行时域匹配和滤波。输出信号的频域特性如下:
V(t,θ)=xH(t)ω(θ)
式中,H表示复共轭转置;
韩语语音输出的瞬时时域信号的加权向量和分量可以表示为:
x(t)=[x1(t),x2(t),…,xM(t)]T
ω(θ)=[ω1(θ),ω2(θ),…,ωM(θ)]T
结合自适应滤波和盲源分离,对语音信号进行分解,得到韩语语音检测的FM分量输出如下:
Tm(θ)=(m-1)T0(θ);
式中,T0(θ)表示初始FM分量。结合传感器阵列的信号处理方法,得到韩语发音错误检测的信号模型如下:
Figure BDA0002902200860000051
式中,gm为计算系数,nm(t)为辅助参数。
进一步地,所述音频信号采集模块包括信号传输装置、音频信号调制器、解调器、语音采集器。
进一步地,所述音频信号调制器通过数字信号处理技术将低频数字信号调制成高频数字信号并进行传输,所述音频信号调制器与所述解调器成对使用,用来将数字信号调整为高频信号进行传输,而所述解调器则将数字信号还原为原始信号。
进一步地,所述解调器将调制在高频数字信号中的低频数字信号还原。
进一步地,所述控制模块由程序计数器、指令寄存器、指令译码器、时序发生器和操作控制器组成,用于发布命令,协调和指挥整个***的运行。
进一步地,所述终端模块包括客户端UI模块、可视化模块,所述客户端UI模块适于采集终端用户信息。
进一步地,所述云端模块包括讯号接收模块,所述云端模块包括韩语标准发音以及口腔***与喉部***的数据库。
本发明在发音过程中,利用传感器检测共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数。并在发音过程中,进行了声学和肌电图分析,还利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的韩语发音错误纠正***主要用于韩语口语发音的识别、韩语口语发音错误的检测和自动纠正。口语发音是学习韩语的第一步,是整个韩语学习的基础。学习韩语的首要问题是记住单词。记住单词的首要任务是记住单词的发音。正确的口语发音习惯也能大大提高听力。即使是一些熟悉的单词在句中,他们也会因为自己独特的口语发音而无法理解别人正确的口语发音,从而导致韩语口语交际的困难。所以准确的韩语发音对学生听力非常重要。
***硬件架构构建根据韩语口语发音错误自动纠错***的要求,构建了***的硬件架构,包括音频信号采集模块、数据分析模块、纠正模块、控制模块、终端模块,云端模块。
音频信号调制器是通过数字信号处理技术将低频数字信号调制成高频数字信号并进行传输的设备。音频信号调制器通常与解调器成对使用,用来将数字信号调整为高频信号进行传输,而解调器则将数字信号还原为原始信号。解调器是一种利用数字信号处理技术将调制在高频数字信号中的低频数字信号还原的设备。语音采集器的主要功能是采集韩语口语发音。控制器是指改变预定顺序的主电路,对控制电路的接线和电路进行说明,控制冲模电阻,控制冲模电机在冲模中的转速,制动和反转的主装置,控制器主要由程序计数器、指令寄存器、指令译码器、时序发生器和操作控制器组成;发布命令,即协调和指挥整个***的运行,是“决策主体”。
传统的口语语音纠正***,采用信号处理的方法提取口语语音信号的特征并识别信息,将提取的声纹图与标准的声纹进行比较,但并没有从发音机理上对其进行纠正。本发明对语音***进行了研究,通过放置在颈带上的信号传输装置,使用户能够感知并检测发音过程中自己的发音器官(包括嘴唇、下巴、舌头和牙齿)的肌肉运动方式,进而对发音进行纠错调整。语音***用于记录发音***(包括面部肌肉)的活动,使用电磁信号检测语音信号的合成,通过描述下颌、嘴唇、舌体和舌尖的发音轨迹来确定发音映射的声学性能。
声带振动装置位于喉部并捕捉传感器信号,这些信号被发送到控制***,以检测与发声相关的周期性振动。同时,电磁传感器被连接到面部并记录脉冲,而舌头和耳朵接口是一个可穿戴***,可以捕捉用于语音识别的舌头和下巴的运动。
舌头在元音产生方面的特征,在本发明中被认为是通过口腔产生语音的主要角色。在舌头上固定可穿戴永磁示踪剂,利用磁传感器阵列无线跟踪舌头的运动,可穿戴***没有物理入侵。对舌头的坐标及其曲率位置的超声成像测量,以表示说话过程中的舌头,同时基于下颌、舌头和喉部的组合来估计发音模型中元音的共振峰频率。元音共振峰频率值是用一万名韩国人的记录语音进行实验统计的,这些语音与他们的舌头曲率相关,这些曲率是通过超声分析口腔声道***的共振机制获得的。通过舌头的坐标与共振峰频率之间的关系,得出结论:第一共振峰频率取决于舌头的高度,第二共振峰取决于舌头的水平轴的推进长度。
在的发音过程中,利用传感器检测共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数。并在发音过程中,进行了声学和肌电图分析,还利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征。
第一共振峰与舌体高度成反比,第二共振峰频率与前额口腔的大小或基于显示舌头和嘴唇位置的舌头推进程度有关。且共振峰频率与说话人有关,并随性别和年龄而变化。在本发明中,从元音的积累结果出发,提出了元音共振峰频率的优化统计公式,并扩展到辅音,所有的研究都是基于元音和辅音发音过程中的舌运动映射。本发明所提出的舌基口腔统计模型已与喉模型相关联,并与声道模型产生的语音进行了详细的比较。该算法基于共振峰表达式,适用于不同年龄组和性别的元音和辅音生成。
本发明提出韩语元音和辅音前两个共振峰的优化统计关系,使用人类的舌头运动来定义年龄和性别独立的语音生成***,并将舌头的发音***和一个已知的喉模型关联在一起。
当声带突然关闭时,振动源中的脉冲状激励导致声门闭合,正是在这一阶段,声门下区和声门上区分离,因此,声道的有效长度减少,从而仅因声门上部分而产生共振。声道长度的这种变化引起了频谱主要共振的变化,准确提取共振频率及其相关带宽是困难的,因为这些频率及其相关带宽由于声道形状的变化而不断变化,不仅在基音周期内,而且在基音周期内(即从声门的闭合相位到开放相位),因此,共振带宽的估计必须针对短的语音片段仔细地进行。当语音频谱被分解为振幅和相位分量时,突出的共振位置以及与之相关的带宽被称为共振峰。在元音发音过程中,口腔***共振峰的前两个共振峰分别与舌头高度和舌头推进成反比。采用声道合成器和元音空间理论,通过映射舌头方向特征进行统计估计。声道形状和四边形成对显示,代表每个元音。在元音空间理论中,同样的模式是四边形的,其中水平轴l表示舌头前进,例如,前、中、后,它描述了在元音发音过程中舌头被抬高,倾斜线h表示舌头高度,例如,闭合、中间和张开。
第一共振峰,表示为
Figure BDA0002902200860000081
对于元音的产生,其值与舌头高度h成反比:
Figure BDA0002902200860000082
第二个共振峰,表示为
Figure BDA0002902200860000083
对于元音的产生,其值与舌头的水平轴推进l成反比:
Figure BDA0002902200860000084
口腔被认为是一个管状模型,并假定为一个谐振器。对模型进行修正,获得:
Figure BDA0002902200860000085
Figure BDA0002902200860000086
β1和β2是提供的舌头元音发音***共振峰响应的最接近的常量值,β1、β2∈R,c是音速,c=340m/s。
下一步是确定β1和β2的值,β1和β2的值基于永磁示踪剂实验值的现有口腔***共振峰的采集值计算而得,为了提高准确率,计算估计***和舌发音***的共振峰之间的损失函数,使用均方误差函数计算损失:
Figure BDA0002902200860000087
计算损失函数的偏导数,并通过下式更新β1和β2的当前值。
Figure BDA0002902200860000088
Figure BDA0002902200860000089
对辅音产生的发音通过辅音的舌高h和水平轴推进l之间的关系来表示舌头的位置和运动。以类似于元音的方式,建立了辅音四边形的舌头高度h和舌头的水平轴推进l之间的关系。利用梯度下降法得到了辅音口腔共振峰的统计公式,并对其进行了优化。辅音是用音位和方式***来描述和区分的,在此基础上,将辅音分为三个不同的组:松音、紧音、送气音。从辅音的声学特性来看,第一和第二共振峰受收缩的大小、发音方式(舌头高度)和***(突然释放空气)、舌头位置的影响,以及浊音或清音和发音部位(舌头向前)影响。
松音、紧音、送气音的第一共振峰分别表示为:
Figure BDA0002902200860000091
Figure BDA0002902200860000092
Figure BDA0002902200860000093
松音、紧音、送气音的第二共振峰分别表示为:
Figure BDA0002902200860000094
Figure BDA0002902200860000095
Figure BDA0002902200860000096
式中,γ1、γ2是提供的舌头辅音发音***共振峰响应的最接近的常量值,c是音速,B是***释放时间,Duration是发音持续时间。
在建立了全套元音和辅音的共振峰后,利用上述结果,本发明提出了一种定量语音清晰度的新方法,并指出舌发音***的前两个共振峰的共振***是不同的。
声道模型包括肺(声门源)和喉部,以及作为单个管道的口腔。肺起着动力作用,为喉部提供气流。喉部调节来自肺部的气流,并提供周期性的气流或嘈杂的气流源。因此,输出通过对光源进行光谱整形来提供调制气流,通过将简化的基于舌头的口腔***(舌头发音***)与喉部***级联而提出声道***的计算公式,声道***共振峰频率的传递函数由表示为V(z)k,喉***和舌的共振峰频率的传递函数表示为L(z)k
Figure BDA0002902200860000097
Figure BDA0002902200860000098
Figure BDA0002902200860000099
Figure BDA00029022008600000910
A1,A2分别表示喉和舌发音***的共振峰频率,T表示每个共振峰的持续时长,z表示共振峰的带宽,Fik表示根据i,k取值的不同,分别代表
Figure BDA00029022008600000911
Figure BDA0002902200860000101
此外,本发明还可以通过短时处理得到的共振峰带宽可以近似于每个共振峰的瞬时带宽,除了利用瞬时频带宽度来提取振幅分量外,还可以利用瞬时频带宽度来提取共振峰。共振峰带宽是通过将语音信号通过一组带通滤波器进行分解,然后对每个频带进行解调,得到振幅包络和瞬时频率信号来确定的。然后利用能量分离算法从这些瞬时频率信号中提取共振峰的带宽,将带宽值相对于最大值进行标准化,并绘制为直方图曲线,从语音的短片段中提取频谱响应的主共振频率处的带宽,以突出元音和辅音片段中带宽的变化。
声带振动传感器包括语音信号采集传感器阵列,韩语语音信号特征检测的频域为v(t,θ),即:
Figure BDA0002902200860000102
式中,ωi(θ)表示韩语第i条发音输出的瞬时时域信号加权向量,
Figure BDA0002902200860000103
表示韩语发音输出的瞬时时域信号分量,θ为语音信号参数,*表示共轭算子,m表示传感器,且数量的最大值为M。
采用自适应波束形成方法对语音信号进行时域匹配和滤波。输出信号的频域特性如下:
V(t,θ)=xH(t)ω(θ)
式中,H表示复共轭转置。
韩语语音输出的瞬时时域信号的加权向量和分量可以表示为:
x(t)=[x1(t),x2(t),…,xM(t)]T
ω(θ)=[ω1(θ),ω2(θ),…,ωM(θ)]T
结合自适应滤波和盲源分离,对语音信号进行分解,得到韩语语音检测的FM分量输出如下:
Tm(θ)=(m-1)T0(θ)
式中,T0(θ)表示初始FM分量。结合传感器阵列的信号处理方法,得到韩语发音错误检测的信号模型如下:
Figure BDA0002902200860000104
式中,gm为计算系数,nm(t)为辅助参数。
语音错误检测
学习者根据***提示发音后,***会结合标准发音词典和发音规则,形成音位检测网络。同时,通过传感器获知共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数;并在发音过程中,进行了声学和肌电图分析,利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。
引入消错计算可以有效地进行高精度的口语发音校正计算,首先进行数据处理和误差计算,其过程如下:
Figure BDA0002902200860000111
式中,E误差,H为误差阈值,B为振动波谷的极值,C为音频的有效周期律,D为恒频参数,PAH为韩语语音的标准振幅。
通过以上方法,将收集到的韩语口语发音“规范化”:
Figure BDA0002902200860000112
式中,ηE是韩语发音过程中的函数离散值,n是函数离散值的权重,T表示两个音频节点之间的跳数,dij表示音频节点i和节点j之间的最短路径。
按如下公式对发音进行纠正:
Vi=RUi(ATS-1)-1
式中,AT为音频固有偏斜度,是衡量音符的参数,S-1为音频属性的组合,是音频校对的函数参数,R为高级音频的提升权重,Ui是音频的度量,Vi为音频防错极限。
通过对声道及口腔模型的研究,基于发音音位对韩语口语发音错误进行自动纠错,为学生学习韩语提供了技术支持。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (9)

1.一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,包括音频信号采集模块、数据分析模块、纠正模块、控制模块、终端模块,云端模块,所述信号传输装置包括声带振动传感器、电磁传感器,电磁传感器用于捕捉语音识别中舌头和下巴的运动,所述电磁传感器是穿戴永磁示踪剂,利用磁传感器阵列无线跟踪舌头的运动,对舌头的坐标及其曲率位置的超声成像测量,以表示说话过程中的舌头,同时基于下颌、舌头和喉部的组合来估计发音模型中元音的共振峰频率,所述数据分析模块对韩语元音和辅音前两个共振峰进行优化,具体步骤包括:
S1.对于元音,第一共振峰表示为
Figure FDA0002902200850000011
其值与舌头高度h成反比:
Figure FDA0002902200850000012
第二个共振峰,表示为
Figure FDA0002902200850000013
对于元音的产生,其值与舌头的水平轴推进l成反比:
Figure FDA0002902200850000014
口腔被认为是一个管状模型,并认为是一个谐振器,对模型进行修正,获得:
Figure FDA0002902200850000015
Figure FDA0002902200850000016
β1和β2是提供的舌头元音发音***共振峰响应的最接近的常量值,β1、β2∈R,c是音速,c=340m/s;
S2.确定β1和β2的值,β1和β2的值基于永磁示踪剂实验值的现有口腔***共振峰的采集值计算而得,为了提高准确率,计算估计***和舌发音***的共振峰之间的损失函数,使用均方误差函数计算损失:
Figure FDA0002902200850000017
计算损失函数的偏导数,并通过下式更新β1和β2的当前值:
Figure FDA0002902200850000018
Figure FDA0002902200850000019
S3.松音、紧音、送气音的第一共振峰分别表示为:
Figure FDA0002902200850000021
Figure FDA0002902200850000022
Figure FDA0002902200850000023
松音、紧音、送气音的第二共振峰分别表示为:
Figure FDA0002902200850000024
Figure FDA0002902200850000025
Figure FDA0002902200850000026
式中,γ1、γ2是提供的舌头辅音发音***共振峰响应的最接近的常量值,c是音速,B是***释放时间,Duration是发音持续时间;
S4.将简化的基于舌头的口腔***与喉部***级联而提出声道***的计算公式,声道***共振峰频率的传递函数由表示为V(z)k,喉***和舌的共振峰频率的传递函数表示为L(z)k
Figure FDA0002902200850000027
Figure FDA0002902200850000028
Figure FDA0002902200850000029
Figure FDA00029022008500000210
A1,A2分别表示喉和舌发音***的共振峰频率,T表示每个共振峰的持续时长,z表示共振峰的带宽,Fik表示根据i,k取值的不同,分别代表
Figure FDA00029022008500000211
Figure FDA00029022008500000212
S5.所述纠正模块通过传感器获知共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数;并在发音过程中,进行了声学和肌电图分析,利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。
2.根据权利要求1所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,引入消错计算可以有效地进行高精度的口语发音校正计算,首先进行数据处理和误差计算,其过程如下:
Figure FDA00029022008500000213
式中,E误差,H为误差阈值,B为振动波谷的极值,C为音频的有效周期律,D为恒频参数,PAH为韩语语音的标准振幅;
将收集到的韩语口语发音“规范化”:
Figure FDA0002902200850000031
式中,ηE是韩语发音过程中的函数离散值,n是函数离散值的权重,T表示两个音频节点之间的跳数,dij表示音频节点i和节点j之间的最短路径;
按如下公式对发音进行纠正:
Vi=RUi(ATS-1)-1
式中,AT为音频固有偏斜度,是衡量音符的参数,S-1为音频属性的组合,是音频校对的函数参数,R为高级音频的提升权重,Ui是音频的度量,Vi为音频防错极限。
3.根据权利要求1所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,声带振动传感器包括语音信号采集传感器阵列,韩语语音信号特征检测的频域为v(t,θ),即:
Figure FDA0002902200850000032
式中,ωi(θ)表示韩语第i条发音输出的瞬时时域信号加权向量,
Figure FDA0002902200850000033
表示韩语发音输出的瞬时时域信号分量,θ为语音信号参数,*表示共轭算子,m表示传感器,且数量的最大值为M;
采用自适应波束形成方法对语音信号进行时域匹配和滤波。输出信号的频域特性如下:
V(t,θ)=xH(t)ω(θ)
式中,H表示复共轭转置;
韩语语音输出的瞬时时域信号的加权向量和分量可以表示为:
x(t)=[x1(t),x2(t),…,xM(t)]T
ω(θ)=[ω1(θ),ω2(θ),…,ωM(θ)]T
结合自适应滤波和盲源分离,对语音信号进行分解,得到韩语语音检测的FM分量输出如下:
Tm(θ)=(m-1)T0(θ);
式中,T0(θ)表示初始FM分量。结合传感器阵列的信号处理方法,得到韩语发音错误检测的信号模型如下:
Figure FDA0002902200850000041
式中,gm为计算系数,nm(t)为辅助参数。
4.根据权利要求1-3所述的一种基于大数据挖掘技术的韩语发音纠正***,所述音频信号采集模块包括信号传输装置、音频信号调制器、解调器、语音采集器。
5.根据权利要求4所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,所述音频信号调制器通过数字信号处理技术将低频数字信号调制成高频数字信号并进行传输,所述音频信号调制器与所述解调器成对使用,用来将数字信号调整为高频信号进行传输,而所述解调器则将数字信号还原为原始信号。
6.根据权利要求1-4所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,所述解调器将调制在高频数字信号中的低频数字信号还原。
7.根据权利要求1-4所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,所述控制模块由程序计数器、指令寄存器、指令译码器、时序发生器和操作控制器组成,用于发布命令,协调和指挥整个***的运行。
8.根据权利要求1所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,所述终端模块包括客户端UI模块、可视化模块,所述客户端UI模块适于采集终端用户信息。
9.根据权利要求1所述的一种基于大数据挖掘技术的韩语发音纠正***,其特征在于,所述云端模块包括讯号接收模块,所述云端模块包括韩语标准发音以及口腔***与喉部***的数据库。
CN202110060609.8A 2021-01-18 2021-01-18 一种基于大数据挖掘技术的韩语发音纠正*** Active CN112863263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110060609.8A CN112863263B (zh) 2021-01-18 2021-01-18 一种基于大数据挖掘技术的韩语发音纠正***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110060609.8A CN112863263B (zh) 2021-01-18 2021-01-18 一种基于大数据挖掘技术的韩语发音纠正***

Publications (2)

Publication Number Publication Date
CN112863263A true CN112863263A (zh) 2021-05-28
CN112863263B CN112863263B (zh) 2021-12-07

Family

ID=76005979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110060609.8A Active CN112863263B (zh) 2021-01-18 2021-01-18 一种基于大数据挖掘技术的韩语发音纠正***

Country Status (1)

Country Link
CN (1) CN112863263B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150056580A1 (en) * 2013-08-26 2015-02-26 Seli Innovations Inc. Pronunciation correction apparatus and method thereof
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和***
CN105261246A (zh) * 2015-12-02 2016-01-20 武汉慧人信息科技有限公司 一种基于大数据挖掘技术的英语口语纠错***
CN108922563A (zh) * 2018-06-17 2018-11-30 海南大学 基于偏差器官形态行为可视化的口语学习矫正方法
KR20190066314A (ko) * 2017-12-05 2019-06-13 순천향대학교 산학협력단 농아인을 위한 발음 및 발성 연습 장치 및 방법
US20200126557A1 (en) * 2017-04-13 2020-04-23 Inha University Research And Business Foundation Speech intention expression system using physical characteristics of head and neck articulator
CN112185186A (zh) * 2020-09-30 2021-01-05 北京有竹居网络技术有限公司 一种发音纠正方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150056580A1 (en) * 2013-08-26 2015-02-26 Seli Innovations Inc. Pronunciation correction apparatus and method thereof
WO2015030471A1 (en) * 2013-08-26 2015-03-05 Seli Innovations Inc. Pronunciation correction apparatus and method thereof
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和***
CN105261246A (zh) * 2015-12-02 2016-01-20 武汉慧人信息科技有限公司 一种基于大数据挖掘技术的英语口语纠错***
US20200126557A1 (en) * 2017-04-13 2020-04-23 Inha University Research And Business Foundation Speech intention expression system using physical characteristics of head and neck articulator
KR20190066314A (ko) * 2017-12-05 2019-06-13 순천향대학교 산학협력단 농아인을 위한 발음 및 발성 연습 장치 및 방법
CN108922563A (zh) * 2018-06-17 2018-11-30 海南大学 基于偏差器官形态行为可视化的口语学习矫正方法
CN112185186A (zh) * 2020-09-30 2021-01-05 北京有竹居网络技术有限公司 一种发音纠正方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112863263B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
Lieberman et al. Speech physiology, speech perception, and acoustic phonetics
US6275795B1 (en) Apparatus and method for normalizing an input speech signal
JP2000504849A (ja) 音響学および電磁波を用いた音声の符号化、再構成および認識
KR20190037183A (ko) 조음기관의 물리 특성과 음성 및 문자 간 매칭을 통한 발화 의도 측정 및 발화 구현 시스템
CN103928023A (zh) 一种语音评分方法及***
US20140379348A1 (en) Method and apparatus for improving disordered voice
Dellwo et al. How is individuality expressed in voice? An introduction to speech production and description for speaker classification
Philips et al. Acoustic–phonetic descriptions of speech production in speakers with cleft palate and other velopharyngeal disorders
Ladefoged Speculations on the control of speech
CN113496696A (zh) 一种基于语音识别的言语功能自动评估***和方法
CN112863263B (zh) 一种基于大数据挖掘技术的韩语发音纠正***
Kröger et al. Articulatory synthesis of speech and singing: State of the art and suggestions for future research
CN113241065B (zh) 基于视觉面部轮廓运动的构音障碍语音识别方法及***
Koreman Decoding linguistic information in the glottal airflow
Hueber et al. Ouisper: corpus based synthesis driven by articulatory data
Deng et al. Speech analysis: the production-perception perspective
Garnier et al. Efforts and coordination in the production of bilabial consonants
US10388184B2 (en) Computer implemented method and system for training a subject's articulation
CN116701709B (zh) 建立单辅音生理语音数据库的方法、***及装置
Huang et al. Model-based articulatory phonetic features for improved speech recognition
JP6894081B2 (ja) 語学学習装置
Nataraj Estimation of place of articulation of fricatives from spectral parameters using artificial neural network
Bush Modeling coarticulation in continuous speech
Liu et al. A study on the pronunciation of nasal initial syllables in Shigatse dialect based on Glottal MS-110
CN112967538A (zh) 一种英语发音信息采集***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant