CN112863263A

CN112863263A - 一种基于大数据挖掘技术的韩语发音纠正***

Info

Publication number: CN112863263A
Application number: CN202110060609.8A
Authority: CN
Inventors: 金清子
Original assignee: Jilin Agricultural Science and Technology College
Current assignee: Jilin Agricultural Science and Technology College
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-05-28
Anticipated expiration: 2041-01-18
Also published as: CN112863263B

Abstract

本发明涉及一种基于大数据挖掘技术的韩语发音纠正***，在发音过程中，利用传感器检测共振峰频率以及舌头和下巴的位置变化，以确定与音高相关的下巴发音参数，并在发音过程中，进行了声学和肌电图分析，还利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征，根据实际音素串与标准发音，对学习者的下颌、舌头和喉部运动进行动态调整的指导。

Description

一种基于大数据挖掘技术的韩语发音纠正***

技术领域

本发明涉及语言学习领域，具体而言，涉及一种基于大数据挖掘技术的韩语发音纠正***。

技术背景

由于历史原因，韩语受到汉语的影响很大，使其和汉语有很多相似之处，这种相似给韩国人学习汉语带来很多便利，同时也带来很多负迁移。从发音方面说，虽然有很多韩语发音和汉语发音很像，尤其在韩语的汉字词中表现得尤为明显，但事实上，无论是发音方法还是发音部位，都存在着很大的差异。这种差异使韩国学生在学习汉语时，有很多难以克服的困难，给对韩的汉语语音教学带来很多麻烦。研究汉韩语音的辅音差异问题，探讨汉韩辅音方面的差异，并探讨相应的教学策略很有必要。

辅音，即指发音时气流在发音部位受到明显的阻碍而形成的音，又叫子音。汉语和韩语中的辅音，二者在发音方法、发音部位及发音强弱方面有着不同。汉语普通话的辅音***和韩语辅音***并无对应关系，有一些音汉语普通话中存在，而韩语中并不存在，比如f[f]；也有一些音似乎发音部位和发音方法相同，但事实上发出的音并不一样，比如

和g、k；还有一些音是韩语中存在，而汉语中没有，比如韩语的紧音，汉语辅音***没有。韩语中还存在紧音，紧音与松音的区别在于气流更强一些。同时，韩语辅音***中存在喉音

鼻音

闪音

这三个音在汉语中并不存在，在韩语中也较为特别，鼻音

在音节开头位置的时候不发音，喉音

与h音相似，闪音

在做收音时发音方法较为类似于r音。

语习过程中，学习者往往对母语依赖性较强。一般而言，学习者喜欢从母语出发去学习第二种语言，以母语与目的语中相似的音代替目的语的情况十分普遍，或用母语思维学习目的语也同样会引起偏误。(1)语音相似引起偏误，汉语普通话和韩语本身就很相似，替代现象更为常见，如上文所述一些近似音，比如用

代替g、k，由此引起偏误；(2)用母语语音替代母语中没有的发音，比如用喉音

代替h，或以

发音代替l或者r。(3)韩语语流音变引起偏误。因此，以母语的语流音变思维学习汉语普通话，同样会造成偏误。

综上，理解发音特征与声信号之间的关系对于解决发音反转问题至关重要。

发明内容

本发明提出了一种基于大数据挖掘技术的韩语发音纠正***，实现了韩语口语发音错误的检测和自动纠正，为学生学习韩语提供了技术支持。

一种基于大数据挖掘技术的韩语发音纠正***，包括音频信号采集模块、数据分析模块、纠正模块、控制模块、终端模块，云端模块，所述信号传输装置包括声带振动传感器、电磁传感器，电磁传感器用于捕捉语音识别中舌头和下巴的运动，所述电磁传感器是穿戴永磁示踪剂，利用磁传感器阵列无线跟踪舌头的运动，对舌头的坐标及其曲率位置的超声成像测量，以表示说话过程中的舌头，同时基于下颌、舌头和喉部的组合来估计发音模型中元音的共振峰频率，所述数据分析模块对韩语元音和辅音前两个共振峰进行优化，具体步骤包括：

S1.对于元音，第一共振峰表示为

其值与舌头高度h成反比：

第二个共振峰，表示为

对于元音的产生，其值与舌头的水平轴推进l成反比：

口腔被认为是一个管状模型，并认为是一个谐振器，对模型进行修正，获得：

β₁和β₂是提供的舌头元音发音***共振峰响应的最接近的常量值，β₁、β₂∈R，c是音速，c＝340m/s；

S2.确定β₁和β₂的值，β₁和β₂的值基于永磁示踪剂实验值的现有口腔***共振峰的采集值计算而得，为了提高准确率，计算估计***和舌发音***的共振峰之间的损失函数，使用均方误差函数计算损失：

计算损失函数的偏导数，并通过下式更新β₁和β₂的当前值：

S3.松音、紧音、送气音的第一共振峰分别表示为：

松音、紧音、送气音的第二共振峰分别表示为：

式中，γ₁、γ₂是提供的舌头辅音发音***共振峰响应的最接近的常量值，c是音速，B是***释放时间，Duration是发音持续时间；

S4.将简化的基于舌头的口腔***与喉部***级联而提出声道***的计算公式，声道***共振峰频率的传递函数由表示为V(z)_k，喉***和舌的共振峰频率的传递函数表示为L(z)_k和

A₁，A₂分别表示喉和舌发音***的共振峰频率，T表示每个共振峰的持续时长，z表示共振峰的带宽，F_ik表示根据i，k取值的不同，分别代表

S5.所述纠正模块通过传感器获知共振峰频率以及舌头和下巴的位置变化，以确定与音高相关的下巴发音参数；并在发音过程中，进行了声学和肌电图分析，利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征，根据实际音素串与标准发音，对学习者的下颌、舌头和喉部运动进行动态调整的指导。

进一步地，引入消错计算可以有效地进行高精度的口语发音校正计算，首先进行数据处理和误差计算，其过程如下：

式中，E误差，H为误差阈值，B为振动波谷的极值，C为音频的有效周期律，D为恒频参数，PAH为韩语语音的标准振幅；

将收集到的韩语口语发音“规范化”：

式中，η_E是韩语发音过程中的函数离散值，n是函数离散值的权重，T表示两个音频节点之间的跳数，d_ij表示音频节点i和节点j之间的最短路径；

按如下公式对发音进行纠正：

Vi＝RU_i(A^TS^-1)^-1

式中，A^T为音频固有偏斜度，是衡量音符的参数，S^-1为音频属性的组合，是音频校对的函数参数，R为高级音频的提升权重，Ui是音频的度量，V_i为音频防错极限。

进一步地，声带振动传感器包括语音信号采集传感器阵列，韩语语音信号特征检测的频域为v(t，θ)，即：

式中，ω_i(θ)表示韩语第i条发音输出的瞬时时域信号加权向量，

表示韩语发音输出的瞬时时域信号分量，θ为语音信号参数，*表示共轭算子，m表示传感器，且数量的最大值为M；

采用自适应波束形成方法对语音信号进行时域匹配和滤波。输出信号的频域特性如下：

V(t,θ)＝x^H(t)ω(θ)

式中，H表示复共轭转置；

韩语语音输出的瞬时时域信号的加权向量和分量可以表示为：

x(t)＝[x₁(t),x₂(t),…,x_M(t)]^T

ω(θ)＝[ω₁(θ),ω₂(θ),…,ω_M(θ)]^T；

结合自适应滤波和盲源分离，对语音信号进行分解，得到韩语语音检测的FM分量输出如下：

T_m(θ)＝(m-1)T₀(θ)；

式中，T₀(θ)表示初始FM分量。结合传感器阵列的信号处理方法，得到韩语发音错误检测的信号模型如下：

式中，g_m为计算系数，n_m(t)为辅助参数。

进一步地，所述音频信号采集模块包括信号传输装置、音频信号调制器、解调器、语音采集器。

进一步地，所述音频信号调制器通过数字信号处理技术将低频数字信号调制成高频数字信号并进行传输，所述音频信号调制器与所述解调器成对使用，用来将数字信号调整为高频信号进行传输，而所述解调器则将数字信号还原为原始信号。

进一步地，所述解调器将调制在高频数字信号中的低频数字信号还原。

进一步地，所述控制模块由程序计数器、指令寄存器、指令译码器、时序发生器和操作控制器组成，用于发布命令，协调和指挥整个***的运行。

进一步地，所述终端模块包括客户端UI模块、可视化模块，所述客户端UI模块适于采集终端用户信息。

进一步地，所述云端模块包括讯号接收模块，所述云端模块包括韩语标准发音以及口腔***与喉部***的数据库。

本发明在发音过程中，利用传感器检测共振峰频率以及舌头和下巴的位置变化，以确定与音高相关的下巴发音参数。并在发音过程中，进行了声学和肌电图分析，还利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征，根据实际音素串与标准发音，对学习者的下颌、舌头和喉部运动进行动态调整的指导。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的韩语发音错误纠正***主要用于韩语口语发音的识别、韩语口语发音错误的检测和自动纠正。口语发音是学习韩语的第一步，是整个韩语学习的基础。学习韩语的首要问题是记住单词。记住单词的首要任务是记住单词的发音。正确的口语发音习惯也能大大提高听力。即使是一些熟悉的单词在句中，他们也会因为自己独特的口语发音而无法理解别人正确的口语发音，从而导致韩语口语交际的困难。所以准确的韩语发音对学生听力非常重要。

***硬件架构构建根据韩语口语发音错误自动纠错***的要求，构建了***的硬件架构，包括音频信号采集模块、数据分析模块、纠正模块、控制模块、终端模块，云端模块。

音频信号调制器是通过数字信号处理技术将低频数字信号调制成高频数字信号并进行传输的设备。音频信号调制器通常与解调器成对使用，用来将数字信号调整为高频信号进行传输，而解调器则将数字信号还原为原始信号。解调器是一种利用数字信号处理技术将调制在高频数字信号中的低频数字信号还原的设备。语音采集器的主要功能是采集韩语口语发音。控制器是指改变预定顺序的主电路，对控制电路的接线和电路进行说明，控制冲模电阻，控制冲模电机在冲模中的转速，制动和反转的主装置，控制器主要由程序计数器、指令寄存器、指令译码器、时序发生器和操作控制器组成；发布命令，即协调和指挥整个***的运行，是“决策主体”。

传统的口语语音纠正***，采用信号处理的方法提取口语语音信号的特征并识别信息，将提取的声纹图与标准的声纹进行比较，但并没有从发音机理上对其进行纠正。本发明对语音***进行了研究，通过放置在颈带上的信号传输装置，使用户能够感知并检测发音过程中自己的发音器官(包括嘴唇、下巴、舌头和牙齿)的肌肉运动方式，进而对发音进行纠错调整。语音***用于记录发音***(包括面部肌肉)的活动，使用电磁信号检测语音信号的合成，通过描述下颌、嘴唇、舌体和舌尖的发音轨迹来确定发音映射的声学性能。

声带振动装置位于喉部并捕捉传感器信号，这些信号被发送到控制***，以检测与发声相关的周期性振动。同时，电磁传感器被连接到面部并记录脉冲，而舌头和耳朵接口是一个可穿戴***，可以捕捉用于语音识别的舌头和下巴的运动。

舌头在元音产生方面的特征，在本发明中被认为是通过口腔产生语音的主要角色。在舌头上固定可穿戴永磁示踪剂，利用磁传感器阵列无线跟踪舌头的运动，可穿戴***没有物理入侵。对舌头的坐标及其曲率位置的超声成像测量，以表示说话过程中的舌头，同时基于下颌、舌头和喉部的组合来估计发音模型中元音的共振峰频率。元音共振峰频率值是用一万名韩国人的记录语音进行实验统计的，这些语音与他们的舌头曲率相关，这些曲率是通过超声分析口腔声道***的共振机制获得的。通过舌头的坐标与共振峰频率之间的关系，得出结论：第一共振峰频率取决于舌头的高度，第二共振峰取决于舌头的水平轴的推进长度。

在的发音过程中，利用传感器检测共振峰频率以及舌头和下巴的位置变化，以确定与音高相关的下巴发音参数。并在发音过程中，进行了声学和肌电图分析，还利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征。

第一共振峰与舌体高度成反比，第二共振峰频率与前额口腔的大小或基于显示舌头和嘴唇位置的舌头推进程度有关。且共振峰频率与说话人有关，并随性别和年龄而变化。在本发明中，从元音的积累结果出发，提出了元音共振峰频率的优化统计公式，并扩展到辅音，所有的研究都是基于元音和辅音发音过程中的舌运动映射。本发明所提出的舌基口腔统计模型已与喉模型相关联，并与声道模型产生的语音进行了详细的比较。该算法基于共振峰表达式，适用于不同年龄组和性别的元音和辅音生成。

本发明提出韩语元音和辅音前两个共振峰的优化统计关系，使用人类的舌头运动来定义年龄和性别独立的语音生成***，并将舌头的发音***和一个已知的喉模型关联在一起。

当声带突然关闭时，振动源中的脉冲状激励导致声门闭合，正是在这一阶段，声门下区和声门上区分离，因此，声道的有效长度减少，从而仅因声门上部分而产生共振。声道长度的这种变化引起了频谱主要共振的变化，准确提取共振频率及其相关带宽是困难的，因为这些频率及其相关带宽由于声道形状的变化而不断变化，不仅在基音周期内，而且在基音周期内(即从声门的闭合相位到开放相位)，因此，共振带宽的估计必须针对短的语音片段仔细地进行。当语音频谱被分解为振幅和相位分量时，突出的共振位置以及与之相关的带宽被称为共振峰。在元音发音过程中，口腔***共振峰的前两个共振峰分别与舌头高度和舌头推进成反比。采用声道合成器和元音空间理论，通过映射舌头方向特征进行统计估计。声道形状和四边形成对显示，代表每个元音。在元音空间理论中，同样的模式是四边形的，其中水平轴l表示舌头前进，例如，前、中、后，它描述了在元音发音过程中舌头被抬高，倾斜线h表示舌头高度，例如，闭合、中间和张开。

第一共振峰，表示为

对于元音的产生，其值与舌头高度h成反比：

第二个共振峰，表示为

对于元音的产生，其值与舌头的水平轴推进l成反比：

口腔被认为是一个管状模型，并假定为一个谐振器。对模型进行修正，获得：

β₁和β₂是提供的舌头元音发音***共振峰响应的最接近的常量值，β₁、β₂∈R，c是音速，c＝340m/s。

下一步是确定β₁和β₂的值，β₁和β₂的值基于永磁示踪剂实验值的现有口腔***共振峰的采集值计算而得，为了提高准确率，计算估计***和舌发音***的共振峰之间的损失函数，使用均方误差函数计算损失：

计算损失函数的偏导数，并通过下式更新β₁和β₂的当前值。

对辅音产生的发音通过辅音的舌高h和水平轴推进l之间的关系来表示舌头的位置和运动。以类似于元音的方式，建立了辅音四边形的舌头高度h和舌头的水平轴推进l之间的关系。利用梯度下降法得到了辅音口腔共振峰的统计公式，并对其进行了优化。辅音是用音位和方式***来描述和区分的，在此基础上，将辅音分为三个不同的组：松音、紧音、送气音。从辅音的声学特性来看，第一和第二共振峰受收缩的大小、发音方式(舌头高度)和***(突然释放空气)、舌头位置的影响，以及浊音或清音和发音部位(舌头向前)影响。

松音、紧音、送气音的第一共振峰分别表示为：

松音、紧音、送气音的第二共振峰分别表示为：

式中，γ₁、γ₂是提供的舌头辅音发音***共振峰响应的最接近的常量值，c是音速，B是***释放时间，Duration是发音持续时间。

在建立了全套元音和辅音的共振峰后，利用上述结果，本发明提出了一种定量语音清晰度的新方法，并指出舌发音***的前两个共振峰的共振***是不同的。

声道模型包括肺(声门源)和喉部，以及作为单个管道的口腔。肺起着动力作用，为喉部提供气流。喉部调节来自肺部的气流，并提供周期性的气流或嘈杂的气流源。因此，输出通过对光源进行光谱整形来提供调制气流，通过将简化的基于舌头的口腔***(舌头发音***)与喉部***级联而提出声道***的计算公式，声道***共振峰频率的传递函数由表示为V(z)_k，喉***和舌的共振峰频率的传递函数表示为L(z)_k和

A₁,A₂分别表示喉和舌发音***的共振峰频率，T表示每个共振峰的持续时长，z表示共振峰的带宽，F_ik表示根据i，k取值的不同，分别代表

此外，本发明还可以通过短时处理得到的共振峰带宽可以近似于每个共振峰的瞬时带宽，除了利用瞬时频带宽度来提取振幅分量外，还可以利用瞬时频带宽度来提取共振峰。共振峰带宽是通过将语音信号通过一组带通滤波器进行分解，然后对每个频带进行解调，得到振幅包络和瞬时频率信号来确定的。然后利用能量分离算法从这些瞬时频率信号中提取共振峰的带宽，将带宽值相对于最大值进行标准化，并绘制为直方图曲线，从语音的短片段中提取频谱响应的主共振频率处的带宽，以突出元音和辅音片段中带宽的变化。

声带振动传感器包括语音信号采集传感器阵列，韩语语音信号特征检测的频域为v(t，θ)，即：

表示韩语发音输出的瞬时时域信号分量，θ为语音信号参数，*表示共轭算子，m表示传感器，且数量的最大值为M。

V(t,θ)＝x^H(t)ω(θ)

式中，H表示复共轭转置。

x(t)＝[x₁(t),x₂(t),…,x_M(t)]^T

ω(θ)＝[ω₁(θ),ω₂(θ),…,ω_M(θ)]^T

T_m(θ)＝(m-1)T₀(θ)

式中，g_m为计算系数，n_m(t)为辅助参数。

语音错误检测

学习者根据***提示发音后，***会结合标准发音词典和发音规则，形成音位检测网络。同时，通过传感器获知共振峰频率以及舌头和下巴的位置变化，以确定与音高相关的下巴发音参数；并在发音过程中，进行了声学和肌电图分析，利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征，根据实际音素串与标准发音，对学习者的下颌、舌头和喉部运动进行动态调整的指导。

引入消错计算可以有效地进行高精度的口语发音校正计算，首先进行数据处理和误差计算，其过程如下：

式中，E误差，H为误差阈值，B为振动波谷的极值，C为音频的有效周期律，D为恒频参数，PAH为韩语语音的标准振幅。

通过以上方法，将收集到的韩语口语发音“规范化”：

式中，η_E是韩语发音过程中的函数离散值，n是函数离散值的权重，T表示两个音频节点之间的跳数，d_ij表示音频节点i和节点j之间的最短路径。

按如下公式对发音进行纠正：

Vi＝RU_i(A^TS^-1)^-1

通过对声道及口腔模型的研究，基于发音音位对韩语口语发音错误进行自动纠错，为学生学习韩语提供了技术支持。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于大数据挖掘技术的韩语发音纠正***，其特征在于，包括音频信号采集模块、数据分析模块、纠正模块、控制模块、终端模块，云端模块，所述信号传输装置包括声带振动传感器、电磁传感器，电磁传感器用于捕捉语音识别中舌头和下巴的运动，所述电磁传感器是穿戴永磁示踪剂，利用磁传感器阵列无线跟踪舌头的运动，对舌头的坐标及其曲率位置的超声成像测量，以表示说话过程中的舌头，同时基于下颌、舌头和喉部的组合来估计发音模型中元音的共振峰频率，所述数据分析模块对韩语元音和辅音前两个共振峰进行优化，具体步骤包括：

S1.对于元音，第一共振峰表示为