CN117894064A

CN117894064A - 一种基于遍历声母韵母及整体发音的训练的口型对齐方法

Info

Publication number: CN117894064A
Application number: CN202311690218.XA
Authority: CN
Inventors: 赵海涛
Original assignee: King Channels Digital Technology Beijing Co ltd
Current assignee: King Channels Digital Technology Beijing Co ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-04-16

Abstract

本发明涉及数字人发音与口型的对齐方法领域，提供了一种基于遍历声母韵母及整体发音的训练的口型对齐方法，包括原始发音采集和口型计算过程和数字人口型获取过程，所述原始发音采集和口型计算过程和数字人口型获取过程均包括计算模块；本发明通过发音波形相似性，计算出最大相似性口型，从而有利于解决现有技术中数字人所有发音都要训练，进而产生巨大训练成本等问题，同时通过AI知识训练知识图谱大模型，节省大量人力标注，且模型具有学习能力可能比人标注更准确。

Description

一种基于遍历声母韵母及整体发音的训练的口型对齐方法

技术领域

本发明涉及数字人发音与口型的对齐方法领域，具体地说是一种基于遍历声母韵母及整体发音的训练的口型对其方法。

背景技术

人类发音是指人类通过声音产生的语言表达能力；人类使用声带、舌头、牙齿和唇等器官，通过调节气流的流动和振动来发出声音，这种声音可以分为不同的音调、音量和语调，用于表达语言、思想、情感和意图；人类发音的方式和能力是其他动物所不具备的，是人类语言和交流的基础；通过发音，人类能够进行口头交流、传递信息、分享知识和文化等。

人类发音的多样性是由发音器官的形状、大小、结构和位置等因素决定的，同时也受到语言习惯和文化背景的影响，即不同地区和不同语言的人群会有不同的发音特点和口音；而数字人是基于计算机技术构建出来的一种虚拟任务形象，其语音合成和语音识别技术实现其逼真模拟人类语言交流的关键，因人类发音具有多样性和复杂性，如果需要对所有的发音都要训练，将会产生巨大的训练成本，才能让数字人表现出完整的口型变化。

综上所述，本发明提出一种基于遍历声母韵母及整体发音的训练的口型对齐方法。

发明内容

本发明提供一种基于遍历声母韵母及整体发音的训练的口型对齐方法，通过发音波形相似性，计算出最大相似性口型，以解决现有技术中数字人所有发音都要训练，进而产生巨大训练成本等问题。

本发明的现有技术方案如下：

一种基于遍历声母韵母及整体发音的训练的口型对齐方法，包括原始发音采集和口型计算过程和数字人口型获取过程，所述原始发音采集和口型计算过程和数字人口型获取过程均包括计算模块和数据库。

作为本发明的一种技术方案，所述原始发音采集和口型计算过程包括以下步骤：

S1：口型定位：通过采集设备采集一个人沉默时的口型图，并进行栅格处理，将其转换为空间坐标，得到该人物的原始口型数据；

S2：音频采集：通过采集设备采集一个人的所以声母与韵母的所有发音音频及对应的口型变化图，得到该人物的原始发音数据；

S3：获取并存储发音波形图：将采集到的发音音频进行波形分析，获取音频的波形图，并将波形图存储在数据库中；

S4：计算波形图的数值：计算模块对波形图进行数值计算，提取出与口型相关的特征，并将特征数据存储在数据库中；

S5：人类口型复制：通过对比分析已存储的声母和韵母发音音频及口型变化图，将人类口型通过空间坐标的映射，转换为数字人口型的坐标。

作为本发明的一种技术方案，所述数字人口型获取过程包括以下步骤：

S1：人类再发音采集：选择一个人类发音的文字片段，该片段之前没有进行口型空间坐标映射的记录；

S2：语音波形分析：通过音频采集设备，获取该文字片段的发音音频，并在计算模块中进行波形分析，得到音频的波形图；

S3：波形图相似度：将计算得到的波形图与之前存储的声母和韵母发音波形图进行匹配，找出最匹配的声母和韵母发音；

S4：口型空间映射：根据匹配结果，找到之前存储的对应的声母和韵母的口型图空间坐标，并利用这些坐标的信息将数字人口型进行展示。

作为本发明的一种技术方案，所述采集设备为摄像设备和录音机设备，且所述口型图可以为一系列连续的图像帧或离散的关键帧，通过这种方案可以更准确地获取人类口型的变化情况，并且可以更加真实地还原数字人口型的动态变化过程。

作为本发明的一种技术方案，所述波形图用x轴上下对称的二维直方图表示，并按照所述直方图盖度变化统计计算波形图的数值，这种方法将波形图进行简化和压缩，大大减少了计算量和存储空间的需求，并且可以更加直观地反映出音频信号的强度和频率变化情况。

作为本发明的一种技术方案，所述口型相关的特征包括音频的频谱信息和能量信息，频谱信息指的是声音喜好在不同频率上的能量分布情况，所述能量信息指的是声音的强度或振幅，它反映了声音信号的能量大小。在口型对齐方法中，能量信息可以用于计算波形图的数值，从而提取与口型相关的特征。

作为本发明的一种技术方案，所述计算模块的计算方式是通过计算两个波形数值的数值差值，差值最小，则表示相似度最大，即表示匹配度最高。

与现有技术相比，本发明具有如下有益效果：

1、本发明通过通过发音波形相似性，计算出最大相似性口型，从而有利于解决现有技术中数字人所有发音都要训练，进而产生巨大训练成本等问题，同时通过AI知识训练知识图谱大模型，节省大量人力标注，且模型具有学习能力可能比人标注更准确。

附图说明

图1是本发明人类音频口型坐标模型采集示意图；

图2是本发明口型即发音对应过程的具体流程图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

如图1-2所示，本发明提供一种基于遍历声母韵母及整体发音的训练的口型对齐方法，包括原始发音采集和口型计算过程和数字人口型获取过程，所述原始发音采集和口型计算过程和数字人口型获取过程均包括计算模块。

实施例一：

如图1-2所示，本实施例中，通过摄像设备获取一个人在沉默时的口型图像，然后对口型图像进行栅格处理，将其转换为空间坐标，以表示口型在空间中的位置。同时，通过录音设备采集一个人发出的声母和韵母的各种发音音频。为了记录口型在不同发音阶段时的空间坐标，我们将整个时间段分成4个等分，并选择其中3个等分的开始点进行图像采集。例如，如果发一个音用了1秒，那么整个时间段会被分成4个等分，每个等分的长度为0.25秒。然后，我们选择前3个等分的开始点作为图像采集的时间点，即0.25秒、0.5秒和0.75秒。这样可以保证采集到不同时间点的口型变化图像，并记录口型在不同发音阶段时的空间坐标。

需要说明的是：口型图像可以是一系列连续的图像帧，也可以为离散的关键帧。且栅格即表示空间坐标，即每个栅格有5个{x、y、z}坐标方式，并且栅格越细，效果会越好。

将采集到的发音音频使用傅里叶变换(FFT)波形分析方法进行波形分析，以获取音频在时间上的变化情况，并得到音频的波形图。之后通过对波形图进行数值计算，我们可以提取出与口型相关的特征，如音频的频谱信息和能量信息等。

需要说明的是：傅里叶变换时将时域波形转换为频域信号，得到频谱信息。并且傅里叶变换是傅里叶级数的推广，可以将非周期函数分解成一系列正弦和余弦函数的和。傅里叶变换的公式如下：

F(ω)＝∫f(t)·e^(-iωt)·dt

其中，f(t)为一个非周期函数，F(ω)为该函数在频域上的表示，e^(-iωt)为复指数函数，ω为角频率。

傅里叶变换的物理意义是，任何一个非周期函数都可以表示成许多不同频率的正弦和余弦函数的和。这些正弦和余弦函数称为基频率，基频率的频率是连续的，可以取任意实数值。

波形一般用一个做x轴上下对称的二维直方图表示，并按照直方图的高度变化统计计算波形图的数值。

频谱信息指的是声音喜好在不同频率上的能量分布情况，能量信息指的是声音的强度或振幅，它反映了声音信号的能量大小。在口型对齐方法中，能量信息可以用于计算波形图的数值，从而提取与口型相关的特征。

通过对比分析数据库中已存储的声母和韵母发音音频及口型变化图，将人类口型通过空间坐标的映射，转换为数字人口型的坐标。这样，我们可以将口型信息用数字表示，从而进行更深入的研究和分析。

选择一个人类发音的文字片段，并记录其发音音频以进行波形分析。然后，我们将使用RMSE(均方根误差)来衡量该音频与之前存储的声母和韵母发音波形图之间的差异。

需要说明的是：均方根误差(Root Mean Square Error，RMSE)是一种用于衡量预测值与实际观测值之间误差的常用指标。它是预测误差的标准差，表示预测值与实际观测值之间的平均误差大。RMSE计算公式如下：

RMSE＝sqrt(1/N xΣ(i＝1to N)(x(i)-y(i))^2)

其中，x和y分别表示两个波形序列的样本值，N表示样本点的总数。

根据该公式，计算得到的RMSE值越小，表示两个波形图越相似。通过计算RMSE值，我们可以确定最匹配的声母和韵母发音。

然后，我们将根据匹配结果找到之前存储的对应的口型图空间坐标，并将其映射到数字人口型的坐标系中，以展现数字人的口型。

本发明的实施例是为了示例和描述起见而给出的，尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于遍历声母韵母及整体发音的训练的口型对齐方法，其特征在于，包括原始发音采集和口型计算过程和数字人口型获取过程，所述原始发音采集和口型计算过程和数字人口型获取过程均包括计算模块和数据库。

2.如权利要求1所述基于遍历声母韵母及整体发音的训练的口型对齐方法，其特征在于：所述原始发音采集和口型计算过程包括以下步骤：

S5：人类口型复制：通过对比分析已存储的声母和韵母发音音频及口型变化图，将人类口型通过空间坐标的映射，转换为数字人口型的坐标，并存储该数字人口型的坐标。

3.如权利要求1所述基于遍历声母韵母及整体发音的训练的口型对齐方法，其特征在于：所述数字人口型获取过程包括以下步骤：

S3：波形图相似度：将计算得到的波形图与原始发音采集和口型计算过程中存储的声母和韵母发音波形图进行匹配，找出最匹配的声母和韵母发音；

4.如权利要求2所述基于遍历声母韵母及整体发音的训练的口型对齐方法，其特征在于：所述采集设备为摄像设备和录音机设备，且所述口型图为一系列连续的图像帧或离散的关键帧。

5.如权利要求2所述基于遍历声母韵母及整体发音的训练的口型对齐方法，其特征在于：所述波形图用x轴上下对称的二维直方图表示，并按照所述直方图盖度变化统计计算波形图的数值。

6.如权利要求2所述基于遍历声母韵母及整体发音的训练的口型对齐方法，其特征在于：所述口型相关的特征包括音频的频谱信息和能量信息，所述能量信息指的是声音的强度或振幅。

7.如权利要求3所述基于遍历声母韵母及整体发音的训练的口型对齐方法，其特征在于：所述计算模块的计算方式是通过计算两个波形数值的数值差值，差值最小，则表示相似度最大，即表示匹配度最高。