CN117894064A - 一种基于遍历声母韵母及整体发音的训练的口型对齐方法 - Google Patents
一种基于遍历声母韵母及整体发音的训练的口型对齐方法 Download PDFInfo
- Publication number
- CN117894064A CN117894064A CN202311690218.XA CN202311690218A CN117894064A CN 117894064 A CN117894064 A CN 117894064A CN 202311690218 A CN202311690218 A CN 202311690218A CN 117894064 A CN117894064 A CN 117894064A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- mouth shape
- mouth
- shape
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 title claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000010586 diagram Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 230000030279 gene silencing Effects 0.000 claims description 2
- 230000010076 replication Effects 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Landscapes
- Complex Calculations (AREA)
Abstract
本发明涉及数字人发音与口型的对齐方法领域,提供了一种基于遍历声母韵母及整体发音的训练的口型对齐方法,包括原始发音采集和口型计算过程和数字人口型获取过程,所述原始发音采集和口型计算过程和数字人口型获取过程均包括计算模块;本发明通过发音波形相似性,计算出最大相似性口型,从而有利于解决现有技术中数字人所有发音都要训练,进而产生巨大训练成本等问题,同时通过AI知识训练知识图谱大模型,节省大量人力标注,且模型具有学习能力可能比人标注更准确。
Description
技术领域
本发明涉及数字人发音与口型的对齐方法领域,具体地说是一种基于遍历声母韵母及整体发音的训练的口型对其方法。
背景技术
人类发音是指人类通过声音产生的语言表达能力;人类使用声带、舌头、牙齿和唇等器官,通过调节气流的流动和振动来发出声音,这种声音可以分为不同的音调、音量和语调,用于表达语言、思想、情感和意图;人类发音的方式和能力是其他动物所不具备的,是人类语言和交流的基础;通过发音,人类能够进行口头交流、传递信息、分享知识和文化等。
人类发音的多样性是由发音器官的形状、大小、结构和位置等因素决定的,同时也受到语言习惯和文化背景的影响,即不同地区和不同语言的人群会有不同的发音特点和口音;而数字人是基于计算机技术构建出来的一种虚拟任务形象,其语音合成和语音识别技术实现其逼真模拟人类语言交流的关键,因人类发音具有多样性和复杂性,如果需要对所有的发音都要训练,将会产生巨大的训练成本,才能让数字人表现出完整的口型变化。
综上所述,本发明提出一种基于遍历声母韵母及整体发音的训练的口型对齐方法。
发明内容
本发明提供一种基于遍历声母韵母及整体发音的训练的口型对齐方法,通过发音波形相似性,计算出最大相似性口型,以解决现有技术中数字人所有发音都要训练,进而产生巨大训练成本等问题。
本发明的现有技术方案如下:
一种基于遍历声母韵母及整体发音的训练的口型对齐方法,包括原始发音采集和口型计算过程和数字人口型获取过程,所述原始发音采集和口型计算过程和数字人口型获取过程均包括计算模块和数据库。
作为本发明的一种技术方案,所述原始发音采集和口型计算过程包括以下步骤:
S1:口型定位:通过采集设备采集一个人沉默时的口型图,并进行栅格处理,将其转换为空间坐标,得到该人物的原始口型数据;
S2:音频采集:通过采集设备采集一个人的所以声母与韵母的所有发音音频及对应的口型变化图,得到该人物的原始发音数据;
S3:获取并存储发音波形图:将采集到的发音音频进行波形分析,获取音频的波形图,并将波形图存储在数据库中;
S4:计算波形图的数值:计算模块对波形图进行数值计算,提取出与口型相关的特征,并将特征数据存储在数据库中;
S5:人类口型复制:通过对比分析已存储的声母和韵母发音音频及口型变化图,将人类口型通过空间坐标的映射,转换为数字人口型的坐标。
作为本发明的一种技术方案,所述数字人口型获取过程包括以下步骤:
S1:人类再发音采集:选择一个人类发音的文字片段,该片段之前没有进行口型空间坐标映射的记录;
S2:语音波形分析:通过音频采集设备,获取该文字片段的发音音频,并在计算模块中进行波形分析,得到音频的波形图;
S3:波形图相似度:将计算得到的波形图与之前存储的声母和韵母发音波形图进行匹配,找出最匹配的声母和韵母发音;
S4:口型空间映射:根据匹配结果,找到之前存储的对应的声母和韵母的口型图空间坐标,并利用这些坐标的信息将数字人口型进行展示。
作为本发明的一种技术方案,所述采集设备为摄像设备和录音机设备,且所述口型图可以为一系列连续的图像帧或离散的关键帧,通过这种方案可以更准确地获取人类口型的变化情况,并且可以更加真实地还原数字人口型的动态变化过程。
作为本发明的一种技术方案,所述波形图用x轴上下对称的二维直方图表示,并按照所述直方图盖度变化统计计算波形图的数值,这种方法将波形图进行简化和压缩,大大减少了计算量和存储空间的需求,并且可以更加直观地反映出音频信号的强度和频率变化情况。
作为本发明的一种技术方案,所述口型相关的特征包括音频的频谱信息和能量信息,频谱信息指的是声音喜好在不同频率上的能量分布情况,所述能量信息指的是声音的强度或振幅,它反映了声音信号的能量大小。在口型对齐方法中,能量信息可以用于计算波形图的数值,从而提取与口型相关的特征。
作为本发明的一种技术方案,所述计算模块的计算方式是通过计算两个波形数值的数值差值,差值最小,则表示相似度最大,即表示匹配度最高。
与现有技术相比,本发明具有如下有益效果:
1、本发明通过通过发音波形相似性,计算出最大相似性口型,从而有利于解决现有技术中数字人所有发音都要训练,进而产生巨大训练成本等问题,同时通过AI知识训练知识图谱大模型,节省大量人力标注,且模型具有学习能力可能比人标注更准确。
附图说明
图1是本发明人类音频口型坐标模型采集示意图;
图2是本发明口型即发音对应过程的具体流程图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
如图1-2所示,本发明提供一种基于遍历声母韵母及整体发音的训练的口型对齐方法,包括原始发音采集和口型计算过程和数字人口型获取过程,所述原始发音采集和口型计算过程和数字人口型获取过程均包括计算模块。
实施例一:
如图1-2所示,本实施例中,通过摄像设备获取一个人在沉默时的口型图像,然后对口型图像进行栅格处理,将其转换为空间坐标,以表示口型在空间中的位置。同时,通过录音设备采集一个人发出的声母和韵母的各种发音音频。为了记录口型在不同发音阶段时的空间坐标,我们将整个时间段分成4个等分,并选择其中3个等分的开始点进行图像采集。例如,如果发一个音用了1秒,那么整个时间段会被分成4个等分,每个等分的长度为0.25秒。然后,我们选择前3个等分的开始点作为图像采集的时间点,即0.25秒、0.5秒和0.75秒。这样可以保证采集到不同时间点的口型变化图像,并记录口型在不同发音阶段时的空间坐标。
需要说明的是:口型图像可以是一系列连续的图像帧,也可以为离散的关键帧。且栅格即表示空间坐标,即每个栅格有5个{x、y、z}坐标方式,并且栅格越细,效果会越好。
将采集到的发音音频使用傅里叶变换(FFT)波形分析方法进行波形分析,以获取音频在时间上的变化情况,并得到音频的波形图。之后通过对波形图进行数值计算,我们可以提取出与口型相关的特征,如音频的频谱信息和能量信息等。
需要说明的是:傅里叶变换时将时域波形转换为频域信号,得到频谱信息。并且傅里叶变换是傅里叶级数的推广,可以将非周期函数分解成一系列正弦和余弦函数的和。傅里叶变换的公式如下:
F(ω)=∫f(t)·e^(-iωt)·dt
其中,f(t)为一个非周期函数,F(ω)为该函数在频域上的表示,e^(-iωt)为复指数函数,ω为角频率。
傅里叶变换的物理意义是,任何一个非周期函数都可以表示成许多不同频率的正弦和余弦函数的和。这些正弦和余弦函数称为基频率,基频率的频率是连续的,可以取任意实数值。
波形一般用一个做x轴上下对称的二维直方图表示,并按照直方图的高度变化统计计算波形图的数值。
频谱信息指的是声音喜好在不同频率上的能量分布情况,能量信息指的是声音的强度或振幅,它反映了声音信号的能量大小。在口型对齐方法中,能量信息可以用于计算波形图的数值,从而提取与口型相关的特征。
通过对比分析数据库中已存储的声母和韵母发音音频及口型变化图,将人类口型通过空间坐标的映射,转换为数字人口型的坐标。这样,我们可以将口型信息用数字表示,从而进行更深入的研究和分析。
选择一个人类发音的文字片段,并记录其发音音频以进行波形分析。然后,我们将使用RMSE(均方根误差)来衡量该音频与之前存储的声母和韵母发音波形图之间的差异。
需要说明的是:均方根误差(Root Mean Square Error,RMSE)是一种用于衡量预测值与实际观测值之间误差的常用指标。它是预测误差的标准差,表示预测值与实际观测值之间的平均误差大。RMSE计算公式如下:
RMSE=sqrt(1/N xΣ(i=1to N)(x(i)-y(i))^2)
其中,x和y分别表示两个波形序列的样本值,N表示样本点的总数。
根据该公式,计算得到的RMSE值越小,表示两个波形图越相似。通过计算RMSE值,我们可以确定最匹配的声母和韵母发音。
然后,我们将根据匹配结果找到之前存储的对应的口型图空间坐标,并将其映射到数字人口型的坐标系中,以展现数字人的口型。
本发明的实施例是为了示例和描述起见而给出的,尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (7)
1.一种基于遍历声母韵母及整体发音的训练的口型对齐方法,其特征在于,包括原始发音采集和口型计算过程和数字人口型获取过程,所述原始发音采集和口型计算过程和数字人口型获取过程均包括计算模块和数据库。
2.如权利要求1所述基于遍历声母韵母及整体发音的训练的口型对齐方法,其特征在于:所述原始发音采集和口型计算过程包括以下步骤:
S1:口型定位:通过采集设备采集一个人沉默时的口型图,并进行栅格处理,将其转换为空间坐标,得到该人物的原始口型数据;
S2:音频采集:通过采集设备采集一个人的所以声母与韵母的所有发音音频及对应的口型变化图,得到该人物的原始发音数据;
S3:获取并存储发音波形图:将采集到的发音音频进行波形分析,获取音频的波形图,并将波形图存储在数据库中;
S4:计算波形图的数值:计算模块对波形图进行数值计算,提取出与口型相关的特征,并将特征数据存储在数据库中;
S5:人类口型复制:通过对比分析已存储的声母和韵母发音音频及口型变化图,将人类口型通过空间坐标的映射,转换为数字人口型的坐标,并存储该数字人口型的坐标。
3.如权利要求1所述基于遍历声母韵母及整体发音的训练的口型对齐方法,其特征在于:所述数字人口型获取过程包括以下步骤:
S1:人类再发音采集:选择一个人类发音的文字片段,该片段之前没有进行口型空间坐标映射的记录;
S2:语音波形分析:通过音频采集设备,获取该文字片段的发音音频,并在计算模块中进行波形分析,得到音频的波形图;
S3:波形图相似度:将计算得到的波形图与原始发音采集和口型计算过程中存储的声母和韵母发音波形图进行匹配,找出最匹配的声母和韵母发音;
S4:口型空间映射:根据匹配结果,找到之前存储的对应的声母和韵母的口型图空间坐标,并利用这些坐标的信息将数字人口型进行展示。
4.如权利要求2所述基于遍历声母韵母及整体发音的训练的口型对齐方法,其特征在于:所述采集设备为摄像设备和录音机设备,且所述口型图为一系列连续的图像帧或离散的关键帧。
5.如权利要求2所述基于遍历声母韵母及整体发音的训练的口型对齐方法,其特征在于:所述波形图用x轴上下对称的二维直方图表示,并按照所述直方图盖度变化统计计算波形图的数值。
6.如权利要求2所述基于遍历声母韵母及整体发音的训练的口型对齐方法,其特征在于:所述口型相关的特征包括音频的频谱信息和能量信息,所述能量信息指的是声音的强度或振幅。
7.如权利要求3所述基于遍历声母韵母及整体发音的训练的口型对齐方法,其特征在于:所述计算模块的计算方式是通过计算两个波形数值的数值差值,差值最小,则表示相似度最大,即表示匹配度最高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311690218.XA CN117894064A (zh) | 2023-12-11 | 2023-12-11 | 一种基于遍历声母韵母及整体发音的训练的口型对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311690218.XA CN117894064A (zh) | 2023-12-11 | 2023-12-11 | 一种基于遍历声母韵母及整体发音的训练的口型对齐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117894064A true CN117894064A (zh) | 2024-04-16 |
Family
ID=90645637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311690218.XA Pending CN117894064A (zh) | 2023-12-11 | 2023-12-11 | 一种基于遍历声母韵母及整体发音的训练的口型对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117894064A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763190A (zh) * | 2018-04-12 | 2018-11-06 | 平安科技(深圳)有限公司 | 基于语音的口型动画合成装置、方法及可读存储介质 |
KR102035596B1 (ko) * | 2018-05-25 | 2019-10-23 | 주식회사 데커드에이아이피 | 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법 |
CN114581567A (zh) * | 2022-05-06 | 2022-06-03 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
CN115511994A (zh) * | 2022-10-14 | 2022-12-23 | 厦门靠谱云股份有限公司 | 一种快速将真人克隆为二维虚拟数字人的方法 |
CN116665695A (zh) * | 2023-07-28 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 虚拟对象口型驱动方法、相关装置和介质 |
CN116994600A (zh) * | 2023-09-28 | 2023-11-03 | 中影年年(北京)文化传媒有限公司 | 基于音频驱动角色口型的方法及*** |
-
2023
- 2023-12-11 CN CN202311690218.XA patent/CN117894064A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763190A (zh) * | 2018-04-12 | 2018-11-06 | 平安科技(深圳)有限公司 | 基于语音的口型动画合成装置、方法及可读存储介质 |
KR102035596B1 (ko) * | 2018-05-25 | 2019-10-23 | 주식회사 데커드에이아이피 | 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법 |
CN114581567A (zh) * | 2022-05-06 | 2022-06-03 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
CN115511994A (zh) * | 2022-10-14 | 2022-12-23 | 厦门靠谱云股份有限公司 | 一种快速将真人克隆为二维虚拟数字人的方法 |
CN116665695A (zh) * | 2023-07-28 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 虚拟对象口型驱动方法、相关装置和介质 |
CN116994600A (zh) * | 2023-09-28 | 2023-11-03 | 中影年年(北京)文化传媒有限公司 | 基于音频驱动角色口型的方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dhingra et al. | Isolated speech recognition using MFCC and DTW | |
US20200294509A1 (en) | Method and apparatus for establishing voiceprint model, computer device, and storage medium | |
US4980917A (en) | Method and apparatus for determining articulatory parameters from speech data | |
US9489864B2 (en) | Systems and methods for an automated pronunciation assessment system for similar vowel pairs | |
CN102723079B (zh) | 基于稀疏表示的音乐和弦自动识别方法 | |
CN105989842A (zh) | 对比声纹相似度的方法、装置及其在数字娱乐点播***中的应用 | |
CN112002348B (zh) | 一种患者语音愤怒情绪识别方法和*** | |
CN112750442B (zh) | 一种具有小波变换的朱鹮种群生态体系监测***及其方法 | |
Chaki | Pattern analysis based acoustic signal processing: a survey of the state-of-art | |
CN110265051A (zh) | 应用于基础音乐视唱教育的视唱音频智能评分建模方法 | |
CN106157974A (zh) | 文本背诵质量评估装置和方法 | |
CN110473548B (zh) | 一种基于声学信号的课堂交互网络分析方法 | |
Permana et al. | Implementation of constant-Q transform (CQT) and mel spectrogram to converting bird’s sound | |
CN110310644A (zh) | 基于语音识别的智慧班牌交互方法 | |
JP3174777B2 (ja) | 信号処理方法および装置 | |
Yousfi et al. | Holy Qur'an speech recognition system distinguishing the type of recitation | |
CN110246514A (zh) | 一种基于模式识别的英语单词发音学习*** | |
CN117894064A (zh) | 一种基于遍历声母韵母及整体发音的训练的口型对齐方法 | |
CN112735444B (zh) | 一种具有模型匹配的中华凤头燕鸥识别***及其模型匹配方法 | |
CN114678039A (zh) | 一种基于深度学习的歌唱评价方法 | |
CN113691382A (zh) | 会议记录方法、装置、计算机设备及介质 | |
CN111341346A (zh) | 融合深度语言生成模型的语言表达能力评价方法和*** | |
Marck et al. | Identification, analysis and characterization of base units of bird vocal communication: The white spectacled bulbul (Pycnonotus xanthopygos) as a case study | |
Li et al. | A study of assessment model of oral English Imitation reading in college entrance examination | |
Półrolniczak et al. | Analysis of the signal of singing using the vibrato parameter in the context of choir singers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |