CN105390133A - 藏语ttvs***的实现方法 - Google Patents

藏语ttvs***的实现方法 Download PDF

Info

Publication number
CN105390133A
CN105390133A CN201510649149.7A CN201510649149A CN105390133A CN 105390133 A CN105390133 A CN 105390133A CN 201510649149 A CN201510649149 A CN 201510649149A CN 105390133 A CN105390133 A CN 105390133A
Authority
CN
China
Prior art keywords
***
*** language
mouth
speaks
shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510649149.7A
Other languages
English (en)
Inventor
杨鸿武
张策
陆晓燕
郝东亮
高海燕
徐世鹏
甘振业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Normal University
Original Assignee
Northwest Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Normal University filed Critical Northwest Normal University
Priority to CN201510649149.7A priority Critical patent/CN105390133A/zh
Publication of CN105390133A publication Critical patent/CN105390133A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供了藏语TTVS***的实现方法,根据MPEG-4标准定义了84个FDP特征点,建立三维人脸初始模型,并进行纹理映射;采用MPEG-4标准定义的FAP参数来描述藏语口型,利用照相机对藏语发音人的嘴唇进行拍照,并建立藏语口型库。在三维人脸初始模型的基础上结合FDP参数和藏语口型库得到三维人脸模型,并建立三维人脸模型库。利用已经准备好的藏语语料库,然后利用HMM模型进行聚类,得到HMM模型库。当藏语文本输入到藏语TTVS***后,先对藏语文本进行文本分析,获得上下文相关标注和音位序列,利用参数生成算法生成声学参数,最后利用STRAIGHT算法合成出藏语语音。本发明的优点在于:实现三维人脸动画和合成的藏语语音同步播放。

Description

藏语TTVS***的实现方法
技术领域
本发明涉及可视文语转换技术领域,具体地涉及藏语TTVS***的实现方法。
背景技术
随着计算机技术的发展,文字信息和声音信息已经不能满足人机交互的需要,而视觉信息在人机交互过程中具有的直观、形象、友好等特点越来越受欢迎。将传统的文字信息和声音信息与视觉信息相结合,形成直接由文本到可视语音的转换,即TTVS(TexttoVisualSpeech)***,此***能够实现向计算机输入文本就可以让计算机发出文本对应声音,同时计算机同步播放出说话人人脸动画,使人机交互界面更加友好、和谐。TTVS技术经过近几十年的发展,从最初的存储静态图片顺序播放到现在的三维人脸实时合成动画的实现,促进了人机交互技术的进一步发展。TTVS***的实现通常有两种方法:参数控制法和数据驱动法。对于数据驱动法来说,其优点是合成的人脸的真实感比较强,而模型的复杂度较低,缺点是该方法只能合成固定的人脸,不能实现个性化。对于参数控制法,其优势是数据量较小,控制起来比较灵活,可移植性较强,然而合成的人脸的真实感较差。当前,用参数生成人脸的方法使用范围较广,这种方法是通过动画参数来驱动三维人脸模型,从而实现人脸较为复杂的表情动作。
目前,TTVS技术在英语、汉语等语种中发展较为迅速,已取得了一系列的成果,但是在一些少数民族语言中则发展相对滞后。例如分布在西藏、甘肃、四川等地的藏族地区,藏语为该地区的主要交流语言,并且藏语地区涉及人口较多,语音可视技术的发展比较落后,加之藏族语言语音资源和藏语口型参数不易获取等原因,使得藏语TTVS***仍未实现。因此,藏语TTVS***的实现在藏语语音可视技术发展中具有重要意义,具有体现在藏语人机对话,藏语语音教学,藏语发音障碍的治疗等领域。
发明内容
本发明为了解决上述现有技术的不足而提供的藏语TTVS***的实现方法,该方法解决了藏族语言语音资源和藏语口口型参数不易获取的问题。
为了实现上述目的,本发明所采用藏语TTVS***的实现方法,该方法包括以下步骤:
步骤1,获取人脸定义参数(FDP):该参数是用于定义人脸的纹理特征以及人脸的几何信息。根据MPEG-4标准定义了84个FDP特征点,分为11组,它描述关于眼、鼻、眉、齿、舌、口等人脸重要特征部位的形状及位置;
步骤2,建立三维人脸模型:利用3DMax搭建三维人脸的初始模型,然后通过LOD简化技术去除多余的点、边、面,以简化该初始模型的网格数量,然后得到一个包含1137个顶点和个三角形的人脸模型,并参照步骤1中的FDP参数来定义三维人脸模型的脸、眼睛、鼻子、嘴、牙齿、舌、喉咙、头发的FDP参考值后,并自动生成相应的纹理映射,最后对三维人脸模型进行图像的特征线变形得到具有真实感的三维人脸模型;
步骤3,定义藏语口型:在步骤2中仅仅是建立了一个静态的通用三维人脸模型,还需要在该模型上赋予相应的藏语口型。根据藏语语言的现有研究成果,藏语和汉语同属于汉藏语系,在发音上有很大的相似性。因此,在定义藏语口型时需要比较汉语和藏语的声韵母的特点,在定义藏语口型时分为与汉语声韵母相同的藏语和与汉语声韵母不同的藏语,声韵母相同的利用国际音标的发音口型来定义,声韵母不同的则需要进行自定义藏语口型;
步骤4,描述藏语口型:在步骤3中定义了藏语的口型,需要用一定的参数来描述他们。考虑到口型描述的通用性和灵活性,采用MPEG-4标准定义的FAP参数来描述。该参数表示了较为全面的脸部动作集合,包含了68个FAP参数,并分为10组,第一组包括2个高级FAP,其余9组包括66个低级FAP;
步骤5,建立藏语口型库:在步骤4中完成了藏语口型的描述之后,需要确定所有藏语声韵母口型的具体参数值。具体方法:首先用照相机在藏语发音人的正面对嘴唇进行拍照,获取相应藏语口型的正面图像,然后对应口型指定的FDP特征点,计算每一个特征点由嘴唇不发音位置到这个发音口型的位移,即可以得到这个发音口型的24个FAP值,并建立藏语口型库;
步骤6,建立三维人脸模型库:结合步骤5得到藏语口型和步骤2得到的三维人脸模型,建立三维人脸模型库;
步骤7,定义人脸动画关键帧:为了使步骤7中得到的藏语口型更加自然,需要对藏语口型定义至少两个关键帧;
步骤8,准备藏语语料库:藏语语料库包含藏语的语音文件和标注文件。语音文件是发音纯正的藏族人录制的藏语语音,标注文件是通过专业表音人手工标注的藏语声韵母的时间标注;
步骤9,训练声学模型并建立模型库:从步骤8中获取到的藏语语料库中提取语音参数,包括基频、谱参数和时长信息等,然后利用声学参数、单音素标注和上下文相关标注训练每个发音基元(声韵母)的HMM模型,并在决策树问题集的指导下,对HMM模型进行聚类,得到HMM模型库;
步骤10,提取藏语语音音位时长:从步骤9的声学参数中获取藏语语音时长信息,音位时长能够保证藏语口型和藏语语音实现匹配;
步骤11,输入藏语文本:输入可视语音转换***所需的藏语文本;
步骤12,文本分析:对步骤11中输入的藏语文本进行文本分析得到该文本的上下文相关标注信息和音位序列;
步骤13,合成藏语语音:首先根据步骤12中获得的上下文相关标注信息,利用决策树从步骤8中的HMM模型库中挑选出发音基元的HMM模型,并拼接到一起形成语句HMM模型,然后利用参数生成算法生成声学参数,最后利用STRAIGHT算法合成出藏语语音;
步骤14,构建三维人脸动画和语音同步播放***:利用步骤12中获得的音位序列转换成FAP参数值,然后由步骤10中获得的音位时长、步骤6中的三维人脸模型库和该FAP参数值合成三维人脸动画,同时由步骤13合成与人脸动画同步的藏语语音。
所述的步骤1到步骤7与所述步骤8到步骤13同时进行。
本发明利用现有的建模技术建立三维人脸模型;利用藏语发音特点定义藏语口型,利用FAP参数描述定义好的藏语口型并确定藏语口型的FAP参数值,形成藏语口型库;口型库和三维人脸模型结合形成三维人脸模型库,由FAP参数值、三维人脸模型库、音位时长合成三维人脸动画。
准备藏语语料库,包括藏语语音文件和藏语文本文件,对语音提取语音声学参数,训练HMM模型并建立HMM模型库;对输入的藏语文本后进行文本分析,得到音位序列和上下文相关标注,经过决策树对HMM模型进行聚类,生成语音声学参数并合成藏语语音;最后,实现三维人脸动画和藏语语音同步播放。
附图说明
图1为本发明藏语TTVS***的实现方法流程框图。
图2为建立三维人脸模型流程图。
图3为定义藏语口型流程图。
图4为确定藏语口型的FAP值流程图。
图5为建立藏语口型库流程图。
图6为准备藏语语料流程图。
图7为藏语声学模型的训练流程图。
图8为藏语文本分析流程图。
图9为人脸动画驱动示意图。
图10为三维人脸动画合成流程图。
图11为藏语语音合成流程图。
图12为人脸定义参数(FDP)特征点分布图。
具体实施方式
下面结合附图和实施例对本发明的技术方案做详细描述,但不应以此限制本发明的保护范围。
利用现有的建模技术建立三维人脸模型;利用藏语发音特点定义藏语口型,利用FAP参数描述定义好的藏语口型并确定藏语口型的FAP参数值,形成藏语口型库;口型库和三维人脸模型结合形成三维人脸模型库,由FAP参数值、三维人脸模型库、音位时长合成三维人脸动画。
准备藏语语料库,包括藏语语音文件和藏语文本文件,对语音提取语音声学参数,训练HMM模型并建立HMM模型库;对输入的藏语文本后进行文本分析,得到音位序列和上下文相关标注,经过决策树对HMM模型进行聚类,生成语音声学参数并合成藏语语音;最后,实现三维人脸动画和藏语语音同步播放。
图1为藏语TTVD***的实现方法的流程图,如图所示,藏语TTVS***的实现方法,包括下列步骤:
步骤1,获取人脸定义参数(FDP):根据MPEG-4标准定义了84个FDP特征点,分为11组,它描述关于眼、鼻、眉、齿、舌、口等人脸重要特征部位的形状及位置。FDP特征点具体分布如图12所示:
步骤2,建立三维人脸模型:首先要获取三维人脸模型的数据,具体方法是通过建模软件3DMax直接导出3D格式的人头模型文件,然后对该模型文件进行处理,获得相适应的数据结构。通过LOD简化技术去除多余的点、边、面,以简化该初始模型的网格数量,然后得到一个包含1137个顶点和2105个三角形的人脸模型,并参照步骤1中的FDP参数来定义三维人脸模型的脸、眼睛、鼻子、嘴、牙齿、舌、喉咙、头发的FDP参考值后,并自动生成相应的纹理映射,最后对三维人脸模型进行图像的特征线变形得到具有真实感的三维人脸模型。
LOD简化技术计算公式如下:
ω(μ,υ)=||μ-υ||×max{min{(1-fμ·nμ)÷2}}
其中w为边的权值,u和v分别表示边的两个端点,fμ、nμ代表三角形面的法向量。
通过图像的变形特征线的变形,便可计算出网格顶点在变形纹理图像上的纹理坐标,计算公式如下:
x _ t e x c o o r d = ( x f - f _ l x + w i d t h 2 ) x _ t e x c o o r d = ( z r - r _ l x ) x _ t e x c o o r d = ( z r - r _ l x + w i d t h 1 + w i d t h 2 ) y _ t e x c o o r d = y f
其中(x,y,z)分别代表每个网格顶点在正向、右侧、左侧图像上的正向投影,设投影点所在位置分别为(xf,yf),(zr,yr),(zl,yl)。然后假设正向、右侧图像在纹理镶嵌图中所得到的宽度分别为(width1,width2)。
获得到纹理坐标后,就可以将图像上的纹理坐标映射到三维网格顶点上,得到具有真实感的三维人脸模型。
步骤3,定义藏语口型:在步骤2中仅仅是建立了一个静态的通用三维人脸模型,还需要在该模型上赋予相应的藏语口型。根据藏语语言的现有研究成果,藏语和汉语同属于汉藏语系,在发音上有很大的相似性。因此,在定义藏语口型时需要比较汉语和藏语的声韵母的特点,在定义藏语口型时分为与汉语声韵母相同的藏语和与汉语声韵母不同的藏语,声韵母相同的利用国际音标的发音口型来定义,声韵母不同的则需要进行自定义藏语口型。
通过藏语语言学的了解和国际音标的研究,整理出普通话有22个声母和39个韵母,而藏语方言有36个声母和45个韵母,此两种语言共同使用20个声母和13个韵母。汉语普通话分为阴、阳、上、去四个声调,其调值为55、35、214、51,另加一个轻声调,藏语方言有四个声调,其声调值分别为54、55、12、14。表1是藏语与普通话共享的20个声母。从发音上看,藏语的声母包括单辅音声母和复辅音声母,由于在拉萨话中复辅音声母的发音现象已很少出现,因此拉萨话声母主要指28个单辅音声母。汉语共有22个声母,除了一个零声母外,其它所有的声母都为单辅音。表2是藏语的28个单辅音。
表1
表2
(1)对汉藏声韵相同的藏语口型定义
由于这类藏语的声韵母发音口形与国际音标的发音口形相同,因此对国际音标的发音口形进行研究。经过长时间对国际音标发音时口形的变化的研究,对其进行分类。这里把这些音素发音分成AHA、EEE、WOU、BMP、SHH、FFV、GNK、SZZ等八种口形,每种分类是相类似发音口形的集合,然而协同发音是一个连续的过程,因此发音器官并不是从一系列分离的过程中从一个音段移到下一个音段。真实现象是,语音会连续不断地接收到它们临近音的影响。当遇到到这种同时或着重合的发音时,我们将这些过程称为协同发音。为了简单情况下不考虑协同发音,这样在较少的口形分类中比较容易看出其中的差别,每种发音的口形变化。将国际音标的发音口形进行分类之后,接下来就是将汉藏声韵母相同的藏语音素按照国际音标的分类方式进行分类,从而得到其发音口形。经过详细的整理,得到的该类藏语音素发音与国际音标发音有着如表3所示的对应关系。
表3
(2)对汉藏声韵不同的藏语口型定义
声母的口形从人开始发音时就已经形成,但是持续时间很短,然后迅速过渡到韵母口形形式。因此,韵母口形是决定一个音节口形的关键。发音的部分和发音的形状都对发音的口形有着重要的影响,如果发音部位或发音方式相同或相似,那么声韵母的口形也相似,以汉语为例,/b/、/m/、/p/的口形就非常相似。那么就可以先从视觉方面对声韵母进行分类研究,通过同一种口形来表示发音部分和发音方式相近或相同的声韵母,那么便可以知道声韵母与口形之间所存在多对一的映射关系。即视位与音位之间一一映射的关系能够增强对语音的识别及语音驱动人脸动画的效果。
①对于藏语特有的单辅音。其唇形变化主要研究它的外唇宽度和开口度之间的差异,通过Liew算法可得到藏语单辅音声母外唇宽度和开口度汇总如表4所示。
表4
表4中(WCA)表示外唇宽度平均值,(WCT)表示外唇宽度目标值;(WCAa)表示后接a外唇宽度平均值;(WCAi)表示后接i外唇宽度平均值;(WCAu)表示后接U外唇宽度平值;(KKA)表示开口宽度平均值;(KKT)开口宽度目标值;(KKAa)表示后接a唇宽度平均值;(KKAi)表示后接i外唇宽度平均值,(KKAu)表示后接U外唇宽度平均值。
②对于藏语特有的复辅音。从发音上来说,每个辅音有自己的发音过程,发音过程中有明显的音质跳跃。在忽略过渡口形的情况下,通过研究得到了藏语特有的复辅音的外唇宽度平均值和开口度(mm)的平均值如表5所示。
表5
③对于藏语特有的韵母。当单韵母发音时,舌位唇形在整个发音过程中不会变化,因此可视为一个基本口型。然而复合口形韵母,在发音过程中舌位和唇形都会发生变化。然而本文在藏语发音常见口形的基础上,定义了10个韵母基本口型。藏语特有韵母的基本口型参见表6所示。
表6
步骤4,描述藏语口型:在步骤3中定义了藏语的口型,需要用一定的参数来描述他们。考虑到口型描述的通用性和灵活性,采用MPEG-4标准定义的FAP参数来描述。该参数表示了较为全面的脸部动作集合,包含了68个FAP参数,并分为10组,第一组包括2个高级FAP,其余9组包括66个低级FAP。在此我们选取了其中24个参数来描述藏语中的基本口型,具体参数如表7所示。
表7
本发明定义的口型是由24个特征点构成,其中,FAP3、FAP14分别定义了下颚在上下和前后方向上的移动量;FAP4,FAP5和FAP8-13定义了内唇8个点的上下方向的移动量;FAP6,FAP7和FAP53,FAP54分别定义了内外唇角在水平方向上的位移量;FAP51,FAP52以及FAP55-60分别定义了外唇边缘8个点的上下方向的移动量;FAP16和FAP17分别定义了下唇和上唇的突出度。表8给出FAP集与人脸各个器官的关系。
表8
步骤5,建立藏语口型库:在步骤4中完成了藏语口型的描述之后,需要确定所有藏语声韵母口型的具体参数值。具体方法:首先用照相机在藏语发音人的正面对嘴唇进行拍照,获取相应藏语口型的正面图像,然后对应口型指定的FDP特征点,计算每一个特征点由嘴唇不发音位置到这个发音口型的位移,即可以得到这个发音口型的24个FAP值,并建立藏语口型库。表9为藏语口型/a/的FAP参数值。以相同的方法得到其他藏语口型的FAP参数值。
表9
步骤6,建立三维人脸模型库:利用步骤5得到的藏语口型库和步骤2得到的三维人脸模型,生成藏语的三维人脸模型,并形成三维人脸模型库;
步骤7,定义人脸动画关键帧:为了使步骤7中得到的藏语口型更加自然,需要对藏语口型定义至少两个关键帧,具体方法是为了在每个人脸口型定义至少两个关键帧。对于简单的声韵母发音口型可以定义两个关键帧,如,/a/、/o/、/u/等藏语口型,对于复杂单声韵母口形及复合声韵母口形,通常定义三到五个关键帧,如,/ua/、/ain/等藏语口型。
步骤8,准备藏语语料库:准备藏语语料库的流程图如图6所示。藏语语料库包含藏语的语音文件和标注文件。语音文件是发音纯正的藏族人录制的藏语语音,标注文件是通过专业表音人手工标注的藏语声韵母的时间标注。具体方法如下:
首先收集近年来的藏文报纸,并对按需要对藏文报纸的文字内容进行筛选,形成文本库;然后让发音纯正的藏族人按要求阅读文本库中文本,同时利用已经设置好录音参数的录音设备对藏族人语音进行录制,并保存为wav格式;接着让专业的标音人标注藏语的声母和韵母的时间标注;最后整理语音文件和时间标注形成藏语语料库。
步骤9,训练声学模型并建立模型库:从步骤8中获取到的藏语语料库中提取语音参数,包括基频、谱参数和时长信息等,然后利用声学参数、单音素标注和上下文相关标注训练每个发音基元(声韵母)的HMM模型,并在决策树问题集的指导下,对HMM模型进行聚类,得到HMM模型库。具体步骤如下:
(1)提取语音特征参数。对音库中的语音数据进行分析,提取相应的语音参数,包括基频、谱参数和时长信息等。
(2)基频和频谱参数建模。具体方法:根据提取的语音参数,HMM的观测向量可分为谱和基频两个部分,其中谱参数部分是连续的,因此采用连续概率分布HMM进行建模,而基频部分是非连续的,因此采用多空间概率分布HMM(MSD-HMM)进行建模。同时,***使用高斯分布或者伽马分布建立状态时长模型来描述语音的时间结构。
(3)设计上下文属性集和用于决策树聚类的问题集。在HMM合成***中需要使用语言学和韵律学的特征描述语境。根据先验知识来选择一些对声学参数(谱、基频和时长)有一定影响的上下文属性并设计相应的问题集以用于上下文相关模型聚类。
(4)模型的训练。图7为声学模型的训练流程图。首先根据ML准则,使用EM算法训练声学参数向量序列的HMM模型。然后使用语境决策树分别对谱参数模型、基频参数模型和时长模型进行聚类,从而得到合成使用的预测模型。最后形成HMM模型库。
步骤10,提取藏语语音音位时长:从步骤9的声学参数中获取藏语语音时长信息,音位时长能够保证藏语口型和藏语语音实现匹配;
步骤11,输入藏语文本:输入可视语音转换***所需的藏语文本;
步骤12,文本分析:对步骤11中输入的藏语文本进行文本分析得到该文本的上下文相关标注信息和音位序列。在整个藏语语音合成***中,文本分析起着关键性的作用。文本分析的结果直接影响韵律预测的准确性和合成语音的自然度。图8为藏语文本分析的流程图。具体步骤如下:
(1)文本规范化。文本规范就是将非藏字字符串转换成藏字串以确定读音的过程。对输入文本进行分析,将文本中除中文字符以外的非标准词,如英文字符、数字字符以及符号字符转换成对应的藏字。文本规范的处理效果直接影响着文本拼音信息的正确性。一个非标准词在不同的上下文可能对应不同的标准发音,所以必须从特殊符号出发,提取有用的上下文信息,归纳出在特定环境下的不同处理策略。比如:臧文中“我的身高是175厘米”中的“175”应该规范为“一百七十五”,而“我的学号是20132012”中的“20132012”应该规范为“二零一三二零一二”。
本发明利用有限状态自动机方法,采用最长匹配策略,利用词典从真实文本中将最长串识别为非标准词;然后,采用最大熵算法的统计模型,选取适当的特征模板训练建模,同时,设定一定规则,对部分非标准词消岐;最后,再次通过遍历词典,产生非标准词的标准拼音。
(2)语法分析。语法分析是理解文本的基础,高质量的语法分析可以实现对文本的精确理解。语法分析主要结合词性标注、句法分析两部分的内容实现对语句的自动分词。语法分析以句子为研究对象,首先对输入文本进行句子划分。本文通过识别标点符号实现对文本中句子边界的确定。由于汉语中没有严格的词边界,字与字之间是连接在一起的,因此对输入文本进行自动分词是语法分析中一个重要环节。
本发明采用基于词的三元语法模型,结合最大匹配算法进行自动分词。假定一个单词出现的概率分布只与这个词前面的n-1个单词有关,与更早出现的无关,即
Wopt=argmaxp(w1)p(w2|w1)…p(wn|wn-1)
其中,w1w2…wn表示词串,Wopt表示最优词语序列。然后根据每个词与相邻词的结合概率,从各种可能的组合中找出概率最大的词串作为划分结果。
(3)韵律结构分析。准确的韵律特征是合成高质量语音的保证,获取准确的韵律结构是获得准确韵律特征的保证。藏语的韵律层级分别是韵律词、韵律短语和语调短语。一般来说,语调短语的边界容易判断,基本上可以认为标点符号(逗号,句号,问号,感叹号等断句标点符号)就是语调短语的边界。对于韵律词边界和韵律短语边界,本文基于邻接度特征(AdjacentDegree,AD)描述语法结构和韵律结构的关系,利用基于转换的错误驱动学习算法(Transformation-basederrordrivenlearningalgoritm,TBL)实现韵律词和韵律短语的预测。
本发明选取前一语法词、当前语法词和后一语法词的词长、词性,以及均匀分布模型产生的韵律词预分类信息作为韵律边界预测的输入特征。定义300多条韵律规则模板,利用贪婪搜索算法对样本的输入特征及样本上下文的输入特征进行搜索,将搜索到的实例特征填入相应的模板规则中。遍历完模板中的所有模版规则后,就得到了该样本的实例化规则。针对文本中的每一个样本重复以上的搜索过程后,就得到所有样本的完整实例化规则集,利用TBL算法实现对未标注文本韵律边界的预测。
通过以上3步之后,得到了藏语的音位序列和上下文相关标注。
步骤13,合成藏语语音:图11为藏语语音合成的流程图。首先根据步骤12中获得的上下文相关标注信息,利用决策树从步骤8中的HMM模型库中挑选出发音基元的HMM模型,并拼接到一起形成语句HMM模型,然后利用参数生成算法生成声学参数,最后利用STRAIGHT算法合成出藏语语音。具体步骤如下:
(1)首先使用文本分析工具将输入的藏语文本转换成包含语境描述信息的发音标注序列,并使用训练过程中得到的决策树预测出每个发音的语境相关HMM模型,并连接成一个语句的HMM模型;
(2)然后使用语音参数生成算法从语句HMM中生成频谱、时长和基频的参数序列;
(3)最后利用STRAIGHT合成器,合成出藏语语音。
步骤14,构建三维人脸动画和语音同步播放***:利用步骤12中获得的音位序列转换成FAP参数值,然后由步骤10中获得的音位时长、步骤6中的三维人脸模型库和该FAP参数值合成三维人脸动画,同时由步骤13合成与人脸动画同步的藏语语音。具体步骤如下:
(1)利用步骤12的文本分析后得到的音位序列,对照步骤5中获得的FAP参数值,得到音位序列对应的FAP参数值。
(2)利用步骤13中生成的语音声学参数,提取出时长参数作为三维人脸动画合成过程中的音位时长信息。
(3)利用(1)中生成的FAP参数值和音位时长信息驱动步骤6得到的人脸模型库,从而合成三维人脸动画。
通过以上3步之后,得到了三维人脸动画,同时结合步骤13中合成的藏语语音就可以实现三维人脸动画和藏语语音同步播放。
以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明范围所作的均等变化与改进等,均应仍归属于本专利涵盖范围之内。

Claims (4)

1.藏语TTVS***的实现方法,其特征在于包括下列步骤:
步骤1,获取人脸定义参数(FDP);
步骤2,建立三维人脸模型;
步骤3,定义藏语口型;
步骤4,描述藏语口型;
步骤5,建立藏语口型库;
步骤6,建立三维人脸模型库;
步骤7,定义人脸动画关键帧;
步骤8,准备藏语语料库;
步骤9,训练声学模型并建立模型库;
步骤10,提取藏语语音音位时长;
步骤11,输入藏语文本;
步骤12,文本分析;
步骤13,合成藏语语音;
步骤14,构建三维人脸动画和语音同步播放***。
2.如权利要求1所述,藏语TTVS***的实现方法,其特征在于:
所述步骤1,获取人脸定义参数(FDP):该参数是用于定义人脸的纹理特征以及人脸的几何信息;根据MPEG-4标准定义了84个FDP特征点,分为11组,它描述关于眼、鼻、眉、齿、舌、口等人脸重要特征部位的形状及位置;
所述步骤2,建立三维人脸模型:利用3DMax搭建三维人脸的初始模型,然后通过LOD简化技术去除多余的点、边、面,以简化该初始模型的网格数量,然后得到一个包含1137个顶点和个三角形的人脸模型,并参照步骤1中的FDP参数来定义三维人脸模型的脸、眼睛、鼻子、嘴、牙齿、舌、喉咙、头发的FDP参考值后,并自动生成相应的纹理映射,最后对三维人脸模型进行图像的特征线变形得到具有真实感的三维人脸模型;
所述步骤3,定义藏语口型:在步骤2中仅仅是建立了一个静态的通用三维人脸模型,还需要在该模型上赋予相应的藏语口型;根据藏语语言的现有研究成果,藏语和汉语同属于汉藏语系,在发音上有很大的相似性;因此,在定义藏语口型时需要比较汉语和藏语的声韵母的特点,在定义藏语口型时分为与汉语声韵母相同的藏语和与汉语声韵母不同的藏语,声韵母相同的利用国际音标的发音口型来定义,声韵母不同的则需要进行自定义藏语口型;
所述步骤4,描述藏语口型:在步骤3中定义了藏语的口型,需要用一定的参数来描述他们;考虑到口型描述的通用性和灵活性,采用MPEG-4标准定义的FAP参数来描述;该参数表示了较为全面的脸部动作集合,包含了68个FAP参数,并分为10组,第一组包括2个高级FAP,其余9组包括66个低级FAP;
所述步骤5,建立藏语口型库:在步骤4中完成了藏语口型的描述之后,需要确定所有藏语声韵母口型的具体参数值;具体方法:首先用照相机在藏语发音人的正面对嘴唇进行拍照,获取相应藏语口型的正面图像,然后对应口型指定的FDP特征点,计算每一个特征点由嘴唇不发音位置到这个发音口型的位移,即可以得到这个发音口型的24个FAP值,并建立藏语口型库;
所述步骤6,建立三维人脸模型库:结合步骤5得到藏语口型和步骤2得到的三维人脸模型,建立三维人脸模型库;
所述步骤7,定义人脸动画关键帧:为了使步骤7中得到的藏语口型更加自然,需要对藏语口型定义至少两个关键帧。
3.如权利要求1所述,藏语TTVS***的实现方法,其特征在于:
所述步骤8,准备藏语语料库:藏语语料库包含藏语的语音文件和标注文件;语音文件是发音纯正的藏族人录制的藏语语音,标注文件是通过专业表音人手工标注的藏语声韵母的时间标注;
所述步骤9,训练声学模型并建立模型库:从步骤8中获取到的藏语语料库中提取语音参数,包括基频、谱参数和时长信息等,然后利用声学参数、单音素标注和上下文相关标注训练每个发音基元(声韵母)的HMM模型,并在决策树问题集的指导下,对HMM模型进行聚类,得到HMM模型库;
所述步骤10,提取藏语语音音位时长:从步骤9的声学参数中获取藏语语音时长信息,音位时长能够保证藏语口型和藏语语音实现匹配;
所述步骤11,输入藏语文本:输入可视语音转换***所需的藏语文本;
所述步骤12,文本分析:对步骤11中输入的藏语文本进行文本分析得到该文本的上下文相关标注信息和音位序列;
所述步骤13,合成藏语语音:首先根据步骤12中获得的上下文相关标注信息,利用决策树从步骤8中的HMM模型库中挑选出发音基元的HMM模型,并拼接到一起形成语句HMM模型,然后利用参数生成算法生成声学参数,最后利用STRAIGHT算法合成出藏语语音;
所述步骤14,构建三维人脸动画和语音同步播放***:利用步骤12中获得的音位序列转换成FAP参数值,然后由步骤10中获得的音位时长、步骤6中的三维人脸模型库和该FAP参数值合成三维人脸动画,同时由步骤13合成与人脸动画同步的藏语语音。
4.如权利要求1所述,藏语TTVS***的实现方法,其特征在于:所述的步骤1到步骤7与所述步骤8到步骤13同时进行。
CN201510649149.7A 2015-10-09 2015-10-09 藏语ttvs***的实现方法 Pending CN105390133A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510649149.7A CN105390133A (zh) 2015-10-09 2015-10-09 藏语ttvs***的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510649149.7A CN105390133A (zh) 2015-10-09 2015-10-09 藏语ttvs***的实现方法

Publications (1)

Publication Number Publication Date
CN105390133A true CN105390133A (zh) 2016-03-09

Family

ID=55422353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510649149.7A Pending CN105390133A (zh) 2015-10-09 2015-10-09 藏语ttvs***的实现方法

Country Status (1)

Country Link
CN (1) CN105390133A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105931635A (zh) * 2016-03-31 2016-09-07 北京奇艺世纪科技有限公司 一种音频分割方法及装置
CN106057196A (zh) * 2016-07-08 2016-10-26 成都之达科技有限公司 车载语音数据解析识别方法
CN106128450A (zh) * 2016-08-31 2016-11-16 西北师范大学 一种汉藏双语跨语言语音转换的方法及其***
CN106504308A (zh) * 2016-10-27 2017-03-15 天津大学 基于mpeg‑4标准的人脸三维动画生成方法
CN106971703A (zh) * 2017-03-17 2017-07-21 西北师范大学 一种基于hmm的歌曲合成方法及装置
CN108038461A (zh) * 2017-12-22 2018-05-15 河南工学院 交互式外语口型和舌型同时矫正的***和方法
CN108447474A (zh) * 2018-03-12 2018-08-24 北京灵伴未来科技有限公司 一种虚拟人物语音与口型同步的建模与控制方法
CN109712627A (zh) * 2019-03-07 2019-05-03 深圳欧博思智能科技有限公司 一种使用语音触发虚拟人物表情及口型动画的语音***
CN110956691A (zh) * 2019-11-21 2020-04-03 Oppo广东移动通信有限公司 一种三维人脸重建方法、装置、设备及存储介质
CN112151008A (zh) * 2020-09-22 2020-12-29 中用科技有限公司 一种语音合成方法、***及计算机设备
CN114581813A (zh) * 2022-01-12 2022-06-03 北京云辰信通科技有限公司 视觉语言识别方法以及相关设备
CN116701709A (zh) * 2023-07-04 2023-09-05 青海民族大学 建立单辅音生理语音数据库的方法、***及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006021273A (ja) * 2004-07-08 2006-01-26 Advanced Telecommunication Research Institute International テキストビジュアル音声(ttvs)合成方法及びコンピュータで実行可能なプログラム
CN101930619A (zh) * 2010-08-25 2010-12-29 中国科学院自动化研究所 基于协同过滤算法的实时语音驱动人脸唇部同步动画***
CN102609969A (zh) * 2012-02-17 2012-07-25 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
CN102820030A (zh) * 2012-07-27 2012-12-12 中国科学院自动化研究所 发音器官可视语音合成***
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN104217713A (zh) * 2014-07-15 2014-12-17 西北师范大学 汉藏双语语音合成方法及装置
CN104538025A (zh) * 2014-12-23 2015-04-22 西北师范大学 手势到汉藏双语语音转换方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006021273A (ja) * 2004-07-08 2006-01-26 Advanced Telecommunication Research Institute International テキストビジュアル音声(ttvs)合成方法及びコンピュータで実行可能なプログラム
CN101930619A (zh) * 2010-08-25 2010-12-29 中国科学院自动化研究所 基于协同过滤算法的实时语音驱动人脸唇部同步动画***
CN102609969A (zh) * 2012-02-17 2012-07-25 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
CN102820030A (zh) * 2012-07-27 2012-12-12 中国科学院自动化研究所 发音器官可视语音合成***
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN104217713A (zh) * 2014-07-15 2014-12-17 西北师范大学 汉藏双语语音合成方法及装置
CN104538025A (zh) * 2014-12-23 2015-04-22 西北师范大学 手势到汉藏双语语音转换方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RONG CHUANZHEN ETC: "Research and Implementation on Text-To-Visual Speech Synthesis System(TTVS)", 《2010 INTERNATIONAL CONFERENCE ON MEASURING TECHNOLOGY AND MECHATRONICS AUTOMATION》 *
荣传振: "汉语可视文语转换***研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105931635A (zh) * 2016-03-31 2016-09-07 北京奇艺世纪科技有限公司 一种音频分割方法及装置
CN105931635B (zh) * 2016-03-31 2019-09-17 北京奇艺世纪科技有限公司 一种音频分割方法及装置
CN106057196B (zh) * 2016-07-08 2019-06-11 成都之达科技有限公司 车载语音数据解析识别方法
CN106057196A (zh) * 2016-07-08 2016-10-26 成都之达科技有限公司 车载语音数据解析识别方法
CN106128450A (zh) * 2016-08-31 2016-11-16 西北师范大学 一种汉藏双语跨语言语音转换的方法及其***
CN106504308A (zh) * 2016-10-27 2017-03-15 天津大学 基于mpeg‑4标准的人脸三维动画生成方法
CN106971703A (zh) * 2017-03-17 2017-07-21 西北师范大学 一种基于hmm的歌曲合成方法及装置
CN108038461A (zh) * 2017-12-22 2018-05-15 河南工学院 交互式外语口型和舌型同时矫正的***和方法
CN108038461B (zh) * 2017-12-22 2020-05-08 河南工学院 交互式外语口型和舌型同时矫正的***和方法
CN108447474A (zh) * 2018-03-12 2018-08-24 北京灵伴未来科技有限公司 一种虚拟人物语音与口型同步的建模与控制方法
CN109712627A (zh) * 2019-03-07 2019-05-03 深圳欧博思智能科技有限公司 一种使用语音触发虚拟人物表情及口型动画的语音***
CN110956691A (zh) * 2019-11-21 2020-04-03 Oppo广东移动通信有限公司 一种三维人脸重建方法、装置、设备及存储介质
CN112151008A (zh) * 2020-09-22 2020-12-29 中用科技有限公司 一种语音合成方法、***及计算机设备
CN112151008B (zh) * 2020-09-22 2022-07-15 中用科技有限公司 一种语音合成方法、***及计算机设备
CN114581813A (zh) * 2022-01-12 2022-06-03 北京云辰信通科技有限公司 视觉语言识别方法以及相关设备
CN116701709A (zh) * 2023-07-04 2023-09-05 青海民族大学 建立单辅音生理语音数据库的方法、***及装置
CN116701709B (zh) * 2023-07-04 2024-04-30 青海民族大学 建立单辅音生理语音数据库的方法、***及装置

Similar Documents

Publication Publication Date Title
CN105390133A (zh) 藏语ttvs***的实现方法
US9361722B2 (en) Synthetic audiovisual storyteller
Dreuw et al. Spoken language processing techniques for sign language recognition and translation
Malcangi Text-driven avatars based on artificial neural networks and fuzzy logic
CN103632663B (zh) 一种基于hmm的蒙古语语音合成前端处理的方法
Naert et al. A survey on the animation of signing avatars: From sign representation to utterance synthesis
KR20190114150A (ko) 비디오 번역 및 립싱크 방법 및 시스템
KR20150076128A (ko) 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법
CN104538025A (zh) 手势到汉藏双语语音转换方法及装置
Setyati et al. Phoneme-Viseme Mapping for Indonesian Language Based on Blend Shape Animation.
KR20080018408A (ko) 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을기록한 컴퓨터에서 읽을 수 있는 기록매체
Wang et al. HMM trajectory-guided sample selection for photo-realistic talking head
KR100897149B1 (ko) 텍스트 분석 기반의 입 모양 동기화 장치 및 방법
Karpov et al. Multimodal synthesizer for Russian and Czech sign languages and audio-visual speech
Haryanto et al. A Realistic Visual Speech Synthesis for Indonesian Using a Combination of Morphing Viseme and Syllable Concatenation Approach to Support Pronunciation Learning.
CN106328163B (zh) 维吾尔语音位-视位参数的转换方法和***
Taylor et al. A mouth full of words: Visually consistent acoustic redubbing
CN116631434A (zh) 基于转换***的视频语音同步方法、装置、电子设备
Maarif et al. Survey on language processing algorithm for sign language synthesizer
Weerathunga et al. Lip synchronization modeling for sinhala speech
Yu et al. A realistic 3D articulatory animation system for emotional visual pronunciation
CN112766101A (zh) 一种中文唇语识别建模单元集的构建方法
KR20210131698A (ko) 발음 기관 영상을 이용한 외국어 발음 교육 방법 및 장치
Lacerda et al. Enhancing Portuguese Sign Language Animation with Dynamic Timing and Mouthing
Wei et al. Speech animation based on Chinese mandarin triphone model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160309

RJ01 Rejection of invention patent application after publication