CN110853614A - 虚拟对象口型驱动方法、装置及终端设备 - Google Patents
虚拟对象口型驱动方法、装置及终端设备 Download PDFInfo
- Publication number
- CN110853614A CN110853614A CN201810878597.8A CN201810878597A CN110853614A CN 110853614 A CN110853614 A CN 110853614A CN 201810878597 A CN201810878597 A CN 201810878597A CN 110853614 A CN110853614 A CN 110853614A
- Authority
- CN
- China
- Prior art keywords
- virtual object
- data stream
- pinyin
- animation
- mouth shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013507 mapping Methods 0.000 claims abstract description 52
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000004590 computer program Methods 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 230000003993 interaction Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 208000027697 autoimmune lymphoproliferative syndrome due to CTLA4 haploinsuffiency Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明实施例公开了一种虚拟对象口型驱动方法、装置、终端设备及计算机可读存储介质,其中,方法包括:获取将目标文本转化得到的TTS数据流;根据预设的文本与拼音间的映射关系以及预设的拼音与音素间的映射关系,将目标文本转化为音素序列;根据音素序列和TTS数据流,构建虚拟对象的动画播放序列;分析TTS数据流,获得单一时刻的能量值;在根据动画播放序列播放虚拟对象的动画和根据TTS数据流播放语音的过程中,实时将能量值设置至虚拟对象的口型动画,以控制虚拟对象的口型开合度。本发明实施例可以显著提高虚拟对象对话时的真实度和细腻度,提高虚拟对象动画和TTS数据流的时间轴的同步性。
Description
技术领域
本发明属于人机交互技术领域,尤其涉及一种虚拟对象口型驱动方法、装置、终端设备及计算机可读存储介质。
背景技术
随着人工智能时代的来临,基于人工智能的人机交互方式的应用也越来越普遍。而可视化语音技术就是一种新一代人机交互方式。
可视化语音技术指的是基于深度学习的语音识别、语音合成以及虚拟对象等技术的结合出来的一种交互方式,其通过自然语言识别、理解以及合成,将普通用户与计算机紧密的结合在一起。比较常见的是通过3D虚拟人来实现人机交互,3D虚拟人可以模拟真人的动作、神态,且可以与真人进行语音交流。
目前,利用可视化语音技术进行人机交互时,虚拟对象与真人对话时其口型的真实度、细腻度都较低,与真人说话的口型有较大出入,影响用户体验。此外,现有的可视化语音技术中,播放TTS数据流和播放动画的两个时间轴的同步性较差,且计算量较大。
发明内容
有鉴于此,本发明实施例提供了一种虚拟对象口型驱动方法、装置、终端设备及计算机可读存储介质,以提高虚拟对象对话时的口型真实度和细腻度,以及提高TTS数据流和虚拟对象动画的时间轴的同步性,从而提高用户体验。
本发明实施例的第一方面提供了一种虚拟对象口型驱动方法,包括:
获取将目标文本转化得到的TTS数据流;
根据预设的文本与拼音间的映射关系以及预设的拼音与音素间的映射关系,将目标文本转化为音素序列;
根据所述音素序列和所述TTS数据流,构建虚拟对象的动画播放序列;
分析所述TTS数据流,获得单一时刻的能量值;
在根据所述动画播放序列播放所述虚拟对象的动画和根据所述TTS数据流播放语音的过程中,实时将所述能量值设置至所述虚拟对象的口型动画,以控制所述虚拟对象的口型开合度。
可选地,所述根据预设的文本与拼音间的映射关系以及预设的拼音与音素间的映射关系,将目标文本转化为音素序列,包括:
通过预设的文本与拼音间映射关系,将所述目标文本转换为相应的拼音;
通过预设的拼音与音素间映射关系,将所述拼音转换为相应的音素;
根据所述音素,构建所述目标文本的音素序列。
可选地,分析所述TTS数据流,获得单一时刻的能量值,包括:
对所述TTS数据流进行频谱采样,得到单一时刻的所述能量值。
可选地,所述根据所述音素序列和所述TTS数据流,构建虚拟对象的口型动画播放序列,包括:
分析所述TTS数据流,获得所述TTS数据流的时长;
根据所述音素序列和所述TTS数据流的时长,计算所述虚拟对象的每个动画的播放时长;
根据所述播放时长,构建所述虚拟对象的所述口型动画播放序列。
可选地,在所述获取TTS数据流之前,还包括:
通过每个汉字文本与拼音间的关系,构建所述述文本与拼音间映射关系;
根据音素表,构建所述拼音与音素间映射关系。
本发明实施例的第二方面提供了一种虚拟对象口型驱动装置,包括:
获取模块,用于获取将目标文本转化得到的TTS数据流;
转化模块,用于根据预设的文本与拼音间的映射关系以及预设的拼音与音素间的映射关系,将目标文本转化为音素序列;
构建模块,用于根据所述音素序列和所述TTS数据流,构建虚拟对象的动画播放序列;
分析模块,用于分析所述TTS数据流,获得单一时刻的能量值;
开合度控制模块,用于在根据所述动画播放序列播放所述虚拟对象的动画和根据所述TTS数据流播放语音的过程中,实时将所述能量值设置至所述虚拟对象的口型动画,以控制所述虚拟对象的口型开合度。
可选地,所述转化模块包括:
第一转换单元,用于通过预设的文本与拼音间映射关系,将所述目标文本转换为相应的拼音;
第二转换单元,用于通过预设的拼音与音素间映射关系,将所述拼音转换为相应的音素;
构建单元,用于根据所述音素,构建所述目标文本的音素序列。
可选地,所述分析模块包括:
频谱采样单元,用于对所述TTS数据流进行频谱采样,得到单一时刻的所述能量值。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面任一项所述方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面任一项所述方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:
本发明实施例通过在播放语音和动画过程中,将TTS数据流的单一时刻的能量值实时设置至虚拟对象的口型动画上,控制虚拟对象的口型开合度,以实时模拟真人的口型开合,显著提高虚拟对象对话时的真实度和细腻度;通过将目标文本转化为音素序列,根据音素序列,构建虚拟对象的动画播放序列,提高了虚拟对象动画和TTS数据流的时间轴的同步性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种虚拟对象口型驱动方法的流程示意图;
图2为本发明实施例提供的3D虚拟人的口型动画示意图;
图3为本发明实施例提供的一种虚拟对象口型驱动方法的另一种流程示意图;
图4为本发明实施例提供的TTS数据流时长示意图;
图5为本发明实施例提供的TTS数据流能量示意图;
图6为本发明实施例提供的一种虚拟对象口型驱动装置的结构示意图;
图7为本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参见图1,为本发明实施例提供的一种虚拟对象口型驱动方法的流程示意图,该方法可以包括以下步骤:
步骤S101、获取将目标文本转化得到的TTS数据流;
可以理解,上述TTS数据流是通过从文本到语音(Text To Speech,TTS)技术,将目标文本转化为TTS数据流得到的。该目标文本可以指的是包括虚拟对象人机交互时的对话信息,例如,假如需要虚拟对象人机交互时说“欢迎大家”,则该目标文本中则包括“欢迎大家”的汉字文本。
步骤S102、根据预设的文本与拼音间的映射关系以及预设的拼音与音素间的映射关系,将目标文本转化为音素序列。
需要说明,上述文本与拼音间映射关系是指预先建立的汉字文本与拼音间的一一对应关系。每一个汉字都有其对应的拼音,该文本与拼音间映射关系则是基于汉字与拼音间的对应关系建立的。例如,“欢迎大家”对应的拼音为“huan ying da jia”。
而每个拼音均是基于最基本的音素构成的,这些基本的音素可以包括声母、韵母、复韵母、特殊元音韵母、前鼻韵母、后鼻韵母等。该拼音与音素间映射关系则是基于每个拼音的基本音素建立的。例如,“huan”对应为“h-u-an”,“jia”对应为“j-ia”。
根据文本与拼音间映射关系、拼音与音素间映射关系依次可以将目标文本中汉字转化相应的音素序列。例如,目标文本中包括“欢迎大家”,得到的各个汉字对应的音素分别为“huan=>>huan:h-u-an”,“ying=>>ying:ing”,“da=>>da:d-a”,“jia=>>jia:j-ia”,然后再将各个汉字的音素按照先后顺序进行连接,即可得出目标文本的音素序列。
步骤S103、根据音素序列和TTS数据流,构建虚拟对象的动画播放序列。
需要说明,上述虚拟对象可以指的是用于人机交互的具备表现对象,其可以表现为动物、植物、人或者其它。该虚拟对象可以有一定的动作、神态,可以与人进行语音交流。该虚拟对象可以是3D虚拟对象,也可以是2D虚拟对象。
一般地,该虚拟对象可以表现为3D虚拟人,可以表现为3D虚拟动物,例如,3D虚拟猫,当然,其也可以表现为其它形式,在此不作限定。
上述动画播放序列表征的是各个虚拟对象动画的播放顺序和时长,即,该动画播放序列可以包括该虚拟对象的动画的先后顺序及播放时长等相关信息,而虚拟对象的动画可以是预先设置好的,其包括虚拟对象的动作动画、口型动画等相关的动画。
在将目标文本转化为音素序列和TTS数据流之后,则可以根据音素序列和TTS数据流每个时刻的能量等因素,设置动画播放序列的时长、顺序等,得到动画播放序列。根据因素序列、TTS数据流,构建动画播放序列,可以解决现有的播放TTS和播放动画时两个时间轴的同步性较差的问题,提高两个时间轴的同步性。
步骤S104、分析TTS数据流,获得单一时刻的能量值。
具体地,可以通过分析TTS数据流的频谱,以得到单一时刻的能量值。
步骤S105、在根据动画播放序列播放虚拟对象的动画和根据TTS数据流播放语音的过程中,实时将能量值设置至虚拟对象的口型动画,以控制虚拟对象的口型开合度。
具体地,基于动画播放序列播放动画,且根据TTS数据流播放语音时,实时将能量值甚至虚拟对象的口型动画,从而根据能量值的大小来控制虚拟对象的口型开合度。
可以理解,可以将该能量值作为口型动画的参数,实时地将根据该能量值来控制口型动画,以实时控制口型开合度。
为了更好地介绍本口型开合度和动画效果,下面以3D虚拟人的口型动画进行举例说明。
参见图2示出的3D虚拟人的口型动画示意图,图中示出了三种不同的口型动画,可以看出,3D虚拟人的口型动画可以很好地模拟真人的发音嘴型,使得虚拟对象进行人机对话时更加逼真、细腻,从而提高用户体验。
此外,本发明实施例的技术方案的整个过程的计算量较少,且可以实时高效地计算,特别适用于计算资源较少的嵌入式平台,例如,智能电视等。
本实施例中,通过在播放语音和动画过程中,将TTS数据流的单一时刻的能量值实时设置至虚拟对象的口型动画上,控制虚拟对象的口型开合度,以实时模拟真人的口型开合,显著提高虚拟对象对话时的真实度和细腻度;通过将目标文本转化为音素序列,根据音素序列,构建虚拟对象的动画播放序列,提高了虚拟对象动画和TTS数据流的时间轴的同步性。
实施例二
请参见图3,为本发明实施例提供的虚拟对象口型驱动方法的另一种流程示意图,该方法可以包括以下步骤:
步骤S301、通过每个汉字文本与拼音间的关系,构建述文本与拼音间映射关系;根据音素表,构建拼音与音素间映射关系。
具体地,根据汉字、拼音以及音素间的关系,构建出拼音与音素间的映射表。
该映射表的一部分可以例如为下表1所示。
表1
a:a | bai:b-ai | beng:b-eng | bo:b-o |
ai:ai | ban:b-an | bi:b-i | bu:b-u |
an:an | bang:b-ang | bian:b-ia-an | ca:c-a |
ang:ang | bao:b-ao | bie:b-i-e | cha-:ch-a |
ao:ao | bei:b-ei | bin:b-i-n | chai:ch-ai |
ba:b-a | ben:b-en | bing:b-ing | chang:ch-ang |
表1只是示出了映射表的其中一小部分,将每个汉字对应的拼音均转换为音素序列,得到最终的映射表。
可以理解,映射表的生成可以是由人完成后输入至终端设备存储的,也可以是具备数据处理能力的终端设备根据所接收的汉字自动生成的。生成映射表之后,后续则可以根据目标文本的拼音,从该表中匹配到相应的音素序列。
需要指出的是,该步骤可以是预先完成的,也可以不是预先完成的。
步骤S302、获取TTS数据流。
本步骤与上述步骤101相同,在此不再赘述。
步骤S303、通过预设的文本与拼音间的映射关系,将目标文本转换为相应的拼音;通过预设的拼音与音素间的映射关系,将拼音转换为相应的音素;根据音素,构建目标文本的音素序列。
具体地,将目标文本转换为拼音,再根据目标文本的拼音和映射表,得到目标文本的音素,然后,再根据播放的先后顺序等,构建出音素序列。本步骤的具体过程与上文的步骤102类似,具体可以参见上文相应内容,在此不再赘述。
步骤S304、分析TTS数据流,获得TTS数据流的时长;根据音素序列和所述TTS数据流的时长,计算虚拟对象的每个动画的播放时长;根据播放时长,构建虚拟对象的口型动画播放序列。
步骤S305、对TTS数据流进行频谱采样,得到单一时刻的能量值。
具体地,获取TTS数据流的整个时长,然后,再根据TTS的整个时长和每个拼音来计算每个动画的播放时长。并对TTS数据流进行频谱采样,得出TTS数据流的单一时刻的能量值。
参见图4示出的TTS数据流时长示意图和图5示出的TTS数据流能量示意图。图4中的0.0、0.5、1.0、1.5、2.0、2.5指的是TTS的时间序列,通过分析TTS数据流,可以得到TTS数据流的时长,然后再基于TTS数据流的时长,计算每个拼音对应的每个动画的播放时长。
如图5所示,TTS数据流的各个时刻的能量值时不同,图5的上面一副图是正常的TTS数据流示意图,下面是频谱采样后的TTS数据流的能量示意图。
步骤S306、在根据动画播放序列播放虚拟对象的动画和根据TTS数据流播放语音的过程中,实时将能量值设置至虚拟对象的口型动画,以控制虚拟对象的口型开合度。
本步骤与上文步骤S105类似,具体请参见上文相应内容,在此不再赘述。
通过本实施例的技术方案,可以实时模拟真人的口型开合,显著提高虚拟对象对话时的真实度和细腻度,提高虚拟对象动画和TTS数据流的时间轴的同步性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例三
下面将对本发明实施例提供的虚拟对象口型驱动装置进行介绍,虚拟对象口型驱动装置与上文的虚拟对象口型驱动方法相互对应。
请参见图6,为本发明实施例提供的一种虚拟对象口型驱动装置的结构示意图,该装置可以集成于终端设备,该终端设备可以具体为智能电视、手机等嵌入式平台,或者其它终端,该虚拟对象口型驱动装置可以包括:
获取模块61,用于获取将目标文本转化得到的TTS数据流;
转化模块62,用于根据预设的文本与拼音间的映射关系以及预设的拼音与音素间的映射关系,将目标文本转化为音素序列;
构建模块63,用于根据音素序列和TTS数据流,构建虚拟对象的动画播放序列;
分析模块64,用于分析TTS数据流,获得单一时刻的能量值;
开合度控制模块65,用于在根据动画播放序列播放虚拟对象的动画的过程中,实时将能量值设置至虚拟对象的口型动画,以控制虚拟对象的口型开合度。
在本发明的一些实施例中,上述转化模块可以包括:
第一转换单元,用于通过预设的文本与拼音间的映射关系,将目标文本转换为相应的拼音;
第二转换单元,用于通过预设的拼音与音素间的映射关系,将拼音转换为相应的音素;
构建单元,用于根据音素,构建目标文本的音素序列。
在本发明的一些实施例中,上述分析模块可以包括:
频谱采样单元,用于对TTS数据流进行频谱采样,得到单一时刻的能量值。
在本发明的一些实施例中,上述构建模块可以包括:
第一时长计算单元,分析TTS数据流,获得TTS数据流的时长;
第二时长计算单元,用于根据音素序列和TTS数据流的时长,计算虚拟对象的每个动画的播放时长;
构建单元,用于根据播放时长,构建虚拟对象的所述口型动画播放序列。
在本发明的一些实施例中,上述虚拟对象口型驱动装置还可以包括:
第一构建模块,用于通过每个汉字文本与拼音间的关系,构建述文本与拼音间映射关系;
第二构建模块,用于根据音素表,构建拼音与音素间映射关系。
需要指出的是,本实施例与上述各个实施例的相同或相似之处,可相互参见,在此不再赘述。
通过本实施例的技术方案,可以实时模拟真人的口型开合,显著提高虚拟对象对话时的真实度和细腻度,提高虚拟对象动画和TTS数据流的时间轴的同步性。
实施例四
图7是本发明一实施例提供的终端设备的示意图。如图7所示,该实施例的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如虚拟对象口型驱动程序。所述处理器70执行所述计算机程序72时实现上述各个虚拟对象口型驱动方法实施例中的步骤,例如图1所示的步骤S101至S105。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图6所示模块61至65的功能。
示例性的,所述计算机程序72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个模块或单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如,所述计算机程序72可以被分割成获取模块、转化模块、构建模块、分析模块以及开合度控制模块,各模块具体功能如下:
获取模块,用于获取将目标文本转化得到的TTS数据流;
转化模块,用于根据预设的文本与拼音间的映射关系以及预设的拼音与音素间的映射关系,将目标文本转化为音素序列;
构建模块,用于根据音素序列和TTS数据流,构建虚拟对象的动画播放序列;
分析模块,用于分析TTS数据流,获得单一时刻的能量值;
开合度控制模块,用于在根据动画播放序列播放虚拟对象的动画的过程中,实时将能量值设置至虚拟对象的口型动画,以控制虚拟对象的口型开合度。
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备,也可以具体为智能电视、手机等嵌入式平台。一般来说,本发明实施例提供的技术方案由于计算量较少,对计算资源的要求不太高,特别适用于计算资源有限的嵌入式平台。所述终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置、终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置、终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块、单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种虚拟对象口型驱动方法,其特征在于,包括:
获取将目标文本转化得到的TTS数据流;
根据预设的文本与拼音间的映射关系以及预设的拼音与音素间的映射关系,将目标文本转化为音素序列;
根据所述音素序列和所述TTS数据流,构建虚拟对象的动画播放序列;
分析所述TTS数据流,获得单一时刻的能量值;
在根据所述动画播放序列播放所述虚拟对象的动画和根据所述TTS数据流播放语音的过程中,实时将所述能量值设置至所述虚拟对象的口型动画,以控制所述虚拟对象的口型开合度。
2.如权利要求1所述的虚拟对象口型驱动方法,其特征在于,所述根据预设的文本与拼音间的映射关系以及预设的拼音与音素间的映射关系,将目标文本转化为音素序列,包括:
通过预设的文本与拼音间的映射关系,将所述目标文本转换为相应的拼音;
通过预设的拼音与音素间的映射关系,将所述拼音转换为相应的音素;
根据所述音素,构建所述目标文本的音素序列。
3.如权利要求1所述的虚拟对象口型驱动方法,其特征在于,分析所述TTS数据流,获得单一时刻的能量值,包括:
对所述TTS数据流进行频谱采样,得到单一时刻的所述能量值。
4.如权利要求1所述的虚拟对象口型驱动方法,其特征在于,所述根据所述音素序列和所述TTS数据流,构建虚拟对象的口型动画播放序列,包括:
分析所述TTS数据流,获得所述TTS数据流的时长;
根据所述音素序列和所述TTS数据流的时长,计算所述虚拟对象的每个动画的播放时长;
根据所述播放时长,构建所述虚拟对象的所述口型动画播放序列。
5.如权利要求1至4任一项所述的虚拟对象口型驱动方法,其特征在于,在所述获取TTS数据流之前,还包括:
通过每个汉字文本与拼音间的关系,构建所述述文本与拼音间映射关系;
根据音素表,构建所述拼音与音素间映射关系。
6.一种虚拟对象口型驱动装置,其特征在于,包括:
获取模块,用于获取将目标文本转化得到的TTS数据流;
转化模块,用于根据预设的文本与拼音间的映射关系以及预设的拼音与音素间的映射关系,将目标文本转化为音素序列;
构建模块,用于根据所述音素序列和所述TTS数据流,构建虚拟对象的动画播放序列;
分析模块,用于分析所述TTS数据流,获得单一时刻的能量值;
开合度控制模块,用于在根据所述动画播放序列播放所述虚拟对象的动画和根据所述TTS数据流播放语音的过程中,实时将所述能量值设置至所述虚拟对象的口型动画,以控制所述虚拟对象的口型开合度。
7.如权利要求6所述的虚拟对象口型驱动装置,其特征在于,所述转化模块包括:
第一转换单元,用于通过预设的文本与拼音间的映射关系,将所述目标文本转换为相应的拼音;
第二转换单元,用于通过预设的拼音与音素间的映射关系,将所述拼音转换为相应的音素;
构建单元,用于根据所述音素,构建所述目标文本的音素序列。
8.如权利要求6所述的虚拟对象口型驱动装置,其特征在于,所述分析模块包括:
频谱采样单元,用于对所述TTS数据流进行频谱采样,得到单一时刻的所述能量值。
9.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810878597.8A CN110853614A (zh) | 2018-08-03 | 2018-08-03 | 虚拟对象口型驱动方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810878597.8A CN110853614A (zh) | 2018-08-03 | 2018-08-03 | 虚拟对象口型驱动方法、装置及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110853614A true CN110853614A (zh) | 2020-02-28 |
Family
ID=69595580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810878597.8A Pending CN110853614A (zh) | 2018-08-03 | 2018-08-03 | 虚拟对象口型驱动方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110853614A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111739507A (zh) * | 2020-05-07 | 2020-10-02 | 广东康云科技有限公司 | 一种基于ai的语音合成方法、***、装置和存储介质 |
CN112420014A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 虚拟人脸构建方法、装置、计算机设备及计算机可读介质 |
CN112734889A (zh) * | 2021-02-19 | 2021-04-30 | 北京中科深智科技有限公司 | 一种2d角色的口型动画实时驱动方法和*** |
WO2021196647A1 (zh) * | 2020-03-31 | 2021-10-07 | 北京市商汤科技开发有限公司 | 交互对象的驱动方法、装置、设备以及存储介质 |
CN113539240A (zh) * | 2021-07-19 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 动画生成方法、装置、电子设备和存储介质 |
CN113744368A (zh) * | 2021-08-12 | 2021-12-03 | 北京百度网讯科技有限公司 | 动画合成方法、装置、电子设备及存储介质 |
CN114420088A (zh) * | 2022-01-20 | 2022-04-29 | 安徽淘云科技股份有限公司 | 一种展示方法及其相关设备 |
CN114972589A (zh) * | 2022-05-31 | 2022-08-30 | 北京百度网讯科技有限公司 | 虚拟数字形象的驱动方法及其装置 |
CN114996516A (zh) * | 2022-06-02 | 2022-09-02 | 上海积图科技有限公司 | 虚拟数字人动态嘴型的生成方法及相关设备 |
CN115662388A (zh) * | 2022-10-27 | 2023-01-31 | 维沃移动通信有限公司 | 虚拟形象面部驱动方法、装置、电子设备及介质 |
CN117095672A (zh) * | 2023-07-12 | 2023-11-21 | 支付宝(杭州)信息技术有限公司 | 一种数字人唇形生成方法及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
US6250928B1 (en) * | 1998-06-22 | 2001-06-26 | Massachusetts Institute Of Technology | Talking facial display method and apparatus |
JP2002108382A (ja) * | 2000-09-27 | 2002-04-10 | Sony Corp | リップシンクを行うアニメーション方法および装置 |
JP2008052628A (ja) * | 2006-08-28 | 2008-03-06 | Advanced Telecommunication Research Institute International | アニメーションデータ作成装置及びアニメーションデータ作成プログラム |
CN101364309A (zh) * | 2008-10-09 | 2009-02-11 | 中国科学院计算技术研究所 | 一种源虚拟角色上的口形动画生成方法 |
CN101826216A (zh) * | 2010-03-31 | 2010-09-08 | 中国科学院自动化研究所 | 一个角色汉语口型动画自动生成*** |
CN101923726A (zh) * | 2009-06-09 | 2010-12-22 | 华为技术有限公司 | 一种语音动画生成方法及*** |
CN101968893A (zh) * | 2009-07-28 | 2011-02-09 | 上海冰动信息技术有限公司 | 游戏音唇同步*** |
CN102609969A (zh) * | 2012-02-17 | 2012-07-25 | 上海交通大学 | 基于汉语文本驱动的人脸语音同步动画的处理方法 |
CN103796181A (zh) * | 2012-11-05 | 2014-05-14 | 华为技术有限公司 | 一种发送消息的播放方法、***及相关设备 |
CN104361620A (zh) * | 2014-11-27 | 2015-02-18 | 韩慧健 | 一种基于综合加权算法的口型动画合成方法 |
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN107516509A (zh) * | 2017-08-29 | 2017-12-26 | 苏州奇梦者网络科技有限公司 | 用于新闻播报语音合成的语音库构建方法及*** |
CN108090940A (zh) * | 2011-05-06 | 2018-05-29 | 西尔股份有限公司 | 基于文本的视频生成 |
-
2018
- 2018-08-03 CN CN201810878597.8A patent/CN110853614A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
US6250928B1 (en) * | 1998-06-22 | 2001-06-26 | Massachusetts Institute Of Technology | Talking facial display method and apparatus |
JP2002108382A (ja) * | 2000-09-27 | 2002-04-10 | Sony Corp | リップシンクを行うアニメーション方法および装置 |
JP2008052628A (ja) * | 2006-08-28 | 2008-03-06 | Advanced Telecommunication Research Institute International | アニメーションデータ作成装置及びアニメーションデータ作成プログラム |
CN101364309A (zh) * | 2008-10-09 | 2009-02-11 | 中国科学院计算技术研究所 | 一种源虚拟角色上的口形动画生成方法 |
CN101923726A (zh) * | 2009-06-09 | 2010-12-22 | 华为技术有限公司 | 一种语音动画生成方法及*** |
CN101968893A (zh) * | 2009-07-28 | 2011-02-09 | 上海冰动信息技术有限公司 | 游戏音唇同步*** |
CN101826216A (zh) * | 2010-03-31 | 2010-09-08 | 中国科学院自动化研究所 | 一个角色汉语口型动画自动生成*** |
CN108090940A (zh) * | 2011-05-06 | 2018-05-29 | 西尔股份有限公司 | 基于文本的视频生成 |
CN102609969A (zh) * | 2012-02-17 | 2012-07-25 | 上海交通大学 | 基于汉语文本驱动的人脸语音同步动画的处理方法 |
CN103796181A (zh) * | 2012-11-05 | 2014-05-14 | 华为技术有限公司 | 一种发送消息的播放方法、***及相关设备 |
CN104361620A (zh) * | 2014-11-27 | 2015-02-18 | 韩慧健 | 一种基于综合加权算法的口型动画合成方法 |
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN107516509A (zh) * | 2017-08-29 | 2017-12-26 | 苏州奇梦者网络科技有限公司 | 用于新闻播报语音合成的语音库构建方法及*** |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022531056A (ja) * | 2020-03-31 | 2022-07-06 | 北京市商▲湯▼科技▲開▼▲發▼有限公司 | インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体 |
WO2021196647A1 (zh) * | 2020-03-31 | 2021-10-07 | 北京市商汤科技开发有限公司 | 交互对象的驱动方法、装置、设备以及存储介质 |
CN111739507A (zh) * | 2020-05-07 | 2020-10-02 | 广东康云科技有限公司 | 一种基于ai的语音合成方法、***、装置和存储介质 |
CN112420014A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 虚拟人脸构建方法、装置、计算机设备及计算机可读介质 |
CN112734889A (zh) * | 2021-02-19 | 2021-04-30 | 北京中科深智科技有限公司 | 一种2d角色的口型动画实时驱动方法和*** |
CN113539240A (zh) * | 2021-07-19 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 动画生成方法、装置、电子设备和存储介质 |
CN113744368A (zh) * | 2021-08-12 | 2021-12-03 | 北京百度网讯科技有限公司 | 动画合成方法、装置、电子设备及存储介质 |
CN114420088A (zh) * | 2022-01-20 | 2022-04-29 | 安徽淘云科技股份有限公司 | 一种展示方法及其相关设备 |
CN114972589A (zh) * | 2022-05-31 | 2022-08-30 | 北京百度网讯科技有限公司 | 虚拟数字形象的驱动方法及其装置 |
CN114996516A (zh) * | 2022-06-02 | 2022-09-02 | 上海积图科技有限公司 | 虚拟数字人动态嘴型的生成方法及相关设备 |
CN115662388A (zh) * | 2022-10-27 | 2023-01-31 | 维沃移动通信有限公司 | 虚拟形象面部驱动方法、装置、电子设备及介质 |
WO2024088321A1 (zh) * | 2022-10-27 | 2024-05-02 | 维沃移动通信有限公司 | 虚拟形象面部驱动方法、装置、电子设备及介质 |
CN117095672A (zh) * | 2023-07-12 | 2023-11-21 | 支付宝(杭州)信息技术有限公司 | 一种数字人唇形生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110853614A (zh) | 虚拟对象口型驱动方法、装置及终端设备 | |
CN112259072A (zh) | 语音转换方法、装置和电子设备 | |
CN110647636A (zh) | 交互方法、装置、终端设备及存储介质 | |
CN112669417B (zh) | 虚拟形象的生成方法、装置、存储介质及电子设备 | |
CN112100352A (zh) | 与虚拟对象的对话方法、装置、客户端及存储介质 | |
CN107003825A (zh) | 通过自然语言输出控制电影指导和动态角色的***和方法 | |
CN114895817B (zh) | 交互信息处理方法、网络模型的训练方法及装置 | |
CN110148399A (zh) | 一种智能设备的控制方法、装置、设备及介质 | |
CN113450759A (zh) | 语音生成方法、装置、电子设备以及存储介质 | |
CN106446406A (zh) | 一种将中文语句转化为人类口型的仿真***及仿真方法 | |
CN112668407A (zh) | 人脸关键点生成方法、装置、存储介质及电子设备 | |
CN112652041B (zh) | 虚拟形象的生成方法、装置、存储介质及电子设备 | |
CN111383642B (zh) | 基于神经网络的语音应答方法、存储介质以终端设备 | |
CN115700772A (zh) | 人脸动画生成方法及装置 | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
CN110942763A (zh) | 语音识别方法及装置 | |
CN110599359A (zh) | 社交方法、装置、***、终端设备及存储介质 | |
CN112487073A (zh) | 基于建筑信息模型的数据处理方法及相关装置 | |
CN111128120B (zh) | 文本转语音方法和装置 | |
CN112447168A (zh) | 语音识别***、方法、音箱、显示设备和交互平台 | |
CN117194625A (zh) | 数字人的智能对话方法、装置、电子设备及存储介质 | |
CN112289305A (zh) | 韵律预测方法、装置、设备以及存储介质 | |
US20230083831A1 (en) | Method and apparatus for adjusting virtual face model, electronic device and storage medium | |
CN114898018A (zh) | 数字对象的动画生成方法、装置、电子设备及存储介质 | |
CN113808572B (zh) | 语音合成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200228 |