CN104536677A - 具有智能语音交互功能的三维数字人像 - Google Patents

具有智能语音交互功能的三维数字人像 Download PDF

Info

Publication number
CN104536677A
CN104536677A CN201510027338.0A CN201510027338A CN104536677A CN 104536677 A CN104536677 A CN 104536677A CN 201510027338 A CN201510027338 A CN 201510027338A CN 104536677 A CN104536677 A CN 104536677A
Authority
CN
China
Prior art keywords
dimensional digital
digital portrait
user
portrait
processing module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510027338.0A
Other languages
English (en)
Inventor
程志全
徐华勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN HUASHEN TECHNOLOGY Co Ltd
Original Assignee
HUNAN HUASHEN TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUNAN HUASHEN TECHNOLOGY Co Ltd filed Critical HUNAN HUASHEN TECHNOLOGY Co Ltd
Priority to CN201510027338.0A priority Critical patent/CN104536677A/zh
Publication of CN104536677A publication Critical patent/CN104536677A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及具有智能语音交互功能的三维数字人像。包括四个部分:用户输入模块、处理模块、三维数字人像专家***、反馈输出模块。在手机和平板电脑等移动终端上,用户输入信息,经输入模块的识别后,交给处理模块处理。处理模块在三维数字人像专家***的帮助下,根据输入信息,将三维数字人像进行相应的状态变换,变换后的结果传递给反馈输出模块,完成与用户的互动。

Description

具有智能语音交互功能的三维数字人像
技术领域
 本发明涉及电数字数据处理和一般的图像数据处理或产生领域,特别涉及具有智能语音交互功能的三维数字人像。
背景技术
三维数字人像,又称为三维化身,是人类在数字世界中的代名词。三维数字人像的制作反映了千百年来人类真实再现和体验三维物理世界的理想。
近年来,三维数字人像的制作水平迅猛发展。当前,三维数字人像的视觉效果达到了照片真实感,具有以假乱真的效果。但是,在三维数字人像的语音方面,产业界和学术界尚未深入开展相关的研究工作。
本发明将提出具有语音交互功能的三维数字人像,三维数字人像程序运行于手机、平板等移动终端上,该三维数字人像能够与用户进行语音交互,与用户的交互行为产生互动,发出与交互行为对应的声音。
根据检索,与本发明相关的有专利CN201320121861。CN201320121861专利为一种智能语音对话玩具,语音控制***设置在玩具本体内。与之相比,本发明的对象不再是物理的玩具,而是数字化的三维人像,语音交互的方式更具智能性,具有触摸发音、问题对答、个性化声音录制和播放等功能。
发明内容
为了实现更具智能的三维数字人像,本发明提供一种具有智能语言交互功能的三维数字人像。
本发明提出的具有语音交互功能的三维数字人像***,其组成包括以下四个部分:用户输入模块、处理模块、三维数字人像专家***、反馈输出模块。用户的输入信息,经输入模块的识别后,交给处理模块处理。处理模块在三维数字人像专家***的帮助下,根据输入信息,将三维数字人像进行相应的状态变换,变换后的结果传递给反馈输出模块,完成与用户的互动。
1、用户输入模块
基于手机和平板电脑等移动终端,利用其触摸屏和语音输入功能,接收用户的输入。
1)对于用户的触摸动作,根据触摸动作所点击的三维人像模型的位置,区分出用户所点击的模型部位,进而识别出触摸动作的含义,将该识别信息转化为控制信号。在设计过程中,其实现流程如下:a)预先分割三维数字人像模型M为人像部位的集合,即M={Mi, i=1,…,N},其中,N为部位的总数目,Mi为特定的部位,例如,头部、上臂、下臂、手、胸、腹、臀、大腿、小腿、脚等。b)对于用户在屏幕上的触摸动作I,检测其点击的人像部位Mj。从而,根据预先设定的动作知识库,识别出I的含义,进一步表示为控制信号W,并将其传递给处理模块。
2)对于声音输入I,根据语言模型,识别声音的语义,也将其转化为相应的控制信号W。具体而言,本发明采用基于统计模式识别的隐含马尔科夫模型(Hidden Markov Model,HMM)。从数学的角度,给定输入信号或特征序列I={I1, I2, …, In},符号集(词典)W = {W1,W2, …, Wn},求解符号串W=W1,W2,…,Wk,使得:
W = argmax  P(W|I)
通过贝叶斯公式,上式可以改写为
W = argmax  P(I|W)P(W) / P(I)
上式中,P(I|W)为声学特征模型,P(W)为词串的统计建模。输入串I,P(I)是确定的,因此,可以省略他们。从而,本发明的语音识别问题用下面的公式来表示
W = argmax P(I|W)P(W)
在此式中,声学特征模型P(I|W)为整个***的关键,它包括三个步骤:a)评估,给定隐含马尔科夫(HMM)模型参数以及一串观测序列,如何求得观测序列的似然度;b)解码,给定隐含马尔科夫(HMM)模型参数以及一串观测序列,如何搜索出最优的状态序列;c)训练,给定观测序列,如何得到模型参数。
简而言之,对于用户的输入I(触摸动作或声音输入),转化为控制信号W。
2)处理模块
对于识别出的控制信号W,在专家***的启发下,完成三维数字人像M的相应处理。也就是说,三维数字人像对控制信号做出相应的状态变换。状态变换可以是多样的,例如三维数字人像的肢体动作发生改变、面部表情发生改变、选择出与控制信号相匹配的声音。
在处理模块中,本发明采用了哈希查找算法,将识别出的控制信号W作为关键字,快速查找出相对应的三维数字人像的状态变换功能f。因此,本发明采用了自适应的哈希查找机制。具体过程包括:用给定的哈希函数构造哈希表、根据选择的冲突处理方法解决状态变换功能的冲突、在哈希表的基础上执行哈希查找。从本质上说,哈希查找是将控制信号映射成它的哈希值,该哈希值对应于状态变换功能。
但是,需要指出的是,由于三维数字人像的处理是具有相当的复杂度的。同一个控制信号,在不同的上下文背景下,其所对应的状态变换功能是不一样的。因此,需要强调的是,本发明的处理模块,在三维数字人像专家***的启发下运行。
3)三维数字人像专家***
该***其内部含有大量的三维数字人像处理领域专家水平的知识与经验,进行推理和判断,模拟人类专家的决策过程,从而处理该领域问题。例如,根据控制信号,三维数字人像启动休闲娱乐功能、讲笑话或说评书;或者启动智能聊天功能,与用户进行情感倾诉或调侃挑逗。
在本发明中,专家***为具有专门三维数字人像知识和经验的计算机智能程序***,通过对三维数字人像的建模,采用人工智能中的知识表示和知识推理技术,来确定控制信号的上下文,模拟通常由专家才能解决的三维数字人像状态变换问题,达到具有与专家同等解决问题能力的水平。
在三维数字人像专家***中,知识库和推理机为最核心的两个组成部分。知识库是问题求解所需要的领域知识的集合,包括三维数字人像的基本事实、处理的规则和其他有关信息。推理机则是对三维数字人像的知识进行解释的程序,根据知识的语义,对按一定策略找到的知识进行解释执行,并把结果记录到动态库的适当空间中。
4)反馈输出模块
反馈输出模块反馈三维数字人像的状态变换结果,通过手机和平板电脑等移动终端,以视觉和听觉信号的输出方式,反馈给用户,完成三维数字人像与用户间的交互。
需要指出的是,用户与三维数字人像间的交互是实时的。也就是说,当用户完成相应的输入,无需长时间的等待,三维数字人像即作出了相应的状态改变,并将结果及时地反馈给了用户。
所述三维数字人像运行在终端设备上,借助移动终端的触摸屏、语音输入等媒介,与用户完成智能语音交互。
本发明的有益效果是,提出新型的具有语音交互功能的三维数字人像。从而,移动终端上的三维数字人像可与用户进行语音交互,实现更智能的三维数字人像。
附图说明
图1是本发明的组成图;
图2是本发明实施过程的触摸输入实例流程;
图3是本发明实施过程的语音输入实例流程。
具体实施方式
图1为本发明的组成图,具体包括上文所述的四个组成模块:用户输入模块、处理模块、三维数字人像专家***、反馈输出模块。用户的输入信息,经输入模块的识别后,交给处理模块处理。处理模块在专家***的帮助下,根据输入信息,将三维数字人像进行相应的状态变换,变换后的结果传递给反馈输出模块,完成与用户的互动。
图2说明了本发明实施过程的触摸输入实例流程。具体包括:1)通过触摸输入用户信息:在移动终端的触摸屏上,用户点击三维数字人像,识别出点击的三维数字人像部位,将识别信息以触摸信号的方式传递给处理模块;2)处理触摸信号:在专家***的帮助下,对触摸信号启动相应的处理场景,例如,智能聊天模式;3)以语言方式反馈给用户:以调侃挑逗的形式,告知用户的点击部位。
图3说明了本发明实施过程的语音输入实例流程。具体包括:1)通过语音输入用户信息:在移动终端完成用户的语音输入,识别出语音的语义,将识别信息以语音信号的方式传递给处理模块;2)处理语音信号:在专家***的帮助下,对语音信号启动相应的处理场景,例如,休闲娱乐模式。从而,改变三维数字人像的姿势状态;3)以三维数字人像的动作方式反馈用户:在移动终端的显示屏上,以动作问答的形式,与用户娱乐交流。例如,当用户输入“跳一下”语音,三维数字人像做出跳跃动作。
上述为本发明的两个具体实例,描述较为具体和详细,但本新型的设计构思并不局限于此,凡利用此构思对本新型进行非实质性的改动,均属于侵犯本新型的保护范围的行为。

Claims (6)

1.具有智能语音交互功能的三维数字人像,包括四个部分:用户输入模块、处理模块、三维数字人像专家***、反馈输出模块,其特征在于,用户的输入信息,经用户输入模块的识别后,交给处理模块处理,处理模块在三维数字人像专家***的帮助下,根据输入信息,将三维数字人像进行状态变换,变换后的结果传递给反馈输出模块,完成与用户的互动,
所述用户输入模块
1)对于用户的触摸动作,根据触摸动作所点击的三维人像模型的位置,区分出用户所点击的模型部位,进而识别出触摸动作的含义,将该识别信息转化为控制信号,其实现流程如下:a)预先分割三维数字人像模型M为人像部位的集合,即M={Mi, i=1,…,N},其中,N为部位的总数目,Mi为部位,b)对于用户在屏幕上的触摸动作I,检测其点击的人像部位Mj,从而,根据预先设定的动作知识库,识别出I的含义,表示为控制信号W,将其传递给处理模块;
2)对于声音输入,根据语言模型,识别声音的语义,将其转化为控制信号W,采用基于统计模式识别的隐含马尔科夫模型,给定输入信号或特征序列I={I1, I2, …, In},符号集W = {W1,W2, …, Wn},求解符号串W=W1,W2,…,Wk,使得:
W = argmax  P(W|I)
通过贝叶斯公式,上式改写为
W = argmax  P(I|W)P(W) / P(I)
上式中,P(I|W)为声学特征模型,P(W)为词串的统计建模,输入串I,P(I)是确定的,从而,语音识别用下面的公式来表示
W = argmax P(I|W)P(W);
所述处理模块
采用哈希查找算法,将识别出的控制信号W作为关键字,查找出相对应的三维数字人像的状态变换功能f,具体过程包括:用给定的哈希函数构造哈希表、根据选择的冲突处理方法解决状态变换功能的冲突、在哈希表的基础上执行哈希查找;
所述三维数字人像专家***
为具有三维数字人像知识和经验的计算机程序***,通过对三维数字人像的建模,采用人工智能中的知识表示和知识推理技术,来确定控制信号的上下文,模拟由专家解决的三维数字人像状态变换问题,达到专家解决问题能力的水平;
所述反馈输出模块
反馈三维数字人像的状态变换结果,通过终端,以视觉和听觉信号的输出方式,反馈给用户,完成三维数字人像与用户间的交互。
2.根据权利要求1所述的具有智能语音交互功能的三维数字人像,其特征在于,所述声学特征模型P(I|W)包括三个步骤:a)评估,给定隐含马尔科夫模型参数以及一串观测序列,求得观测序列的似然度;b)解码,给定隐含马尔科夫模型参数以及一串观测序列,搜索出最优的状态序列;c)训练,给定观测序列,得到模型参数。
3.根据权利要求1所述的具有智能语音交互功能的三维数字人像,其特征在于,所述处理模块,在三维数字人像专家***的启发下运行。
4.根据权利要求1所述的具有智能语音交互功能的三维数字人像,其特征在于,所述三维数字人像运行在终端设备上,借助终端的触摸屏、语音输入,与用户完成智能语音交互,用户与三维数字人像间的交互是实时的。
5.根据权利要求4所述的具有智能语音交互功能的三维数字人像,其特征在于,所述触摸输入具体过程包括:1)通过触摸输入用户信息:在移动终端的触摸屏上,用户点击三维数字人像,识别出点击的三维数字人像部位,将识别信息以触摸信号的方式传递给处理模块;2)处理触摸信号:在专家***的帮助下,对触摸信号启动相应的处理场景;3)以语言方式反馈给用户:以调侃挑逗的形式,告知用户的点击部位。
6.根据权利要求4所述的具有智能语音交互功能的三维数字人像,其特征在于,所述语音输入具体过程包括:1)通过语音输入用户信息:在移动终端完成用户的语音输入,识别出语音的语义,将识别信息以语音信号的方式传递给处理模块;2)处理语音信号:在专家***的帮助下,对语音信号启动相应的处理场景;3)以三维数字人像的动作方式反馈用户:在移动终端的显示屏上,以动作问答的形式,与用户娱乐交流。
CN201510027338.0A 2015-01-20 2015-01-20 具有智能语音交互功能的三维数字人像 Pending CN104536677A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510027338.0A CN104536677A (zh) 2015-01-20 2015-01-20 具有智能语音交互功能的三维数字人像

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510027338.0A CN104536677A (zh) 2015-01-20 2015-01-20 具有智能语音交互功能的三维数字人像

Publications (1)

Publication Number Publication Date
CN104536677A true CN104536677A (zh) 2015-04-22

Family

ID=52852215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510027338.0A Pending CN104536677A (zh) 2015-01-20 2015-01-20 具有智能语音交互功能的三维数字人像

Country Status (1)

Country Link
CN (1) CN104536677A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106154876A (zh) * 2016-07-15 2016-11-23 北京光年无限科技有限公司 一种智能机器人及机器人操作***
CN107073314A (zh) * 2016-07-07 2017-08-18 深圳狗尾草智能科技有限公司 一种基于虚拟环境的机器人训练方法和装置
CN107247750A (zh) * 2017-05-26 2017-10-13 深圳千尘计算机技术有限公司 人工智能交互方法及***
CN109545205A (zh) * 2017-09-22 2019-03-29 甲骨文国际公司 基于上下文的虚拟助理实现
CN110288703A (zh) * 2019-06-28 2019-09-27 斑马网络技术有限公司 图像处理方法、装置、设备以及存储介质
CN111627440A (zh) * 2020-05-25 2020-09-04 红船科技(广州)有限公司 一种基于三维虚拟人物和语音识别实现交互的学习***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889029A (zh) * 2006-07-24 2007-01-03 刘金刚 一种智能虚拟交互方法
EP2012218A2 (de) * 2007-05-22 2009-01-07 Deutsche Telekom AG Verfahren zur Beeinflussung der Interpretation multimodaler Eingaben
CN102446428A (zh) * 2010-09-27 2012-05-09 北京紫光优蓝机器人技术有限公司 基于机器人的交互式学习***及其交互方法
CN103657095A (zh) * 2012-08-30 2014-03-26 西安佳迅科技有限公司 一种电子识别人体玩具

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889029A (zh) * 2006-07-24 2007-01-03 刘金刚 一种智能虚拟交互方法
EP2012218A2 (de) * 2007-05-22 2009-01-07 Deutsche Telekom AG Verfahren zur Beeinflussung der Interpretation multimodaler Eingaben
CN102446428A (zh) * 2010-09-27 2012-05-09 北京紫光优蓝机器人技术有限公司 基于机器人的交互式学习***及其交互方法
CN103657095A (zh) * 2012-08-30 2014-03-26 西安佳迅科技有限公司 一种电子识别人体玩具

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖业鸣 等: "深度神经网络技术在汉语语音识别声学建模中的优化策略", 《重庆邮电大学学报(自然科学版)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107073314A (zh) * 2016-07-07 2017-08-18 深圳狗尾草智能科技有限公司 一种基于虚拟环境的机器人训练方法和装置
WO2018006364A1 (zh) * 2016-07-07 2018-01-11 深圳狗尾草智能科技有限公司 一种基于虚拟环境的机器人训练方法和装置
CN106154876A (zh) * 2016-07-15 2016-11-23 北京光年无限科技有限公司 一种智能机器人及机器人操作***
CN107247750A (zh) * 2017-05-26 2017-10-13 深圳千尘计算机技术有限公司 人工智能交互方法及***
CN109545205A (zh) * 2017-09-22 2019-03-29 甲骨文国际公司 基于上下文的虚拟助理实现
CN109545205B (zh) * 2017-09-22 2023-08-29 甲骨文国际公司 基于上下文的虚拟助理实现
CN110288703A (zh) * 2019-06-28 2019-09-27 斑马网络技术有限公司 图像处理方法、装置、设备以及存储介质
CN111627440A (zh) * 2020-05-25 2020-09-04 红船科技(广州)有限公司 一种基于三维虚拟人物和语音识别实现交互的学习***

Similar Documents

Publication Publication Date Title
CN110531860B (zh) 一种基于人工智能的动画形象驱动方法和装置
WO2021169431A1 (zh) 交互方法、装置、电子设备以及存储介质
CN104536677A (zh) 具有智能语音交互功能的三维数字人像
CN110288077B (zh) 一种基于人工智能的合成说话表情的方法和相关装置
CN110598576B (zh) 一种手语交互方法、装置及计算机介质
CN111933115B (zh) 语音识别方法、装置、设备以及存储介质
CN109977207A (zh) 对话生成方法、对话生成装置、电子设备及存储介质
CN108877336A (zh) 基于增强现实技术的教学方法、云服务平台和教学***
CN110349572A (zh) 一种语音关键词识别方法、装置、终端及服务器
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
WO2021196646A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
WO2021196644A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
TW202138970A (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
CN111538456A (zh) 基于虚拟形象的人机交互方法、装置、终端以及存储介质
CN111290682A (zh) 交互方法、装置及计算机设备
CN108052250A (zh) 基于多模态交互的虚拟偶像演绎数据处理方法及***
Qi et al. Emotiongesture: Audio-driven diverse emotional co-speech 3d gesture generation
CN109800295A (zh) 基于情感词典和词概率分布的情感会话生成方法
CN110148413A (zh) 语音评测方法及相关装置
CN110874402A (zh) 基于个性化信息的回复生成方法、设备和计算机可读介质
CN117633198A (zh) 角色对话模型的训练方法、对话生成方法、装置和设备
Zhen-Tao et al. Communication atmosphere in humans and robots interaction based on the concept of fuzzy atmosfield generated by emotional states of humans and robots
CN104460991A (zh) 一种基于数字家庭设备的手势互动控制***
CN114768246A (zh) 一种游戏人机互动方法及其***
CN115145434A (zh) 基于虚拟形象的互动服务方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150422

WD01 Invention patent application deemed withdrawn after publication