CN104536677A

CN104536677A - 具有智能语音交互功能的三维数字人像

Info

Publication number: CN104536677A
Application number: CN201510027338.0A
Authority: CN
Inventors: 程志全; 徐华勋
Original assignee: HUNAN HUASHEN TECHNOLOGY Co Ltd
Current assignee: HUNAN HUASHEN TECHNOLOGY Co Ltd
Priority date: 2015-01-20
Filing date: 2015-01-20
Publication date: 2015-04-22

Abstract

本发明涉及具有智能语音交互功能的三维数字人像。包括四个部分：用户输入模块、处理模块、三维数字人像专家***、反馈输出模块。在手机和平板电脑等移动终端上，用户输入信息，经输入模块的识别后，交给处理模块处理。处理模块在三维数字人像专家***的帮助下，根据输入信息，将三维数字人像进行相应的状态变换，变换后的结果传递给反馈输出模块，完成与用户的互动。

Description

具有智能语音交互功能的三维数字人像

技术领域

本发明涉及电数字数据处理和一般的图像数据处理或产生领域，特别涉及具有智能语音交互功能的三维数字人像。

背景技术

三维数字人像，又称为三维化身，是人类在数字世界中的代名词。三维数字人像的制作反映了千百年来人类真实再现和体验三维物理世界的理想。

近年来，三维数字人像的制作水平迅猛发展。当前，三维数字人像的视觉效果达到了照片真实感，具有以假乱真的效果。但是，在三维数字人像的语音方面，产业界和学术界尚未深入开展相关的研究工作。

本发明将提出具有语音交互功能的三维数字人像，三维数字人像程序运行于手机、平板等移动终端上，该三维数字人像能够与用户进行语音交互，与用户的交互行为产生互动，发出与交互行为对应的声音。

根据检索，与本发明相关的有专利CN201320121861。CN201320121861专利为一种智能语音对话玩具，语音控制***设置在玩具本体内。与之相比，本发明的对象不再是物理的玩具，而是数字化的三维人像，语音交互的方式更具智能性，具有触摸发音、问题对答、个性化声音录制和播放等功能。

发明内容

为了实现更具智能的三维数字人像，本发明提供一种具有智能语言交互功能的三维数字人像。

本发明提出的具有语音交互功能的三维数字人像***，其组成包括以下四个部分：用户输入模块、处理模块、三维数字人像专家***、反馈输出模块。用户的输入信息，经输入模块的识别后，交给处理模块处理。处理模块在三维数字人像专家***的帮助下，根据输入信息，将三维数字人像进行相应的状态变换，变换后的结果传递给反馈输出模块，完成与用户的互动。

1、用户输入模块

基于手机和平板电脑等移动终端，利用其触摸屏和语音输入功能，接收用户的输入。

1）对于用户的触摸动作，根据触摸动作所点击的三维人像模型的位置，区分出用户所点击的模型部位，进而识别出触摸动作的含义，将该识别信息转化为控制信号。在设计过程中，其实现流程如下：a）预先分割三维数字人像模型M为人像部位的集合，即M={M_i, i=1,…,N}，其中，N为部位的总数目，M_i为特定的部位，例如，头部、上臂、下臂、手、胸、腹、臀、大腿、小腿、脚等。b）对于用户在屏幕上的触摸动作I，检测其点击的人像部位M_j。从而，根据预先设定的动作知识库，识别出I的含义，进一步表示为控制信号W，并将其传递给处理模块。

2）对于声音输入I，根据语言模型，识别声音的语义，也将其转化为相应的控制信号W。具体而言，本发明采用基于统计模式识别的隐含马尔科夫模型（Hidden Markov Model，HMM）。从数学的角度，给定输入信号或特征序列I={I₁, I₂, …, I_n}，符号集（词典）W = {W₁,W₂, …, W_n}，求解符号串W=W₁,W₂,…,W_k，使得：

W = argmax P(W|I)

通过贝叶斯公式，上式可以改写为

W = argmax P(I|W)P(W) / P(I)

上式中，P(I|W)为声学特征模型，P(W)为词串的统计建模。输入串I，P(I)是确定的，因此，可以省略他们。从而，本发明的语音识别问题用下面的公式来表示

W = argmax P(I|W)P(W)

在此式中，声学特征模型P(I|W)为整个***的关键，它包括三个步骤：a）评估，给定隐含马尔科夫（HMM）模型参数以及一串观测序列，如何求得观测序列的似然度；b）解码，给定隐含马尔科夫（HMM）模型参数以及一串观测序列，如何搜索出最优的状态序列；c）训练，给定观测序列，如何得到模型参数。

简而言之，对于用户的输入I（触摸动作或声音输入），转化为控制信号W。

2）处理模块

对于识别出的控制信号W，在专家***的启发下，完成三维数字人像M的相应处理。也就是说，三维数字人像对控制信号做出相应的状态变换。状态变换可以是多样的，例如三维数字人像的肢体动作发生改变、面部表情发生改变、选择出与控制信号相匹配的声音。

在处理模块中，本发明采用了哈希查找算法，将识别出的控制信号W作为关键字，快速查找出相对应的三维数字人像的状态变换功能f。因此，本发明采用了自适应的哈希查找机制。具体过程包括：用给定的哈希函数构造哈希表、根据选择的冲突处理方法解决状态变换功能的冲突、在哈希表的基础上执行哈希查找。从本质上说，哈希查找是将控制信号映射成它的哈希值，该哈希值对应于状态变换功能。

但是，需要指出的是，由于三维数字人像的处理是具有相当的复杂度的。同一个控制信号，在不同的上下文背景下，其所对应的状态变换功能是不一样的。因此，需要强调的是，本发明的处理模块，在三维数字人像专家***的启发下运行。

3）三维数字人像专家***

该***其内部含有大量的三维数字人像处理领域专家水平的知识与经验，进行推理和判断，模拟人类专家的决策过程，从而处理该领域问题。例如，根据控制信号，三维数字人像启动休闲娱乐功能、讲笑话或说评书；或者启动智能聊天功能，与用户进行情感倾诉或调侃挑逗。

在本发明中，专家***为具有专门三维数字人像知识和经验的计算机智能程序***，通过对三维数字人像的建模，采用人工智能中的知识表示和知识推理技术，来确定控制信号的上下文，模拟通常由专家才能解决的三维数字人像状态变换问题，达到具有与专家同等解决问题能力的水平。

在三维数字人像专家***中，知识库和推理机为最核心的两个组成部分。知识库是问题求解所需要的领域知识的集合，包括三维数字人像的基本事实、处理的规则和其他有关信息。推理机则是对三维数字人像的知识进行解释的程序，根据知识的语义，对按一定策略找到的知识进行解释执行，并把结果记录到动态库的适当空间中。

4）反馈输出模块

反馈输出模块反馈三维数字人像的状态变换结果，通过手机和平板电脑等移动终端，以视觉和听觉信号的输出方式，反馈给用户，完成三维数字人像与用户间的交互。

需要指出的是，用户与三维数字人像间的交互是实时的。也就是说，当用户完成相应的输入，无需长时间的等待，三维数字人像即作出了相应的状态改变，并将结果及时地反馈给了用户。

所述三维数字人像运行在终端设备上，借助移动终端的触摸屏、语音输入等媒介，与用户完成智能语音交互。

本发明的有益效果是，提出新型的具有语音交互功能的三维数字人像。从而，移动终端上的三维数字人像可与用户进行语音交互，实现更智能的三维数字人像。

附图说明

图1是本发明的组成图；

图2是本发明实施过程的触摸输入实例流程；

图3是本发明实施过程的语音输入实例流程。

具体实施方式

图1为本发明的组成图，具体包括上文所述的四个组成模块：用户输入模块、处理模块、三维数字人像专家***、反馈输出模块。用户的输入信息，经输入模块的识别后，交给处理模块处理。处理模块在专家***的帮助下，根据输入信息，将三维数字人像进行相应的状态变换，变换后的结果传递给反馈输出模块，完成与用户的互动。

图2说明了本发明实施过程的触摸输入实例流程。具体包括：1）通过触摸输入用户信息：在移动终端的触摸屏上，用户点击三维数字人像，识别出点击的三维数字人像部位，将识别信息以触摸信号的方式传递给处理模块；2）处理触摸信号：在专家***的帮助下，对触摸信号启动相应的处理场景，例如，智能聊天模式；3）以语言方式反馈给用户：以调侃挑逗的形式，告知用户的点击部位。

图3说明了本发明实施过程的语音输入实例流程。具体包括：1）通过语音输入用户信息：在移动终端完成用户的语音输入，识别出语音的语义，将识别信息以语音信号的方式传递给处理模块；2）处理语音信号：在专家***的帮助下，对语音信号启动相应的处理场景，例如，休闲娱乐模式。从而，改变三维数字人像的姿势状态；3）以三维数字人像的动作方式反馈用户：在移动终端的显示屏上，以动作问答的形式，与用户娱乐交流。例如，当用户输入“跳一下”语音，三维数字人像做出跳跃动作。

上述为本发明的两个具体实例，描述较为具体和详细，但本新型的设计构思并不局限于此，凡利用此构思对本新型进行非实质性的改动，均属于侵犯本新型的保护范围的行为。

Claims

1.具有智能语音交互功能的三维数字人像，包括四个部分：用户输入模块、处理模块、三维数字人像专家***、反馈输出模块，其特征在于，用户的输入信息，经用户输入模块的识别后，交给处理模块处理，处理模块在三维数字人像专家***的帮助下，根据输入信息，将三维数字人像进行状态变换，变换后的结果传递给反馈输出模块，完成与用户的互动，

所述用户输入模块

1）对于用户的触摸动作，根据触摸动作所点击的三维人像模型的位置，区分出用户所点击的模型部位，进而识别出触摸动作的含义，将该识别信息转化为控制信号，其实现流程如下：a）预先分割三维数字人像模型M为人像部位的集合，即M={M_i, i=1,…,N}，其中，N为部位的总数目，M_i为部位，b）对于用户在屏幕上的触摸动作I，检测其点击的人像部位M_j，从而，根据预先设定的动作知识库，识别出I的含义，表示为控制信号W，将其传递给处理模块；

2）对于声音输入，根据语言模型，识别声音的语义，将其转化为控制信号W，采用基于统计模式识别的隐含马尔科夫模型，给定输入信号或特征序列I={I₁, I₂, …, I_n}，符号集W = {W₁,W₂, …, W_n}，求解符号串W=W₁,W₂,…,W_k，使得：

W = argmax P(W|I)

通过贝叶斯公式，上式改写为

W = argmax P(I|W)P(W) / P(I)

上式中，P(I|W)为声学特征模型，P(W)为词串的统计建模，输入串I，P(I)是确定的，从而，语音识别用下面的公式来表示

W = argmax P(I|W)P(W)；

所述处理模块

采用哈希查找算法，将识别出的控制信号W作为关键字，查找出相对应的三维数字人像的状态变换功能f，具体过程包括：用给定的哈希函数构造哈希表、根据选择的冲突处理方法解决状态变换功能的冲突、在哈希表的基础上执行哈希查找；

所述三维数字人像专家***

为具有三维数字人像知识和经验的计算机程序***，通过对三维数字人像的建模，采用人工智能中的知识表示和知识推理技术，来确定控制信号的上下文，模拟由专家解决的三维数字人像状态变换问题，达到专家解决问题能力的水平；

所述反馈输出模块

反馈三维数字人像的状态变换结果，通过终端，以视觉和听觉信号的输出方式，反馈给用户，完成三维数字人像与用户间的交互。

2.根据权利要求1所述的具有智能语音交互功能的三维数字人像，其特征在于，所述声学特征模型P(I|W)包括三个步骤：a）评估，给定隐含马尔科夫模型参数以及一串观测序列，求得观测序列的似然度；b）解码，给定隐含马尔科夫模型参数以及一串观测序列，搜索出最优的状态序列；c）训练，给定观测序列，得到模型参数。

3.根据权利要求1所述的具有智能语音交互功能的三维数字人像，其特征在于，所述处理模块，在三维数字人像专家***的启发下运行。

4.根据权利要求1所述的具有智能语音交互功能的三维数字人像，其特征在于，所述三维数字人像运行在终端设备上，借助终端的触摸屏、语音输入，与用户完成智能语音交互，用户与三维数字人像间的交互是实时的。

5.根据权利要求4所述的具有智能语音交互功能的三维数字人像，其特征在于，所述触摸输入具体过程包括：1）通过触摸输入用户信息：在移动终端的触摸屏上，用户点击三维数字人像，识别出点击的三维数字人像部位，将识别信息以触摸信号的方式传递给处理模块；2）处理触摸信号：在专家***的帮助下，对触摸信号启动相应的处理场景；3）以语言方式反馈给用户：以调侃挑逗的形式，告知用户的点击部位。

6.根据权利要求4所述的具有智能语音交互功能的三维数字人像，其特征在于，所述语音输入具体过程包括：1）通过语音输入用户信息：在移动终端完成用户的语音输入，识别出语音的语义，将识别信息以语音信号的方式传递给处理模块；2）处理语音信号：在专家***的帮助下，对语音信号启动相应的处理场景；3）以三维数字人像的动作方式反馈用户：在移动终端的显示屏上，以动作问答的形式，与用户娱乐交流。