CN115455136A

CN115455136A - 智能数字人营销交互方法、装置、计算机设备及存储介质

Info

Publication number: CN115455136A
Application number: CN202210918660.2A
Authority: CN
Inventors: 高鹏; 康维鹏; 袁兰; 吴飞; 周伟华; 高峰; 潘晶
Original assignee: Hangzhou Mjoys Big Data Technology Co ltd
Current assignee: Hangzhou Mjoys Big Data Technology Co ltd
Priority date: 2022-03-02
Filing date: 2022-08-01
Publication date: 2022-12-09

Abstract

本发明实施例公开了智能数字人营销交互方法、装置、计算机设备及存储介质。所述方法包括：获取各类营销产品素材；根据所述营销产品素材生成智能营销对话逻辑知识库；采集用户视觉信息；将所述用户视觉信息转化为语音信息以及肢体信息；对所述语音信息以及所述肢体信息进行语义文本解析，并结合所述智能营销对话逻辑知识库生成响应文本；根据所述响应文本进行语音合成和数字人肢体表情合成，以得到交互结果；反馈所述交互结果至终端，以在终端显示所述交互结果。通过实施本发明实施例的方法可实现提供更为丰富视觉、听觉、文本图表信息的营销交互形式，提高最终营销体验和转化率。

Description

智能数字人营销交互方法、装置、计算机设备及存储介质

技术领域

本发明涉及营销交互方法，更具体地说是指智能数字人营销交互方法、装置、计算机设备及存储介质。

背景技术

随着AI(人工智能，Artificial Intelligence)技术的不断发展，特别是语音识别与合成、语义理解、视觉识别与合成技术的发展，智能数字人在越来越多的场景中崭露头角，各种虚拟主播层出不穷。

以面向银行智能营销为例，原先的营销单纯以电话、WEB网页式等形式的营销方式，由于与用户交互形式较为单一，在新技术与形式不断迭代产出的当下，由于不能调动用户全面位的情感交流需求，最终营销转化也逐渐走低。

因此，有必要设计一种新的方法，实现提供更为丰富视觉、听觉、文本图表信息的营销交互形式，提高最终营销体验和转化率。

发明内容

本发明的目的在于克服现有技术的缺陷，提供智能数字人营销交互方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：智能数字人营销交互方法，包括：

获取各类营销产品素材；

根据所述营销产品素材生成智能营销对话逻辑知识库；

采集用户视觉信息；

将所述用户视觉信息转化为语音信息以及肢体信息；

对所述语音信息以及所述肢体信息进行语义文本解析，并结合所述智能营销对话逻辑知识库生成响应文本；

根据所述响应文本进行语音合成和数字人肢体表情合成，以得到交互结果；

反馈所述交互结果至终端，以在终端显示所述交互结果。

其进一步技术方案为：所述根据所述营销产品素材生成智能营销对话逻辑知识库，包括：

对所述营销产品素材进行文档内容的特征抽取，以得到营销产品特征；

将所述营销产品特征转化为问句与答案的形式，以得到转化结果；

整理通用常见问答对；

采用树形状态图结构根据转化结果以及所述通用常见问答对整理对话逻辑流程，以得到智能营销对话逻辑知识库。

其进一步技术方案为：所述将所述用户视觉信息转化为语音信息以及肢体信息，包括：

对所述用户视觉信息进行语音识别，以得到语音信息；

对所述用户视觉信息进行用户肢体动作识别，以得到肢体信息。

其进一步技术方案为：所述对所述用户视觉信息进行语音识别，以得到语音信息，包括：

对所述用户视觉信息内的声音进行分帧，以得到语音帧；

对所述语音帧进行预处理，以得到预处理结果；

对所述预处理结果进行声音特征提取，以得到多维声音特征向量；

采用声学模型将所述多维声音特征向量转化为音素信息序列；

对所述音素信息序列进行因素信息字典映射，以得到映射结果；

构建语言模型；

将多维声音特征向量转化为文字，以得到语音信息。

其进一步技术方案为：所述对所述用户视觉信息进行用户肢体动作识别，以得到肢体信息，包括：

对所述用户视觉信息内的视觉内容进行分帧，以得到若干帧图片信息；

对每帧图片信息进行灰度图二值化处理，以得到处理结果；

对所述处理结果进行标准化处理，以得到标准图像；

计算所述标准图像的每个像素的梯度，以得到像素梯度；

对所述标准图像进行分块以及特征抽取，以得到图片块以及对应的特征；

根据所述图片块以及对应的特征计算每帧图片时序间的关联语义信息，以得到肢体语义向量；

根据所述肢体语义向量进行分类处理，以得到肢体信息。

其进一步技术方案为：所述对所述语音信息以及所述肢体信息进行语义文本解析，并结合所述智能营销对话逻辑知识库生成响应文本，包括：

对所述语音信息以及所述肢体信息进行语义文本解析，以得到语义信息；

根据所述语义信息结合所述智能营销对话逻辑知识库按照对话逻辑状态树进行对话引导或就营销产品信息进行问答，以形成响应文本。

其进一步技术方案为：所述根据所述响应文本进行语音合成和数字人肢体表情合成，以得到交互结果，包括：

根据所述响应文本采用语音合成技术生成语音内容；

根据所述响应文本采用视觉合成模型进行肢体表情合成，以得到数字人肢体表情内容；

整合所述语音内容以及所述数字人肢体表情内容，以得到交互结果。

本发明还提供了智能数字人营销交互装置，包括：

素材获取单元，用于获取各类营销产品素材；

知识库生成单元，用于根据所述营销产品素材生成智能营销对话逻辑知识库；

信息采集单元，用于采集用户视觉信息；

转化单元，用于将所述用户视觉信息转化为语音信息以及肢体信息；

响应内容生成单元，用于对所述语音信息以及所述肢体信息进行语义文本解析，并结合所述智能营销对话逻辑知识库生成响应文本；

合成单元，用于根据所述响应文本进行语音合成和数字人肢体表情合成，以得到交互结果；

反馈单元，用于反馈所述交互结果至终端，以在终端显示所述交互结果。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过根据各类营销产品素材整理形成智能营销对话逻辑知识库，在交互过程中，根据采集的用户视觉信息转化为语音信息以及肢体信息，且进行语义文本解析，并生成响应文本，再将响应文本形成语音合成和数字人肢体表情合成，反馈给终端，实现能从多模态跟用户交互，提供更为丰富视觉、听觉、文本图表信息，提高最终营销体验和转化率。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的智能数字人营销交互方法的应用场景示意图；

图2为本发明实施例提供的智能数字人营销交互方法的流程示意图；

图3为本发明实施例提供的智能数字人营销交互方法的子流程示意图；

图4为本发明实施例提供的智能数字人营销交互方法的子流程示意图；

图5为本发明实施例提供的智能数字人营销交互方法的子流程示意图；

图6为本发明实施例提供的智能数字人营销交互方法的子流程示意图；

图7为本发明实施例提供的智能数字人营销交互方法的子流程示意图；

图8为本发明实施例提供的智能数字人营销交互方法的子流程示意图；

图9为本发明实施例提供的智能数字人营销交互装置的示意性框图；

图10为本发明实施例提供的智能数字人营销交互装置的知识库生成单元的示意性框图；

图11为本发明实施例提供的智能数字人营销交互装置的转化单元的示意性框图；

图12为本发明实施例提供的智能数字人营销交互装置的语音识别子单元的示意性框图；

图13为本发明实施例提供的智能数字人营销交互装置的动作识别子单元的示意性框图；

图14为本发明实施例提供的智能数字人营销交互装置的响应内容生成单元的示意性框图；

图15为本发明实施例提供的智能数字人营销交互装置的合成单元的示意性框图；

图16为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的智能数字人营销交互方法的应用场景示意图。图2为本发明实施例提供的智能数字人营销交互方法的示意性流程图。该智能数字人营销交互方法应用于服务器中。该服务器与终端进行数据交互，通过终端输入各类营销产品素材，根据这些素材生成智能营销对话逻辑知识库，在对话过程中，采集用户视觉信息，并转化为语音信息以及肢体信息，再将转化后的信息进行语义文本解析，并结合所述智能营销对话逻辑知识库生成响应文本，以响应文本生成语音和数字人肢体表情并存的交互结果，并反馈至终端显示。

图2是本发明实施例提供的智能数字人营销交互方法的流程示意图。如图2所示，该方法包括以下步骤S110至S170。

S110、获取各类营销产品素材。

在本实施例中，各类营销产品素材是指产品介绍文档(或产品介绍文本)、产品利率图表、产品购买流程、产品赎回到账流程等情方面的各类文档图文信息。

以面向银行营销业务为例，银行营销产品主要包括***、大额存贷、理财产品等，需要整理各类营销产品素材，例如：产品介绍文档(或产品介绍文本)、产品利率图表、产品购买流程、产品赎回到账流程等情方面的各类文档图文信息，并构建起该产品的营销知识相关的素材，由于这些素材信息包含了图片、表格、文本、甚至影视频信息，则将这些文档内容进行抽取识别，并转化为<Q，A>的形式，即问句与答案的形式，以此构建智能营销对话逻辑知识库。

S120、根据所述营销产品素材生成智能营销对话逻辑知识库。

在本实施例中，智能营销对话逻辑知识库是指营销产品的对话逻辑交互知识库。

在一实施例中，请参阅图3，上述的步骤S120可包括步骤S121～S124。

S121、对所述营销产品素材进行文档内容的特征抽取，以得到营销产品特征。

在本实施例中，营销产品特征是指营销产品的特性，该特征包括：产品名称、发行主体、发行范围、风险情况、购买收益、赎回流程等基本信息说明。

S122、将所述营销产品特征转化为问句与答案的形式，以得到转化结果。

在本实施例中，转化结果是指将营销产品特征转化为问句与答案的形式后形成的文本内容。

具体地，将营销产品素材的各类PDF文档、图片、表格等素材进行PDF文档抽取、OCR图文识别、表格行列信息抽取等转化为为文本信息，并进一步对文本信息进行分词、实体识别及文本抽取分类等操作，确定出素材片段所介绍的产品具体信息点，例如确定出是收益情况、还是赎回流程，然后在按照Seq2Seq方式或规则方式生成出标准问句和答案描述文本信息字段，并结合原始素材信息，一起构成了待营销产品的基本问答对，由此形成转化结果。

S123、整理通用常见问答对。

在本实施例中，通用常见问答对是指例如“不要”、“帮我介绍下”、“你是谁”、“我在开车”、“你晚点给我电话”等通用问答情况的问答对，这些问答对是脱离于具体的营销产品的。

S124、采用树形状态图结构根据转化结果以及所述通用常见问答对整理对话逻辑流程，以得到智能营销对话逻辑知识库。

具体地，按照树形状态图结构根据转化结果以及所述通用常见问答对整理对话逻辑流程，树形状态图结构对问答内容整体为流程属于现有技术，此处不再赘述，在进行客服营销推广时，背后都有一套推广引导流程剧本，例如先进行开场白寒暄，然后结合用户特性引出推广产品并简要说明产品特性，再然后就用户关于该产品信息的各种QA问答对话，最后就是引导用户进行购买下单等，由此可见，对话逻辑流程可以采用对话状态图进行梳理，一般是采用树形进行对话逻辑流程整理。

构建一个营销产品的对话逻辑交互知识库，即智能营销对话逻辑知识库，该知识库整理内容的完备和丰富程度，就基本确定了智能数字人的脑容量和业务能力。

S130、采集用户视觉信息。

在本实施例中，用户视觉信息是指在营销交互过程中用户的视觉视频信息，带有语音和肢体表情的信息。

S140、将所述用户视觉信息转化为语音信息以及肢体信息。

在本实施例中，语音信息是指由用户视觉信息中的声音转化而得的文本信息；肢体信息是指由用户视觉信息中的视觉内容即具体地画面内容转化而得的文本信息。

智能数字人营销的实时交互过程最重要的是要听得懂和看得见，因此，将用户的语音及肢体动作信息转化为统一化的语言文字信息，才能使得营销过程顺利执行。

在一实施例中，请参阅图4，上述的步骤S140可包括步骤S141～S142。

S141、对所述用户视觉信息进行语音识别，以得到语音信息。

语音识别就是将波形状态的声音信息转化为文字信息，常见声音存储有mp3、wav等格式文件，其中MP3格式都是压缩格式，必须转成非压缩的纯波形文件来处理，也就是转化为wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了，最终表示成了时序波形图式。进行声音识别，主要经过分帧、VAD检测、特征提取、声学建模、语言模型、文本序列解码等处理过程。

在一实施例中，请参阅图5，上述的步骤S141可包括步骤S1411～S1417。

S1411、对所述用户视觉信息内的声音进行分帧，以得到语音帧。

在本实施例中，语音帧是指用户视觉信息内的声音分帧后形成的每一帧语音信息。

具体地，把声音按照一定时间时长切分成连续小段，每小段称为一帧，使用移动窗函数来实现，不是简单的切开，各帧之间一般是有交叠的。

S1412、对所述语音帧进行预处理，以得到预处理结果。

在本实施例中，预处理结果是指对每一帧语音帧都进行首尾端的静音切除后形成的语音信息。

具体地，预处理过程是将首尾端的静音切除，降低对后续步骤造成的干扰，静音切除的操作一般称为VAD(语音活动检测，Voice Activity Detection)，VAD算法对分帧语音片段进行建模，将其识别分成噪声类和语音类。常见方法是通过计算每帧的能量均值，通过设置噪音能量值进行噪音识别。

S1413、对所述预处理结果进行声音特征提取，以得到多维声音特征向量。

在本实施例中，多维声音特征向量是指预处理中的声音特征。

具体地，采用LPCC(线性预测倒谱系数，linear predictive cepstralcoefficient)和MFCC(Mel倒谱系数，Mel Frequency Cepstrum Coefficient)对所述预处理结果进行声音特征提取，目的是把每一帧波形变成一个包含声音信息的多维向量。

S1414、采用声学模型将所述多维声音特征向量转化为音素信息序列。

在本实施例中，音素信息序列是指将特征向量转化形成的语素序列。

具体地，采用AM(声学模型，Acoustic modeling)将特征向量转化为音素信息序列，音素信息序列可以理解为通常说的拼音序列；通过对语音数据进行训练获得AM，对于该模型的训练过程中属于现有技术，此处不再赘述。

S1415、对所述音素信息序列进行因素信息字典映射，以得到映射结果。

在本实施例中，映射结果是指通过字段将字或者词与音素的对应形成的结果。

具体地，通过字段将字或者词与音素对应，对于中文而言就是拼音和汉字的对应，英文就是音标与单词的对应。

S1416、构建语言模型；

具体地，通过对大量文本信息进行训练得到单个字或者词相互关联的概率，由此构建语言模型，在语音识别中主要是建模声音字符的关联分布。

S1417、将多维声音特征向量转化为文字，以得到语音信息。

具体地，通过声学模型、因素信息字典、语言模型对提取特征后的多维声音特征向量最终转化为文字输出，此过程需要进行解码操作，常见的解码算法有Viterbi解码算法。

S142、对所述用户视觉信息进行用户肢体动作识别，以得到肢体信息。

在本实施例中，语音信息虽然是人信息交流最主要的方法，但一些行为肢体语言在日常中也发挥显著作用，例如“点头”表示肯定、“摇头或摆手”表示否定、“瞪眼”可能表示生气、捂嘴可能表示惊讶等。因此，智能数字人营销交互过程还应该理解基本的人体肢体动作语言，首先采集用户行为动作信息，并将该视觉内容经过模型识别转化为输出为语言文本信息。

在一实施例中，请参阅图6，上述的步骤S142可包括步骤S1421～S1427。

S1421、对所述用户视觉信息内的视觉内容进行分帧，以得到若干帧图片信息。

在本实施例中，若干帧图片信息是指对用户视觉信息内的视觉内容进行分帧后形成的每一帧图片。

该分帧过程跟波形声音类似，视觉信息可以看成是一系列的图片信息所构成时序信息，将按一定时长进行一小段图片信息的切分。

S1422、对每帧图片信息进行灰度图二值化处理，以得到处理结果。

在本实施例中，处理结果是指对每帧图片信息进行灰度图二值化处理形成的图片。

由于视频采集可能是RGB格式，在图像信息采集时，需要转化为灰度图，从而将一小段视觉片段即每帧图片信息转化为多个灰度图序列。

S1423、对所述处理结果进行标准化处理，以得到标准图像。

在本实施例中，标准图像是指对处理结果进行颜色空间的标准化处理后形成的图片。

具体地，采用Gamma校正法对输入的处理结果进行颜色空间的标准化(即归一化，目的是调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时可以抑制噪音的干扰。

S1424、计算所述标准图像的每个像素的梯度，以得到像素梯度。

在本实施例中，像素梯度是指标准图像的每个像素的梯度。

具体地，计算标准图像的每个像素的梯度包括大小和方向，主要是为了捕获轮廓信息，同时进一步弱化光照的干扰。

S1425、对所述标准图像进行分块以及特征抽取，以得到图片块以及对应的特征。

在本实施例中，图片块以及对应的特征是指将标准图像进行块的切分后，再提取对应的特征形成的结果。

将每张标准图像按照一定像素尺寸(6*6)进行分割划分成一个个窗口小块，然后对小块构成的图进行CNN卷积特征抽取，并将N*M个小块(一般3*3)组成一个block(大的块)，一个block是更大层面的结构语义信息，一个block大快的HOG特征向量是由其内的多个小块特征串联得到；图片的特征提取可采用现有技术执行，此处不再赘述。

S1426、根据所述图片块以及对应的特征计算每帧图片时序间的关联语义信息，以得到肢体语义向量。

在本实施例中，肢体语义向量是指每帧图片时序间的关联语义信息。

具体地，通过计算图片Block块的HOG特征差值、均方差、平均值等信息，获取每个视觉分帧图片间变化或未变化部分语义信息，形成时序分帧信息，并对时序分帧信息进行RNN时序关联信息抽取，从而获取用户肢体行为变化语义向量，即肢体语义向量。

S1427、根据所述肢体语义向量进行分类处理，以得到肢体信息。

在本实施例中，根据肢体语义向量，识别人体通用形态肢体动作，即：摇头、点头、摆手、捂嘴等肢体语言信息，将肢体语义向量进行分类，从而最终识别出了用户肢体行为语言。

对用户语音、肢体行为动作进行了识别，然后将识别的结果行语义处理，并将最终返回信息转化为数字人语音信息和肢体表情行为，从而完成整体交互过程。

S150、对所述语音信息以及所述肢体信息进行语义文本解析，并结合所述智能营销对话逻辑知识库生成响应文本。

在本实施例中，响应文本是指根据语音信息以及所述肢体信息进行语义文本解析的结果结合智能营销对话逻辑知识库生成的答案内容。

经过语音识别和视觉行为肢体动作识别，将用户语音信息和肢体动作信息转化为了语音文本信息。当用户有语音输入时，优先采用语音解析；当用户没有语音输入，则采用肢体行为语义文本进行解析。

在一实施例中，请参阅图7，上述的步骤S150可包括步骤S151～S152。

S151、对所述语音信息以及所述肢体信息进行语义文本解析，以得到语义信息。

在本实施例中，语义信息是指语音信息以及所述肢体信息经过语义文本解析后形成的文本含义。

语义文本解析即进行语义理解，主要是对输入文本先进行分词、实体识别，然后进行句法分析，并在分词和句法分析基础上进行问句情感语态分类和用户意图槽位识别等语义理解操作，目前分词、实体识别与依存句法分析，可采用LTP及Jieba开源语义分析工具，而问句情感语态识别和用户意图操作理解，则主要是根据智能***业务需求采用CNN、RNN等深度模型进行语义分类或抽取识别，此处不再赘述。

S152、根据所述语义信息结合所述智能营销对话逻辑知识库按照对话逻辑状态树进行对话引导或就营销产品信息进行问答，以形成响应文本。

在智能营销过程中，主要是依据整理的智能营销对话逻辑知识库进行解析识别，并根据解析识别出来的语义信息按照对话逻辑状态树进行对话引导，或就营销产品信息进行QA问答。在进行对话解析处理时，需要记忆上下文对话信息、包括上文用户提问、机器人回答、当前对话所在对话逻辑流程位置信息等；而在响应时，则主要是将相关文字、图表或视频信息返回给用户，并且包含对答案的解说词文本信息，其中，解说词信息是实时交互智能数字人***必须返回的数据字段，也是后面进行数字人视觉合成、肢体行为表情动作合成的依据。

当有语义信息后，只需要在智能营销对话逻辑知识库内查询对应的节点，形成响应文本即可，操作方便。

S160、根据所述响应文本进行语音合成和数字人肢体表情合成，以得到交互结果。

在本实施例中，交互结果是指根据响应文本生成的带有语音和数字人肢体表情的内容，可以为视频等。

响应文本则是当前适合反馈给用户最佳答案信息，对于传统的智能问答***就直接最终反馈给了用户，而对于智能数字人营销交互过程则需要根据响应文本的解说词文本信息，合成产生语音及对应的视觉表情肢体信息。

在一实施例中，请参阅图8，上述的步骤S160可包括步骤S161～S163。

S161、根据所述响应文本采用语音合成技术生成语音内容。

在本实施例中，语音内容是指根据响应文本采用语音合成技术形成的语音信息。

语音合成技术是目前较为通用成熟的技术，也有众多开放平台，例如百度、阿里等，可以采用相关API接口。主要经过前端和后端两个模块进行处理。前端模块，主要是对输入文本进行分析，提取后端模块所需要的语言学信息，对于中文合成***而言，前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果，通过一定的方法生成语音波形，后端***一般分为基于统计参数建模的语音合成(或称参数合成)以及基于单元挑选和波形拼接的语音合成(或称拼接合成)。

S162、根据所述响应文本采用视觉合成模型进行肢体表情合成，以得到数字人肢体表情内容。

在本实施例中，数字人肢体表情内容是指响应文本采用视觉合成模型合成的肢体表情。

进行肢体表情合成，也就是进行数字人视觉标签肢体语言合成，主要是对数字人的手、眼、嘴唇等部位进行视觉画面动作生成，而每个部位地动作可以进行简约化处理，例如将手的动作简要规范为：左右时胸前放平、左右手上扬、左右手回拉等；眼的动作可以分为：睁眼、眨眼和微笑等，而唇的动作较为复杂，一般跟当前发音和发音的语气相关。整体而言，上述字体部位的动作是需要协调的，整体上是由当前解说文本决定的，进行视觉表情合成也就可以看成对于某一标准数字形象，在当前解说词条件下，应该产生的行为动作图片序列。

跟语音合成处理类似，先根据正则化、分词、词性预测、多音字消歧、韵律预测等子模块；然后根据音律预测序列，生成***肢体动作，主要是根据音律特征和发音时长信息生成***闭合等形态序列；再次，根据***形态动作去同步预测手、眼、头等部位动作序列；然后原始标准化数字形象，根据动作序列进行图片序列化渲染生成画面帧，由于视觉动作图像前后逻辑具有关联性，因此我们需要当前图片是需要有前面N张图片与当前行为动作共同渲染生成而来。视觉合成，通常采用GAN(生成式对抗网络，Generative AdversarialNetworks)进行，模型通过把复杂表情解构成一个个动作单元(AU)，用一组N个AU对每个表情编码，并对表情进行归一化处理，然后进行表情行为连续表征，在不同表征之间进行自然插值，从而渲染各种逼真、平滑的面部表情。它主要由两部分组成：一个生成器G，一个判别器D，其中生成器负责回归注意力(GA)和生成色彩掩模(GI)，判别器D负责鉴别生成图像逼真与否(DI),并检查表情是否连贯。在整个肢体动作生成过程中，需要弱化头发、帽子或珠宝、衣服等其他元素对模型的干扰，一般标准数字人形象为简化处理都进行单色或无首饰佩戴等，而专注于手、嘴唇、眼睛的肢体动作。

S163、整合所述语音内容以及所述数字人肢体表情内容，以得到交互结果。

根据响应文本解说词，进行语音合成和数字人肢体表情合成。

S170、反馈所述交互结果至终端，以在终端显示所述交互结果。

上述的智能数字人营销交互方法，通过根据各类营销产品素材整理形成智能营销对话逻辑知识库，在交互过程中，根据采集的用户视觉信息转化为语音信息以及肢体信息，且进行语义文本解析，并生成响应文本，再将响应文本形成语音合成和数字人肢体表情合成，反馈给终端，实现能从多模态跟用户交互，提供更为丰富视觉、听觉、文本图表信息，提高最终营销体验和转化率。

图9是本发明实施例提供的一种智能数字人营销交互装置300的示意性框图。如图9所示，对应于以上智能数字人营销交互方法，本发明还提供一种智能数字人营销交互装置300。该智能数字人营销交互装置300包括用于执行上述智能数字人营销交互方法的单元，该装置可以被配置于服务器中。具体地，请参阅图9，该智能数字人营销交互装置300包括素材获取单元301、知识库生成单元302、信息采集单元303、转化单元304、响应内容生成单元305、合成单元306以及反馈单元307。

素材获取单元301，用于获取各类营销产品素材；知识库生成单元302，用于根据所述营销产品素材生成智能营销对话逻辑知识库；信息采集单元303，用于采集用户视觉信息；转化单元304，用于将所述用户视觉信息转化为语音信息以及肢体信息；响应内容生成单元305，用于对所述语音信息以及所述肢体信息进行语义文本解析，并结合所述智能营销对话逻辑知识库生成响应文本；合成单元306，用于根据所述响应文本进行语音合成和数字人肢体表情合成，以得到交互结果；反馈单元307，用于反馈所述交互结果至终端，以在终端显示所述交互结果。

在一实施例中，如图10所示，所述知识库生成单元302包括产品特征抽取子单元3021、形式转化子单元3022、整理子单元3023以及流程整理子单元3024。

产品特征抽取子单元3021，用于对所述营销产品素材进行文档内容的特征抽取，以得到营销产品特征；形式转化子单元3022，用于将所述营销产品特征转化为问句与答案的形式，以得到转化结果；整理子单元3023，用于整理通用常见问答对；流程整理子单元3024，用于采用树形状态图结构根据转化结果以及所述通用常见问答对整理对话逻辑流程，以得到智能营销对话逻辑知识库。

在一实施例中，如图11所示，所述转化单元304包括语音识别子单元3041以及动作识别子单元3042。

语音识别子单元3041，用于对所述用户视觉信息进行语音识别，以得到语音信息；动作识别子单元3042，用于对所述用户视觉信息进行用户肢体动作识别，以得到肢体信息。

在一实施例中，如图12所示，所述语音识别子单元3041包括声音分帧模块30411、预处理模块30412、声音特征提取模块30413、向量转化模块30414、映射模块30415、构建模块30416以及文字转化模块30417。

声音分帧模块30411，用于对所述用户视觉信息内的声音进行分帧，以得到语音帧；预处理模块30412，用于对所述语音帧进行预处理，以得到预处理结果；声音特征提取模块30413，用于对所述预处理结果进行声音特征提取，以得到多维声音特征向量；向量转化模块30414，用于采用声学模型将所述多维声音特征向量转化为音素信息序列；映射模块30415，用于对所述音素信息序列进行因素信息字典映射，以得到映射结果；构建模块30416，用于构建语言模型；文字转化模块30417，用于将多维声音特征向量转化为文字，以得到语音信息。

在一实施例中，如图13所示，所述动作识别子单元3042包括内容分帧模块30421、二值化模块30422、标准化模块30423、梯度计算模块30424、分块模块30425、语义信息计算模块30426以及分类模块30427。

内容分帧模块30421，用于对所述用户视觉信息内的视觉内容进行分帧，以得到若干帧图片信息；二值化模块30422，用于对每帧图片信息进行灰度图二值化处理，以得到处理结果；标准化模块30423，用于对所述处理结果进行标准化处理，以得到标准图像；梯度计算模块30424，用于计算所述标准图像的每个像素的梯度，以得到像素梯度；分块模块30425，用于对所述标准图像进行分块以及特征抽取，以得到图片块以及对应的特征；语义信息计算模块30426，用于根据所述图片块以及对应的特征计算每帧图片时序间的关联语义信息，以得到肢体语义向量；分类模块30427，用于根据所述肢体语义向量进行分类处理，以得到肢体信息。

在一实施例中，如图14所示，所述响应内容生成单元305包括解析子单元3051以及响应子单元3052。

解析子单元3051，用于对所述语音信息以及所述肢体信息进行语义文本解析，以得到语义信息；响应子单元3052，用于根据所述语义信息结合所述智能营销对话逻辑知识库按照对话逻辑状态树进行对话引导或就营销产品信息进行问答，以形成响应文本。

在一实施例中，如图15所示，所述合成单元306包括语音合成子单元3061、表情合成子单元3062以及交互整合子单元3063。

语音合成子单元3061，用于根据所述响应文本采用语音合成技术生成语音内容；表情合成子单元3062，用于根据所述响应文本采用视觉合成模型进行肢体表情合成，以得到数字人肢体表情内容；交互整合子单元3063，用于整合所述语音内容以及所述数字人肢体表情内容，以得到交互结果。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述智能数字人营销交互装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述智能数字人营销交互装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图16所示的计算机设备上运行。

请参阅图16，图16是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图16，该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种智能数字人营销交互方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种智能数字人营销交互方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取各类营销产品素材；根据所述营销产品素材生成智能营销对话逻辑知识库；采集用户视觉信息；将所述用户视觉信息转化为语音信息以及肢体信息；对所述语音信息以及所述肢体信息进行语义文本解析，并结合所述智能营销对话逻辑知识库生成响应文本；根据所述响应文本进行语音合成和数字人肢体表情合成，以得到交互结果；反馈所述交互结果至终端，以在终端显示所述交互结果。

在一实施例中，处理器502在实现所述根据所述营销产品素材生成智能营销对话逻辑知识库步骤时，具体实现如下步骤：

对所述营销产品素材进行文档内容的特征抽取，以得到营销产品特征；将所述营销产品特征转化为问句与答案的形式，以得到转化结果；整理通用常见问答对；采用树形状态图结构根据转化结果以及所述通用常见问答对整理对话逻辑流程，以得到智能营销对话逻辑知识库。

在一实施例中，处理器502在实现所述将所述用户视觉信息转化为语音信息以及肢体信息步骤时，具体实现如下步骤：

对所述用户视觉信息进行语音识别，以得到语音信息；对所述用户视觉信息进行用户肢体动作识别，以得到肢体信息。

在一实施例中，处理器502在实现所述对所述用户视觉信息进行语音识别，以得到语音信息步骤时，具体实现如下步骤：

对所述用户视觉信息内的声音进行分帧，以得到语音帧；对所述语音帧进行预处理，以得到预处理结果；对所述预处理结果进行声音特征提取，以得到多维声音特征向量；采用声学模型将所述多维声音特征向量转化为音素信息序列；对所述音素信息序列进行因素信息字典映射，以得到映射结果；构建语言模型；将多维声音特征向量转化为文字，以得到语音信息。

在一实施例中，处理器502在实现所述对所述用户视觉信息进行用户肢体动作识别，以得到肢体信息步骤时，具体实现如下步骤：

对所述用户视觉信息内的视觉内容进行分帧，以得到若干帧图片信息；对每帧图片信息进行灰度图二值化处理，以得到处理结果；对所述处理结果进行标准化处理，以得到标准图像；计算所述标准图像的每个像素的梯度，以得到像素梯度；对所述标准图像进行分块以及特征抽取，以得到图片块以及对应的特征；根据所述图片块以及对应的特征计算每帧图片时序间的关联语义信息，以得到肢体语义向量；根据所述肢体语义向量进行分类处理，以得到肢体信息。

在一实施例中，处理器502在实现所述对所述语音信息以及所述肢体信息进行语义文本解析，并结合所述智能营销对话逻辑知识库生成响应文本步骤时，具体实现如下步骤：

对所述语音信息以及所述肢体信息进行语义文本解析，以得到语义信息；根据所述语义信息结合所述智能营销对话逻辑知识库按照对话逻辑状态树进行对话引导或就营销产品信息进行问答，以形成响应文本。

在一实施例中，处理器502在实现所述根据所述响应文本进行语音合成和数字人肢体表情合成，以得到交互结果步骤时，具体实现如下步骤：

根据所述响应文本采用语音合成技术生成语音内容；根据所述响应文本采用视觉合成模型进行肢体表情合成，以得到数字人肢体表情内容；整合所述语音内容以及所述数字人肢体表情内容，以得到交互结果。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机***中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述营销产品素材生成智能营销对话逻辑知识库步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述将所述用户视觉信息转化为语音信息以及肢体信息步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述用户视觉信息进行语音识别，以得到语音信息步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述用户视觉信息进行用户肢体动作识别，以得到肢体信息步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述语音信息以及所述肢体信息进行语义文本解析，并结合所述智能营销对话逻辑知识库生成响应文本步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述响应文本进行语音合成和数字人肢体表情合成，以得到交互结果步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.智能数字人营销交互方法，其特征在于，包括：

获取各类营销产品素材；

根据所述营销产品素材生成智能营销对话逻辑知识库；

采集用户视觉信息；

将所述用户视觉信息转化为语音信息以及肢体信息；

反馈所述交互结果至终端，以在终端显示所述交互结果。

2.根据权利要求1所述的智能数字人营销交互方法，其特征在于，所述根据所述营销产品素材生成智能营销对话逻辑知识库，包括：

整理通用常见问答对；

3.根据权利要求1所述的智能数字人营销交互方法，其特征在于，所述将所述用户视觉信息转化为语音信息以及肢体信息，包括：

对所述用户视觉信息进行语音识别，以得到语音信息；

4.根据权利要求3所述的智能数字人营销交互方法，其特征在于，所述对所述用户视觉信息进行语音识别，以得到语音信息，包括：

对所述用户视觉信息内的声音进行分帧，以得到语音帧；

对所述语音帧进行预处理，以得到预处理结果；

构建语言模型；

将多维声音特征向量转化为文字，以得到语音信息。

5.根据权利要求3所述的智能数字人营销交互方法，其特征在于，所述对所述用户视觉信息进行用户肢体动作识别，以得到肢体信息，包括：

对每帧图片信息进行灰度图二值化处理，以得到处理结果；

对所述处理结果进行标准化处理，以得到标准图像；

计算所述标准图像的每个像素的梯度，以得到像素梯度；

根据所述肢体语义向量进行分类处理，以得到肢体信息。

6.根据权利要求1所述的智能数字人营销交互方法，其特征在于，所述对所述语音信息以及所述肢体信息进行语义文本解析，并结合所述智能营销对话逻辑知识库生成响应文本，包括：

7.根据权利要求1所述的智能数字人营销交互方法，其特征在于，所述根据所述响应文本进行语音合成和数字人肢体表情合成，以得到交互结果，包括：

根据所述响应文本采用语音合成技术生成语音内容；

8.智能数字人营销交互装置，其特征在于，包括：

素材获取单元，用于获取各类营销产品素材；

信息采集单元，用于采集用户视觉信息；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。