CN110956142A

CN110956142A - 一种智能交互培训***

Info

Publication number: CN110956142A
Application number: CN201911221001.8A
Authority: CN
Inventors: 朱丙坤; 林砺; 张建辉; 卢凌云; 沈海先; 何雪海; 毛国庆; 覃亚芬
Original assignee: China Pacific Insurance Group Co Ltd CPIC
Current assignee: China Pacific Insurance Group Co Ltd CPIC
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-04-03

Abstract

本发明公开了一种智能交互培训***，包括：虚拟场景引擎(1)，其用于进行实务场景模拟并展现所述模拟实务场景；自然语言处理引擎(2)，其用于对所述模拟实务场景中接收到的自然语言信息进行处理；多模态情感分析引擎(3)，其用于对所述模拟实务场景中接收到的培训输入信息进行建模分析；多维度智能剖析引擎(4)，其与所述自然语言处理引擎、所述多模态情感分析引擎相通讯，并基于所述自然语言处理引擎、所述多模态情感分析引擎的输出结果对培训内容进行分析。本发明利用自然语言处理和计算机视觉技术，能够判断被陪练者表情、微表情、声纹、语义等，进行多维度打分、综合给出陪练结果。本发明使用方便、操作简单、具有极高的商业价值。

Description

一种智能交互培训***

技术领域

本发明属于计算机应用领域，特别涉及一种智能交互培训***。

背景技术

在目前的保险行业中，往往需要保险业务员来向客户介绍不同类型的保险的利弊、性价比，其往往需要保险业务员掌握大量的保险专利知识，保险业务员需要花费大量的时间来学习上岗，通常，在保险业务员上岗之前，还会对保险业务员进行培训。

在现有的保险业务员培训中，大多采用固定的培训时间、地点，由讲师将内容讲授给学员，讲师需要花费大量的时间以及精力去备课、传授相关知识，而保险业务员则需要在短期时间内掌握大量的保险知识，会讲师以及保险业务员带来了很大的困扰以及负担，而这种形式对人力、物力要求很高，而且交互形式单一、培训效果难以追踪。同时，对于保险业务员来说，如何知道其掌握保险相关知识的具体情况往往无法通过专门的检测来得知，只能通过测试、讲师的观察来分析，而无法通过多维度来精确的得知保险业务员的业务能力。

目前在现有的技术中，并没有一种能够解决上述技术问题的技术方案，具体地，缺少一种智能交互培训***。

发明内容

针对现有技术存在的技术缺陷，本发明的目的是提供一种智能交互培训***，包括：

虚拟场景引擎，其用于进行实务场景模拟并展现所述模拟实务场景；

自然语言处理引擎，其用于对所述模拟实务场景中接收到的自然语言信息进行处理；

多模态情感分析引擎，其用于对所述模拟实务场景中接收到的培训输入信息进行建模分析；

多维度智能剖析引擎，其与所述自然语言处理引擎、所述多模态情感分析引擎相通讯，并基于所述自然语言处理引擎、所述多模态情感分析引擎的输出结果对培训内容进行分析；

其中，所述自然语言处理引擎、所述多模态情感分析引擎以及所述多维度智能剖析引擎均分别与所述虚拟场景引擎相连接并通讯。

优选地，还包括：

深度培训挖掘引擎，其与所述多维度智能剖析引擎相通讯，并基于所述多维度智能剖析引擎的输出结果在所述模拟实务场景中触发新的模拟培训内容，其中所述新的模拟培训内容与所述多维度智能剖析引擎的输出结果相适应。

优选地，所述虚拟场景引擎至少包括一VR生成装置，其用于至少根据模拟客户的年龄、性别、职业、家庭结构进行场景模拟，并输出所述模拟实务场景。

优选地，所述多模态情感分析引擎至少包括：

至少一个捕捉装置，其用于捕捉人物微表情和/或声音输入信息；

情感分析引擎，其用于至少根据所述人物微表情和/或声音输入信息进行分析建模。

优选地，所述情感分析引擎通过如下算法进行分析建模：

a.基于深度学习MTCNN算法进行人脸检测和关键点标定；基于标定的关键点进行人脸对齐处理；

b.将标准人脸数据集输入到卷积神经网络进行训练，构建深度表情识别模型：

c.将标准人脸图像输入到所述深度表情识别模型，利用softmax函数确定所述标准人脸图像属于每种表情的概率，取概率值最大的表情为最终的识别结果。

优选地，将标准人脸数据集输入到卷积神经网络进行训练采用h-swish激活函数提高网络的精度，其公式为：

优选地，所述自然语言处理引擎至少包括：

意图识别装置，其用于对所述自然语言进行建模后进行意图预测；

对话管理装置，其用于对所述自然语言对应语义匹配最优答案。

优选地，所述对话管理装置还用于基于所述最优答案开展后续对话。

优选地，所述意图识别装置采用Word2vector算法训练生成词向量模型，并使用Bi-LSTM算法进行意图预测。

优选地，所述多维度智能剖析引擎通过如下算法实现对培训内容进行分析的过程:

i：确定一个或多个单模态数据；

ii：基于多模态深度玻尔兹曼机，进行多模态融合建模，确定多模态融合训练模型；

iii：将一个或多个单模态数据输入至所述多模态融合训练模型，确定一个或多个评价结果。

优选地，所述单模态数据至少包括：

-语调、语义、面部微表情；

-语句的先后顺序逻辑以及知识点覆盖率的完整程度；

-语速、辅助词运用的熟练程度；

-与标准语句的相似度；

-面部移动、身体姿态。

本发明的目的是提供一种智能交互培训***，包括：虚拟场景引擎，其用于进行实务场景模拟并展现所述模拟实务场景；自然语言处理引擎，其用于对所述模拟实务场景中接收到的自然语言信息进行处理；多模态情感分析引擎，其用于对所述模拟实务场景中接收到的培训输入信息进行建模分析；多维度智能剖析引擎，其与所述自然语言处理引擎、所述多模态情感分析引擎相通讯，并基于所述自然语言处理引擎、所述多模态情感分析引擎的输出结果对培训内容进行分析；其中，所述自然语言处理引擎、所述多模态情感分析引擎以及所述多维度智能剖析引擎均分别与所述虚拟场景引擎相连接并通讯。本发明通过人工智能技术赋能培训场景，从替代简单重复的培训开始，利用便捷的app或小程序工具，使业务员可以随时随地的、虚拟业务场景，进行模拟演练；解决传统培训遇到的诸多痛点，逐步将讲师从繁重的培训劳动中解放出来，同时使学员寓教于乐、轻松的接受培训，提升培训的效果。该项目利用自然语言处理和计算机视觉技术，能够判断被陪练者表情、微表情、声纹、语义等，进行多维度打分、综合给出陪练结果。本发明使用方便、操作简单、具有极高的商业价值。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出了本发明的具体实施方式的，一种智能交互培训***的模块连接示意图；

图2示出了本发明的第一实施例的，所述情感分析引擎进行分析建模的具体流程示意图；以及

图3示出了本发明的第二实施例的，所述多维度智能剖析引擎实现对培训内容进行分析的过程的具体流程示意图。

具体实施方式

为了更好的使本发明的技术方案清晰的表示出来，下面结合附图对本发明作进一步说明。

图1示出了本发明的具体实施方式的，一种智能交互培训***的模块连接示意图，本领域技术人员理解，针对现有技术的不足，本发明公开了一种智能交互培训***，包括虚拟场景引擎，其用于进行实务场景模拟并展现所述模拟实务场景，在这样的实施例中，主要通过使用户配带专业的虚拟场景发生装置，例如VR头盔等等，并结合需要进行模拟的内容，创造出一个对话场景，营造出一种正在进行保险业务对话的氛围，以使得用户能够更好的投入到状态中，并更为精准的对用户进行培训交互、训练模拟。在本发明中，主要用于对保险业务员进行培训操作，但结合本发明所记载的技术方案，不仅仅是保险行业，其他培训、授课的机构都可以采用本发明所记载的技术方案，在此不予赘述。

进一步地，所述智能交互培训***还包括自然语言处理引擎，其用于对所述模拟实务场景中接收到的自然语言信息进行处理，所述自然语言处理引擎主要用于对用户的对话内容进行接收并处理，在本发明中，主要通过语义算法匹配、意图预测等等形式来处理，本发明将在后述的具体实施方式中作进一步地描述。

进一步地，所述智能交互培训***还包括多模态情感分析引擎，其用于对所述模拟实务场景中接收到的培训输入信息进行建模分析，本领域技术人员理解，所述培训输入信息不仅仅包括用户的对话语言信息，还包括用户的行为，具体地，包括用户的微表情、用户的面部移动、用户的神态、姿态等等，所述多模态情感分析引擎能够基于上述用户的面部特征输入到模型中进行分析，并得出分析结果。

进一步地，所述智能交互培训***还包括多维度智能剖析引擎，其与所述自然语言处理引擎、所述多模态情感分析引擎相通讯，并基于所述自然语言处理引擎、所述多模态情感分析引擎的输出结果对培训内容进行分析，所述多维度智能剖析引擎能够结合用户的多维度信息进行全面分析，并给出用户每个维度的具体评分、结论以及用户需要注意的、下次需要改进的地方，甚至会针对用户的具体情况创建出另一个培训内容，再次有针对性的对用户进行训练。

在本发明中，主要通过五个维度来对用户进行整体分析，即后述中的单模态数据，其至少包括语调、语义、面部微表情，语句的先后顺序逻辑以及知识点覆盖率的完整程度，语速、辅助词运用的熟练程度，与标准语句的相似度，面部移动、身体姿态，这些将在后述的具体实施例中作进一步的详细描述，在此不予赘述。

进一步地，结合上述实施例，所述自然语言处理引擎、所述多模态情感分析引擎以及所述多维度智能剖析引擎均分别与所述虚拟场景引擎相连接并通讯，即所有的自然语言处理、多模态情感分析以及多维度的智能剖析都需要基于虚拟场景来实现，用户在虚拟场景中模拟实际对话，进而获得语句、语速、特定词、面部表情等特征，进而进行分析。

进一步地，还包括深度培训挖掘引擎，其与所述多维度智能剖析引擎相通讯，并基于所述多维度智能剖析引擎的输出结果在所述模拟实务场景中触发新的模拟培训内容，其中所述新的模拟培训内容与所述多维度智能剖析引擎的输出结果相适应，在这样的实施例中，所述深度培训挖掘引擎主要用于根据业务员画像和历史陪练记结果，挖掘其业务能力“短板”，利用机器学习算法，将提高其“短板”能力的陪练任务，进行智能推荐，已帮助其有的放矢的提高，加速其成长。

优选地，所述虚拟场景引擎至少包括一VR生成装置，其用于至少根据模拟客户的年龄、性别、职业、家庭结构进行场景模拟，并输出所述模拟实务场景，本领域技术人员理解，本发明利用VR等技术，对拟拜访客户的年龄、性别、职业、家庭结构等维度进行业务场景模拟，使模拟场景尽可能贴近业务场景，使业务员提前进入接近实际业务的场景，进行智能培训；具体过程为设置演练场景，学员选择性格类型、客户画像(年龄、性别、家庭结构、收入等)、客户情绪、见面地点、陪练任务等属性，设置业务场景，然后在演练过程中对学员实时进行语音交互，采集声音、面部表情、语义数据等变化，实时给出交互评价建议；并在陪练过程中，提供帮助功能，使学员可以边练边学，及时获得正确答案；在演练任务结束后，根据演练过程中采集的信息，进行语音、表情、语义等多维度，给出综合评分和评级结果，并给出陪练建议；若未完成通过，会提示是否再来一次。

进一步地，所述多模态情感分析引擎至少包括至少一个捕捉装置，其用于捕捉人物微表情和/或声音输入信息，在这样的实施例中，所述捕捉装置可以为摄像机、录像机、麦克风等等用于捕获人物表情、声音的装置，更为具体地，其可以捕捉到人物表情、声音的实时变化。

所述情感多模态情感分析引擎还包括分析引擎，其用于至少根据所述人物微表情和/或声音输入信息进行分析建模，在这样的实施例中，将人物微表情输入到深度表情识别模型，将声音信息输入到声音处理模型，进而得出人物微表情和声音输入信息各自对应的输出结果。

图2示出了本发明的第一实施例的，所述情感分析引擎进行分析建模的具体流程示意图，具体地，包括如下步骤：

首先，进入步骤S101，基于深度学习MTCNN算法进行人脸检测和关键点标定，基于标定的关键点进行人脸对齐处理，本领域技术人员理解，本步骤S101实际上为两个步骤，即首先采用深度学习MTCNN算法(Multi-task convolutional neural network)进行人脸检测和关键点标定，将人脸区域检测与人脸关键点检测放在了一起，它的主题框架类似于cascade。总体可分为P-Net、R-Net、和O-Net三层网络结构，P-Net全称为ProposalNetwork，其基本的构造是一个全连接网络。对上一步构建完成的图像金字塔，通过一个FCN进行初步特征提取与标定边框，并进行Bounding-Box Regression调整窗口与NMS进行大部分窗口的过滤，R-Net全称为Refine Network，其基本的构造是一个卷积神经网络，相对于第一层的P-Net来说，增加了一个全连接层，因此对于输入数据的筛选会更加严格。在图片经过P-Net后，会留下许多预测窗口，我们将所有的预测窗口送入R-Net，这个网络会滤除大量效果比较差的候选框，最后对选定的候选框进行Bounding-Box Regression和NMS进一步优化预测结果，O-Net全称为Output Network，基本结构是一个较为复杂的卷积神经网络，相对于R-Net来说多了一个卷积层。O-Net的效果与R-Net的区别在于这一层结构会通过更多的监督来识别面部的区域，而且会对人的面部特征点进行回归，最终输出五个人脸面部特征点，然后对检测的人脸关键点，进行人脸对齐处理，具体采用两眼、两嘴角和鼻尖5个点进行对齐。

然后，进入步骤S102，将标准人脸数据集输入到卷积神经网络进行训练，构建深度表情识别模型，将标准人脸数据集输入到定义好的卷积神经网络进行训练，构建深度表情识别模型，其中使用了h-swish激活函数，能够有效提高网络的精度，可以参考公式

最后，进入步骤S103，将标准人脸图像输入到所述深度表情识别模型，利用softmax函数确定所述标准人脸图像属于每种表情的概率，取概率值最大的表情为最终的识别结果，softmax函数，也称指数归一化函数，它是一种logistic函数的归一化形式，可以将K维实数向量压缩成范围[0-1]的新的K维实数向量，这些都是目前现有的技术，在此不予赘述。

进一步地，所述自然语言处理引擎至少包括意图识别装置，其用于对所述自然语言进行建模后进行意图预测，而对话管理装置用于对所述自然语言对应语义匹配最优答案，本领域技术人员理解，本发明通过ASR技术、获得业务员的输入语义文本，利用自然语言技术、进行意图识别和对话管理，匹配输入语义对应的答案，本发明包括意图识别模型，所述意图识别模型为多分类模型，拟采用Word2vector算法和Bi-LSTM算法，其中Word2vector算法用于训练生成词向量模型，然后使用Bi-LSTM算法进行意图预测，还包括多轮对话模型，即通过简单的问答，采用FQA问答对方式、进行解决，对于复杂的问题，需要经过多轮对话、进行收集信息，对于这种方式，需要将复杂的问题进行梳理和分类，并根据对话主题、编辑对话剧本和流程，用户的问题，经过意图识别模块后，若为多轮对话场景，则触发多轮对话，并通过对话控制模块、管理对话过程；此过程，拟采用CRF算法进行命名实体识别和实体抽取，进一步地，所述对话管理装置还用于基于所述最优答案开展后续对话。

图3示出了本发明的第二实施例的，所述多维度智能剖析引擎实现对培训内容进行分析的过程的具体流程示意图，本领域技术人员理解，包括如下步骤：

首先，进入步骤S201，确定一个或多个单模态数据，在这样的实施例中，本发明共包括五个单模态数据，其一，语调、语义、面部微表情，此为情感分析，即根据语调、语义、面部微表情进行分析，采集在陪练过程中，业务员的面部表情、头部姿态等图像数据，通过深度学习技术、获得业务员的情绪和专注度的变化；其二，语句的先后顺序逻辑以及知识点覆盖率的完整程度，此为逻辑结构的完整性，即根据回答的先后顺序逻辑，以及知识点的覆盖率来考察；其三，语速、辅助词运用的熟练程度，此为熟练程度，即根据语速、辅助词来识别；其四，与标准语句的相似度，此为准确性，即与标准答案的相似度，进行评价；其五，面部移动、身体姿态，此为专注度，即通过陪练业务员的面部移动、身体姿态来支持。进一步地，综合考虑陪练过程中采集的熟练度(语速、辅助词等)、情感分析(语调、语义、面部微表情)、标准话术的完整性(知识点的覆盖率)、准确性(回答与标准答案的相似度)、专注度(业务员的头部姿态变化)，进行多个维度的打分，综合给出陪练结果。

然后，进入步骤S202，基于多模态深度玻尔兹曼机，进行多模态融合建模，确定多模态融合训练模型，最后，在步骤S203中，将一个或多个单模态数据输入至所述多模态融合训练模型，确定一个或多个评价结果。本领域技术人员理解，对培训过程中，本发明所采集的数据来自语音的语速、语调、语气词模态，面部微表情、身体姿态模态以及语义等多模态，基于多模态深度玻尔兹曼机，进行多模态融合建模，进行多维度剖析陪练结果，多模态的深度玻尔兹曼机通过联合多个模态的深度玻尔兹曼机，可以对输入数据学习到综合这些模态的联合表达。对于某些模态缺失的数据，本发明所公开的模型通过对条件分布进行采样等方法可以进行缺失模态的生成，同样可以得到它的多模态表达。将各单模态数据输入x1,x2,…xn，利用xm＝f(x1,...,xn),进行多模态融合；其中，函数f采用深层玻尔兹曼机(deepBoltzmann machines(DBM))进行设计，将单模态数据映射到一个多模态空间中，进行模型训练、得到概率值；最后，根据概率值对陪练结果进行评价。

本发明主要在以下5个点上，进行了创新，首先，虚拟场景搭建：利用VR技术，对拟拜访客户的年龄、性别、职业、家庭结构等维度进行场景模拟，使模拟场景尽可能贴近业务场景，使业务员提前进入接近实际业务的场景，进行情景训练；然后，智能交互、多模态情感分析，通过语言输入，业务员微表情识别等技术，建模分析培训过程中，表情，声音的变化；再然后，自然语言处理：利用深度学习模型，进行自然语言理解和自然语言理解，进行对话管理；紧接着，结合上述实施例，多维度智能剖析模型，通过5个维度进行融合建模，进行评价，最后，进行智能推送。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种智能交互培训***，其特征在于，包括：

虚拟场景引擎(1)，其用于进行实务场景模拟并展现所述模拟实务场景；

自然语言处理引擎(2)，其用于对所述模拟实务场景中接收到的自然语言信息进行处理；

多模态情感分析引擎(3)，其用于对所述模拟实务场景中接收到的培训输入信息进行建模分析；

多维度智能剖析引擎(4)，其与所述自然语言处理引擎、所述多模态情感分析引擎相通讯，并基于所述自然语言处理引擎、所述多模态情感分析引擎的输出结果对培训内容进行分析；

其中，所述自然语言处理引擎(2)、所述多模态情感分析引擎(3)以及所述多维度智能剖析引擎(4)均分别与所述虚拟场景引擎(1)相连接并通讯。

2.根据权利要求1所述的智能交互培训***，其特征在于，还包括：

深度培训挖掘引擎(5)，其与所述多维度智能剖析引擎(4)相通讯，并基于所述多维度智能剖析引擎(4)的输出结果在所述模拟实务场景中触发新的模拟培训内容，其中所述新的模拟培训内容与所述多维度智能剖析引擎(4)的输出结果相适应。

3.根据权利要求1或2所述的智能交互培训***，其特征在于，所述虚拟场景引擎(1)至少包括一VR生成装置(11)，其用于至少根据模拟客户的年龄、性别、职业、家庭结构进行场景模拟，并输出所述模拟实务场景。

4.根据权利要求1至3中任一项所述的智能交互培训***，其特征在于，所述多模态情感分析引擎(3)至少包括：

至少一个捕捉装置(31)，其用于捕捉人物微表情和/或声音输入信息；

情感分析引擎(32)，其用于至少根据所述人物微表情和/或声音输入信息进行分析建模。

5.根据权利要求4所述的智能交互培训***，其特征在于，所述情感分析引擎通过如下算法进行分析建模：

a.基于深度学习MTCNN算法进行人脸检测和关键点标定，基于标定的关键点进行人脸对齐处理；

6.根据权利要求5所述的智能交互培训***，其特征在于，将标准人脸数据集输入到卷积神经网络进行训练采用h-swish激活函数提高网络的精度，其公式为：

7.根据权利要求1至6中任一项所述的智能交互培训***，其特征在于，所述自然语言处理引擎(2)至少包括：

意图识别装置(21)，其用于对所述自然语言进行建模后进行意图预测；

对话管理装置(22)，其用于对所述自然语言对应语义匹配最优答案。

8.根据权利要求6所述的智能交互培训***，其特征在于，所述对话管理装置还用于基于所述最优答案开展后续对话。

9.根据权利要求7或8所述智能交互培训***，其特征在于，所述意图识别装置采用Word2vector算法训练生成词向量模型，并使用Bi-LSTM算法进行意图预测。

10.根据权利要求1至9中任一项所述的智能交互培训***，其特征在于，所述多维度智能剖析引擎通过如下算法实现对培训内容进行分析的过程: