CN108831450A

CN108831450A - 一种基于用户情绪识别的虚拟机器人人机交互方法

Info

Publication number: CN108831450A
Application number: CN201810286725.XA
Authority: CN
Inventors: 袁兰
Original assignee: A Bird's Eye View Of Intelligent Polytron Technologies Inc In Hangzhou
Current assignee: HANGZHOU MJOYS BIG DATA TECHNOLOGY Co.,Ltd.
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-11-16

Abstract

本发明公开了一种基于用户情绪识别的虚拟机器人人机交互方法，包括：采集用户的每一条语音数据，构建情感数据集，并对采集到的用户语音数据进行情绪类型划分；根据划分后的情绪类型，搭建情绪感知器；将情感数据集划分为训练数据集和测试数据集，利用训练数据集对情绪感知器进行训练；训练完成后，将测试数据集导入情绪感知器，并根据情绪感知器的测试结果，通过情绪引导算法对虚拟机器人的回复话语进行引导和调整。本发明在大数据的支撑下，其情绪识别的准确率大幅提高；能够有效地检测用户情绪并调整虚拟机器人人机交互方式，提升人机交互的积极性和趣味性，从而大幅提升人机交互体验。

Description

一种基于用户情绪识别的虚拟机器人人机交互方法

技术领域

本发明涉及人工智能领域，具体涉及一种基于用户情绪识别的虚拟机器人人机交互方法。

背景技术

传统的人机交互方法，仅仅是机器人针对用户问话的表面意思进行回答，并没有对用户问话中包含的情感信息进行分析，由于无法对用户的情感信息及时进行捕捉从而大大降低了人机交互的积极性。

高兴、伤心、悲观、乐观、厌恶等情绪是用户日常所表现出的最常见的几类情感信息，也是用来评估用户心理活动水平的重要因素。认知心理学研究表明，负面情绪对人的行为动作有消极影响。一个自动识别用户情感的***会在很多领域发挥重大的作用，例如人机交互***通过对用户的负面情绪进行疏导可以让用户的心里恢复平静，避免用户可能产生的过激行为等。

语音数据是一种反映和体现用户情绪的重要方式，通过对语音数据进行分析，可以有效地检测出用户的情绪信息。目前，用于情绪信息检测的语音情感识别方法大多是对音频信息进行简单处理之后，通过高斯混合模型(GMM)分类器对每一类情感数据进行训练和识别，但是这类训练器的准确率往往较低且能表达出的情绪信息量较贫乏，人机交互体验感较差。因此，如何利用深度学习的方法来进行用户智能情绪识别并调整人机交互方式是目前急需解决的技术难题。

发明内容

本发明所要解决的技术问题是现有的情感分类器准确率较低，识别出来的用户情绪信息量有限，人机交互体验感较差。

为了解决上述技术问题，本发明所采用的技术方案是提供一种基于用户情绪识别的虚拟机器人人机交互方法，包括以下步骤：

采集用户的每一条语音数据，构建情感数据集，并对采集到的用户语音数据进行情绪类型划分；

根据划分后的情绪类型，搭建情绪感知器；

将情感数据集划分为训练数据集和测试数据集，利用训练数据集对情绪感知器进行训练；

训练完成后，将测试数据集导入情绪感知器，并根据情绪感知器的测试结果，通过情绪引导算法对虚拟机器人的回复话语进行引导和调整。

优选地，采用TensorFlow搭建情绪感知器，情绪感知器包括输入层和输出层，其中，输入层分为五层，每层均包括多个LSTM单元；输出层采用softmax分类器，用于对用户情绪信息进行分类识别。

优选地，情绪感知器的输出参数为：

E_i＝{H_i,S_i,P_i,O_i,D_i,N_i}

其中，E_i表示情感数据向量；i表示情绪类型识别的样本序列；H,S,P,O,D,N分别表示高兴、伤心、悲观、乐观、厌恶、中性六类情绪类型；

softmax分类器表示为：

其中，i表示情绪类型识别的样本序列；j＝1,…,i；n表示样本大小；

样本特征向量x属于第j个情绪类型的概率为：

优选地，通过编码器将情感数据向量E_i＝{H_i,S_i,P_i,O_i,D_i,N_i}编码为隐向量，通过注意力机制结合情绪感知器模型，引导生成不同的会话，其引导框架具体为：

其中，e_ij＝η(s_i-1,h_j)；η为采用双曲正切函数tanh做激活单元的多层感知器；

情绪感知器输入层的数据集为：

其中，X_i为用户的问话，Y_i为用户的回复，E_i为用户的问话X_i所表述的情绪；

将解码过程信息向量以及用户的问话X_i所表述的情绪E_i嵌入到情绪感知器模型中，其组合权重如下：

定义生成概率：

p(y_i)＝pV(y_i)+pE(y_i)

其中，S_i＝f(y_i-1,s_i-1,C_i,o_i)，v为用户响应的词汇，f为LSTM单元，

优选地，在情绪类型划分前，首先对采集到的每条语音数据分别进行语音识别，并转化成文本向量。

优选地，采用word2vec的方式进行文本转向量。

优选地，情感数据集中的数据结构包括：语言识别后的文本转向量、音频数据、音频的频带能量、短时能量、基音及基音的一阶差分。

优选地，情绪类型划分为高兴、伤心、悲观、乐观、厌恶和中性六种类型。

本发明提出的一种基于用户情绪识别的虚拟机器人人机交互方法，采用基于多层LSTM搭建情绪感知器的深度学习方法对用户情绪进行识别，获得用户语音的基本情绪，最后引导虚拟机器人根据识别出的用户情绪生成回复话语，从而实现虚拟机器人与用户在当前情绪下进行积极对话。本发明在大数据的支撑下，其情绪识别的准确率大幅提高；能够有效地检测用户情绪并调整虚拟机器人人机交互方式，提升人机交互的积极性和趣味性，从而大幅提升人机交互体验。

附图说明

图1为本发明中一种基于用户情绪识别的虚拟机器人人机交互方法流程图；

图2为本发明中基于多层LSTM搭建情绪感知器的深度学习结构。

具体实施方式

为了解决现有的情感分类器准确率较低，识别出来的用户情绪信息量有限，人机交互体验感较差的问题。本发明提出了一种基于用户情绪识别的虚拟机器人人机交互方法，采用基于多层LSTM搭建情绪感知器的深度学习方法对用户情绪进行识别，获得用户语音的基本情绪，最后引导虚拟机器人根据识别出的用户情绪生成回复话语，从而实现虚拟机器人与用户在当前情绪下进行积极对话。本发明在大数据的支撑下，其情绪识别的准确率大幅提高；能够有效地检测用户情绪并调整虚拟机器人人机交互方式，提升人机交互的积极性和趣味性，从而大幅提升人机交互体验。

下面结合说明书附图和具体实施方式对本发明做出详细的说明。

本发明实施例提供了一种基于用户情绪识别的虚拟机器人人机交互方法，如图1所示，包括以下步骤：

S1、采集用户的每一条语音数据，构建情感数据集，并对采集到的用户语音数据进行情绪类型划分,情绪类型具体划分为高兴、伤心、悲观、乐观、厌恶和中性等。

采集日常生活工作中人们在不同场景不同情绪类型下的语音数据，在情绪类型划分前，首先对采集到的每条语音数据分别进行语音识别，并转化成文本向量，其中，文本转向量采用word2vec的方式。

情感数据集中的数据结构包括：语言识别后的文本转向量、音频数据、音频的频带能量、短时能量、基音及基音的一阶差分。

S2、根据划分后的情绪类型，搭建情绪感知器。

具体地，采用TensorFlow(谷歌基于DistBelief进行研发的第二代人工智能学习***)搭建情绪感知器，如图2所示，情绪感知器包括输入层和输出层，其中，输入层总共分为五层，每层均包括512个LSTM单元；输出层采用softmax分类器，用于对用户情绪信息进行分类识别。

情绪感知器的输出参数为：

E_i＝{H_i,S_i,P_i,O_i,D_i,N_i}

其中，E_i表示情感数据向量；i表示情绪类型识别的样本序列；H,S,P,O,D,N分别表示高兴、伤心、悲观、乐观、厌恶、中性六类情绪类型。

softmax分类器可表示为：

则样本特征向量x属于第j个情绪类型的概率为：

S3、将情感数据集划分为训练数据集和测试数据集，利用训练数据集对情绪感知器进行训练。

S4、训练完成后，当情绪感知器的识别准确率达到预设阈值时，将测试数据集导入情绪感知器，观察情绪感知器的测试结果。

将采集到的情感数据集以7：3的比例划分为训练数据集和测试数据集，利用训练数据集对情绪感知器进行训练，检测其性能，其识别准确率具体如表一所示，其测试结果具体如表二所示。

表一、情绪感知器的识别准确率。

测试样本	高兴(％)	伤心(％)	悲观(％)	乐观(％)	厌恶(％)	中性(％)
							高兴	80	1	2	5	2	10
伤心	2	78	12	2	3	3
							悲观	1	3	79	1	2	14
乐观	8	2	2	83	3	2
							厌恶	9	1	1	3	75	11
中性	10	2	3	3	4	78

表二、情绪感知器的测试结果。

由表一分析可知80％左右的情绪能被情绪感知器模型准确分类，而错误分类的样本主要集中在中性情绪类别。上述试验结果表明情绪感知器模型的识别结果是有效、可靠的。

S5、根据情绪感知器的测试结果，通过情绪引导算法对虚拟机器人的回复话语进行调整，引导虚拟机器人回复相应的话语。

具体地，通过编码器将情感数据向量E_i＝{H_i,S_i,P_i,O_i,D_i,N_i}编码为隐向量，通过注意力机制结合情绪感知器模型，引导生成不同的会话，其引导框架具体为：

其中，e_ij＝η(s_i-1,h_j)；η为采用双曲正切函数tanh做激活单元的多层感知器。

情绪感知器输入层的数据集为：

其中，X_i为用户的问话，Y_i为用户的回复，E_i为用户的问话X_i所表述的情绪。

定义生成概率：

p(y_i)＝pV(y_i)+pE(y_i)

本发明不局限于上述最佳实施方式，任何人在本发明的启示下作出的结构变化，凡是与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

Claims

1.一种基于用户情绪识别的虚拟机器人人机交互方法，其特征在于，包括以下步骤：

根据划分后的情绪类型，搭建情绪感知器；

2.如权利要求1所述的基于用户情绪识别的虚拟机器人人机交互方法，其特征在于，采用TensorFlow搭建情绪感知器，情绪感知器包括输入层和输出层，其中，输入层分为五层，每层均包括多个LSTM单元；输出层采用softmax分类器，用于对用户情绪信息进行分类识别。

3.如权利要求2所述的基于用户情绪识别的虚拟机器人人机交互方法，其特征在于，情绪感知器的输出参数为：

E_i＝{H_i,S_i,P_i,O_i,D_i,N_i}

softmax分类器表示为：

样本特征向量x属于第j个情绪类型的概率为：

4.如权利要求3所述的基于用户情绪识别的虚拟机器人人机交互方法，其特征在于，通过编码器将情感数据向量E_i＝{H_i,S_i,P_i,O_i,D_i,N_i}编码为隐向量，通过注意力机制结合情绪感知器模型，引导生成不同的会话，其引导框架具体为：

其中，η为采用双曲正切函数tanh做激活单元的多层感知器；

情绪感知器输入层的数据集为：

定义生成概率：

p(y_i)＝pV(y_i)+pE(y_i)

5.如权利要求1所述的基于用户情绪识别的虚拟机器人人机交互方法，其特征在于，在情绪类型划分前，首先对采集到的每条语音数据分别进行语音识别，并转化成文本向量。

6.如权利要求5所述的基于用户情绪识别的虚拟机器人人机交互方法，其特征在于，采用word2vec的方式进行文本转向量。

7.如权利要求1所述的基于用户情绪识别的虚拟机器人人机交互方法，其特征在于，情感数据集中的数据结构包括：语言识别后的文本转向量、音频数据、音频的频带能量、短时能量、基音及基音的一阶差分。

8.如权利要求1所述的基于用户情绪识别的虚拟机器人人机交互方法，其特征在于，情绪类型划分为高兴、伤心、悲观、乐观、厌恶和中性六种类型。