CN109241924A

CN109241924A - 基于互联网的多平台信息交互***

Info

Publication number: CN109241924A
Application number: CN201811086585.8A
Authority: CN
Inventors: 王友维
Original assignee: Ningbo Zhongxin Network Technology Co Ltd
Current assignee: Ningbo Zhongxin Network Technology Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-01-18

Abstract

本发明公开了基于互联网的多平台信息交互***。这种基于互联网的多平台信息交互***功可以在识别出用户的命令后从云平台获取相应的内容呈现给用户；可以捕捉到用户的头像和声音信息，对其进一步分析可以得到用户的表情以及用户的语音命令，可以很好的对用户的表情和语音命令进行反馈，方便用户的使用；提高多模态人脸情绪识别的准确性，将多模态情绪、脸部属性与自然语言交互信息相结合，针对人脸多模态情感、人脸属性识别与人机交互应对规则的逻辑判断输出适切的回话内容，在多轮对话当中，提供使用者良好的体验功能。

Description

基于互联网的多平台信息交互***

技术领域

本发明涉及人工智能技术领域，特别涉及基于互联网的多平台信息交互***。

背景技术

在现有的人工智能对话***中，利用语料库以及模板来判断用户讲话，对话***通常使用搜索的方式来寻找合适的回答。但是，并没有使用用户的情感当作线索来调整回答策略，除了考量用户情绪外，机器人也应该基于自身的情绪来选择回应的策略。在人与人的自然对话上，情感是一个重要因素，人类会根据对方所表达的情感和自身现有的情感来调整自己的回答策略，达到沟通的效果。

虽然人类在智能化领域已经获得了重大的突破，但是至今为止几乎所有的人工智能***都没有能够拥有识别人类情绪的能力从而使得自身变得更加人性化。比如现在各大手机厂商所宣传的手机语音交互功能，其实都只能做到以完成任务为目的的交流。用户在手机智能助手交流的过程中都仍然会保有一种和机器对话的感觉。

现有的人工智能情感识别技术多专注于图像识别，而图像识别由于硬件的要求较高以及人类面部表情本身的多变性和快速性，使得图像识别技术依旧很难在日常生活中被广泛的应用。而由于语言本身是具有一定的语法结构，并且语言情感识别对硬件要求相对较小，语言情感识别是更具有应用性的一种识别方式。

语言情感识别目前已知的技术多局限于单一维度的情感判断既正向情感和负向情感。对于人类复杂情绪的判断，比如愉快、紧张、害羞还缺乏有效的判断方式。

发明内容

本发明的目的是提供一种能够及时的更新交互功能，以增强与用户的交互体验，可以准确的识别用户的语音信息和表情信息，通过内在的语料库可以对用户进行反馈，从而达到情感陪护的目的的基于互联网的多平台信息交互***。

本发明的上述技术目的是通过以下技术方案得以实现的：

基于互联网的多平台信息交互***，包括多个设备终端和云平台，其特征是：所述云平台用于提供数据存储、大数据分析、视频存储、音频存储及后台服务；通过云平台，用户随时控制查看设备终端的状态，并能与设备终端进行语音、视频通话，使用户随时随地利用该***疏导自己的情绪；所述设备终端包括控制模块、环境传感器模块、情绪模块、电源模块、摄像模块、音响模块、显示操作模块、计算模块及投影模块：

所述控制模块，用于通过所述环境传感器模块及所述情绪模块采集环境信息和/或用户的情绪信息，对采集到的环境信息和/或用户的情绪信息进行结构化预处理，并将结构化预处理后的信息传送到云平台；

所述电源模块，与所述控制模块信号连接，用于为所述控制模块提供能量；

所述摄像模块，与所述控制模块信号连接，用于依据人眼成像的原理采集用户的人脸图像信息，并将该头像信息传送到所述控制模块；

所述音响模块，与所述控制模块信号连接，用于采集用户的声音信息，并将该声音信息传送到所述控制模块；

所述显示操作模块，与所述控制模块信号连接，用于在该提取的关键字是采集情绪信息的指令时显示与该关键字对应的提示信息；

所述计算模块，用于通过实时计算生成相应交互的人脸图像信息，并将所述画面传送到所述投影模块进行展示；

所述投影模块，连接所述控制模块，用于根据所述控制指令，展现所述人脸图像的三维投影效果。

上述的基于互联网的多平台信息交互***，所述环境传感器模块包括用于采集环境信息的体温传感器、血糖传感器、心跳传感器或血压传感器。

上述的基于互联网的多平台信息交互***，情绪模块用于根据所述人脸图像信息、所述声音信息和所述文字信息，对情绪进行判别，确定情绪向量。

上述的基于互联网的多平台信息交互***，所述人脸图像信息包括笑、忧伤、愤怒、吃惊、无表情。

上述的基于互联网的多平台信息交互***，所述控制模块还用于根据用户的表情信息控制所述显示操作模块和所述音响模块执行对应的操作。

上述的基于互联网的多平台信息交互***，所述设备终端还包括无线通信模块，用于实现信息采集和用户情感识别设备与云平台之间的交互。

上述的基于互联网的多平台信息交互***，还包括反馈模块，用于根据回话策略，分析所述情绪向量、所述人脸图像信息和所述文字信息，输出回馈文字。

上述的基于互联网的多平台信息交互***，所述音响模块包括：

ASR模块，用于将所述声音信息转换为文字信息；

TTS模块，用于将所述回馈文字转换为语音信息。

上述的基于互联网的多平台信息交互***，所述投影模块包括：

全息投影单元，用于投射图像，并同时输出每一帧图像所对应的同步信号，包括激光光源、投影芯片、镜头组和全空气薄膜生成器；

显示单元，用于对所述全息投影单元投射的图像漫反射，显示每个观察者所需的图像。

综上所述，本发明具有以下有益效果：这种基于互联网的多平台信息交互***功可以在识别出用户的命令后从云平台获取相应的内容呈现给用户；可以捕捉到用户的头像和声音信息，对其进一步分析可以得到用户的表情以及用户的语音命令，可以很好的对用户的表情和语音命令进行反馈，方便用户的使用；提高多模态人脸情绪识别的准确性，将多模态情绪、脸部属性与自然语言交互信息相结合，针对人脸多模态情感、人脸属性识别与人机交互应对规则的逻辑判断输出适切的回话内容，在多轮对话当中，提供使用者良好的体验功能。

附图说明

图1为本发明的基于互联网的多平台信息交互***的结构示意图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

参阅图1，基于互联网的多平台信息交互***，包括多个设备终端1和云平台2，其特征是：所述云平台2用于提供数据存储、大数据分析、视频存储、音频存储及后台服务；通过云平台2，用户随时控制查看设备终端的状态，并能与设备终端1进行语音、视频通话，使用户随时随地利用该***疏导自己的情绪；所述设备终端1包括控制模块11、环境传感器模块12、情绪模块13、电源模块14、摄像模块15、音响模块16、显示操作模块17、计算模块18及投影模块19：

所述控制模块11，用于通过所述环境传感器模块12及所述情绪模块13采集环境信息和/或用户的情绪信息，对采集到的环境信息和/或用户的情绪信息进行结构化预处理，并将结构化预处理后的信息传送到云平台2，具体而言，结构化预处理是将环境信息和/或用户的情绪信息转换成XML格式；

所述控制模块是整个交互***的核心，采用大量先进的算法，包括人脸识别、情绪识别、语音识别、人工智能、自学习算法，同时该***又有高度的集成性，集成了视频、音频、多种传感器(红外传感器、光线传感器、距离传感器、声波传感器)和控制按钮相关硬件，同时又能控制硬件协调工作；

所述电源模块，与所述控制模块11信号连接，用于为所述控制模块11提供能量；

所述摄像模块15，与所述控制模块11信号连接，用于依据人眼成像的原理采集用户的人脸图像信息，并将该头像信息传送到所述控制模块11，控制模块11用于对摄像模块15采集的头像信息进行处理，以得到深度信息以及用户的彩色图像，对采集到的深度信息和彩色图像进行去冗余处理，以准确地识别出用户的面部状态，并将用户的面部状态与控制模块11中存储的表情库进行匹配，以确定用户的表情信息；

所述音响模块16，与所述控制模块11信号连接，用于采集用户的声音信息，并将该声音信息传送到所述控制模块11，控制模块11用于将该声音信息识别为文字，对文字进行关键字提取，在该提取的关键字是采集健康信息的指令时控制显示模块17显示与该关键字对应的提示信息，以告知用户使用健康传感器执行相应的采集健康信息操作，并在采集结束后显示采集到的结果，在该提取的关键字不是采集健康信息的指令时根据提取的关键字控制网卡从远端的云平台获取对应的内容，并控制显示模块17将该内容显示给用户；

所述显示操作模块17，与所述控制模块11信号连接，用于在该提取的关键字是采集情绪信息的指令时显示与该关键字对应的提示信息；

所述计算模块18，用于通过实时计算生成相应交互的人脸图像信息，并将所述画面传送到所述投影模块19进行展示；

所述投影模块19，连接所述控制模块11，用于根据所述控制指令，展现所述人脸图像的三维投影效果。

其中基于互联网的多平台信息交互***设置于用户家中，且通过云平台与远程客户端通信连接，用于将采集的数据传送到远程客户端，云平台为后台服务器，用于存储与处理家用信息采集和用户情感识别设备采集的数据，远程客户端为诸如手机、笔记本电脑、PDA 的移动终端，可用于远程控制多功能家用信息采集和用户情感识别设备和/ 或查看家用信息采集和用户情感识别设备提供的传感信息。

所述云平台2远程连接至少一个所述设备终端1。设备终端1利用的云平台的概念来对其内部的展示内容进行更新、维护。所有的设备终端1都连入网络中并其展示内容统一由云平台2来管理与维护。

进一步地，本发明基于互联网的多平台信息交互***的较佳的实施例中，所述环境传感器模块12包括用于采集环境信息的体温传感器、血糖传感器、心跳传感器或血压传感器。

进一步地，本发明基于互联网的多平台信息交互***的较佳的实施例中，所述情绪模块13用于根据所述人脸图像信息、所述声音信息和所述文字信息，对情绪进行判别，确定情绪向量。为了进一步提高本实施例基于多模态情绪与脸部属性识别的人机交互方法的准确性，在确定情绪向量时，根据人脸图像、声音信息和文字信息，对情绪进行判别，确定情绪向量，具体采用的算法为机器/深度学习算法，即根据人脸图像、声音信息和文字信息，采用机器/深度学习算法，对情绪进行判别，确定情绪向量，其中，情绪向量为四个。

具体地，本发明实施例基于互联网的多平台信息交互***提供九种情绪的机率预测向量输出，但情绪识别种类不限于本发明实施例基于多模态情绪与脸部属性识别的人机交互方法所提的九种。另外，亦根据三个模态的模型输出的向量特征做融合，以达到综合多模态情感的预测。因此在本发明实施例基于多模态情绪与脸部属性识别的人机交互方法中，我们一共有四个输出的情绪向量。

具体地，本发明实施例基于互联网的多平台信息交互***还具备错字校正检验的功能，将声音信息转换为文字信息之后，根据人脸图像、声音信息和文字信息，对情绪进行判别之前，该方法还能够校正检验文字信息，维持输出信号的准确性，以提高情绪判断和对话回馈的预测效果。

根据人脸图像、声音信息和文字信息，对情绪进行判别，确定情绪向量时，具体实现过程为：根据人脸图像、声音信息和校正检验后的文字信息，对情绪进行判别，确定情绪向量。

根据回话策略，分析情绪向量、人脸属性特征和文字信息，输出回馈文字时，具体实现过程为：根据回话策略，分析情绪向量、人脸属性特征和校正检验后的文字信息，输出回馈文字。

具体地，本发明实施例基于互联网的多平台信息交互***能够结合用户体验数据，输出回馈文字，例如，根据情绪向量、人脸属性特征与文字信息，并根据特定场景下预先搜集的用户体验数据与统计，归纳分析选择语料库中适切的回话内容输出，具体实现过程如下：

输出回馈文字之前，该方法还包括：搜索用户的用户体验数据。

根据回话策略，分析情绪向量、人脸属性特征和文字信息，输出回馈文字时，具体实现过程如下：根据回话策略，分析情绪向量、人脸属性特征、文字信息和用户体验数据，从语料库中匹配目标语料数据，作为回馈文字，进行输出。

进一步地，本发明基于互联网的多平台信息交互***的较佳的实施例中，所述人脸图像信息包括笑、忧伤、愤怒、吃惊、无表情。

进一步地，本发明基于互联网的多平台信息交互***的较佳的实施例中，所述控制模块11还用于根据用户的表情信息控制所述显示操作模块17和所述音响模块16执行对应的操作。如果表情信息是笑，则向用户显示大笑表情，并播放欢快的音乐；如果是忧伤，则向用户显示微笑表情，并播放舒缓的音乐；如果是愤怒，则向用户显示微笑表情，并对用户说话，以平息用户；如果是吃惊，则向用户显示微笑表情，并对用户说话，以抚慰用户，如果用户无表情则不进行反馈。

进一步地，本发明基于互联网的多平台信息交互***的较佳的实施例中，所述设备终端1还包括无线通信模块3，用于实现信息采集和用户情感的设备终端1与所述云平台2之间的交互。通过WiFi或3G、4G等通信技术接入互联网，实现设备终端1与云平台2之间的远程信息交互。特别是WiFi及4G移动通信技术承载音视频流媒体数据实时传输，能够充分利用高带宽、低延迟的特点，实现双向通信，并可调用硬件编解码功能提高效率。而优选方案采用P2P连接，可实现连接无需配置路由器，无需设置IP网络，网络穿透能力强，且一个连接通道即可同时承载控制数据、传感器数据、及流媒体数据。

进一步地，本发明基于互联网的多平台信息交互***的较佳的实施例中，还包括反馈模块14，用于根据回话策略，分析所述情绪向量、所述人脸图像信息和所述文字信息，输出回馈文字。

进一步地，本发明基于互联网的多平台信息交互***的较佳的实施例中，所述音响模块16包括：

ASR模块，用于将所述声音信息转换为文字信息；

TTS模块，用于将所述回馈文字转换为语音信息。

进一步地，本发明基于互联网的多平台信息交互***的较佳的实施例中，所述投影模块19包括：

投影模块19投射引导信息，其中引导信息包括但不限于语言文字、图案、立体引导像等指示性信息：如虚拟人脸、人体或四肢等身体特征或局部身体特征，引导用户做相应生物识别特征信息的采集。

全息投影单元投射的引导人物立体像根据具体实施方式可以是使用者体貌信息再现像，也可以是***设定的人物形象。

为了能够投射立体像，只有采用相干光源，因为相干光源经过干涉可以记录光波的振幅和相位信息，即记录光的全部信息，同样相干光源照射干涉形成的全息图通过衍射便能恢复光的全部信息，从而可以实现立体像的再现。全息干涉条件苛刻，本发明采用计算全息方式，即软件编程方式根据光学相干原理将待显示物体处理成全息图。将全息图显示在投影芯片上，经过激光照射便能投影出立体像，全息衍射的立体像有两个，一虚一实，分别是正负一级衍射像，实像是真实光线汇聚所称，需要有成像介质，即载体，光线落到载体上，经过漫反射，便能从不同地方看见了；虚像是人眼在一定方向上看到但是不能用屏幕即载体接收呈现，其实是光线折射或反射所致，只能在特定方向上看的到。因此根据投影像的物理形成原理不同，本发明的全息投影单元有几种不同实施方式，但不限这些实施方式。

在一个实施例中，如投射虚像，全息投影单元包括激光光源组，投影芯片，镜头组，其中激光光源组包括至少一个激光器，如果需要投射的立体图像颜色是真彩色的，则激光光源组包括能够发射彩色激光的激光器，如由红色激光器和绿色激光器和蓝色激光器组成，如果投射的立体像是单色的，则选择一种颜色激光就可以。投影芯片，起到光栅的作用，受CPU控制，根据具体全息图，进行相应调整与变化。镜头组对像的大小和远近有辅助调节作用。此种实施方式，使用者会在特定方向内看到虚像。

在一个实施例中，如投射实像，需要有成像介质，其中有一种方法是利用特殊技术如超声波干扰法或激光投射，使空气形成一层层成像介质，全息投影单元包括激光光源组，投影芯片，镜头组，空气薄膜制造器，空气薄膜制造器会在指定区域制造投射空气薄膜，使全息投影单元投射的人物立体像显示在空气薄膜上，使用者会看到薄膜上的立体像。其中激光光源组包括至少一个激光器，如果需要投射的立体图像颜色是真彩色的，则激光光源组包括能够发射彩色激光的激光器，如由红色激光器和绿色激光器和蓝色激光器组成，如果投射的立体像是单色的，则选择一种颜色激光就可以。投影芯片，起到光栅的作用，受CPU控制，根据具体全息图，进行相应调整与变化。镜头组对像的大小和远近有辅助调节作用。

同时，同样的投影薄膜也可以是***所提供的全息膜，其结构方式可以有多种。

综上所述，这种基于互联网的多平台信息交互***功可以在识别出用户的命令后从云平台获取相应的内容呈现给用户；可以捕捉到用户的头像和声音信息，对其进一步分析可以得到用户的表情以及用户的语音命令，可以很好的对用户的表情和语音命令进行反馈，方便用户的使用；提高多模态人脸情绪识别的准确性，将多模态情绪、脸部属性与自然语言交互信息相结合，针对人脸多模态情感、人脸属性识别与人机交互应对规则的逻辑判断输出适切的回话内容，在多轮对话当中，提供使用者良好的体验功能。

本实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.基于互联网的多平台信息交互***，包括多个设备终端（1）和云平台（2），其特征是：所述云平台（2）用于提供数据存储、大数据分析、视频存储、音频存储及后台服务；通过云平台（2），用户随时控制查看设备终端的状态，并能与设备终端（1）进行语音、视频通话，使用户随时随地利用该***疏导自己的情绪；所述设备终端（1）包括控制模块（11）、环境传感器模块（12）、情绪模块（13）、电源模块（14）、摄像模块（15）、音响模块（16）、显示操作模块（17）、计算模块（18）及投影模块（19）：

所述控制模块（11），用于通过所述环境传感器模块（12）及所述情绪模块（13）采集环境信息和/或用户的情绪信息，对采集到的环境信息和/或用户的情绪信息进行结构化预处理，并将结构化预处理后的信息传送到云平台（2）；

所述电源模块，与所述控制模块（11）信号连接，用于为所述控制模块（11）提供能量；

所述摄像模块（15），与所述控制模块（11）信号连接，用于依据人眼成像的原理采集用户的人脸图像信息，并将该头像信息传送到所述控制模块（11）；

所述音响模块（16），与所述控制模块（11）信号连接，用于采集用户的声音信息，并将该声音信息传送到所述控制模块（11）；

所述显示操作模块（17），与所述控制模块（11）信号连接，用于在该提取的关键字是采集情绪信息的指令时显示与该关键字对应的提示信息；

所述计算模块（18），用于通过实时计算生成相应交互的人脸图像信息，并将所述画面传送到所述投影模块（19）进行展示；

所述投影模块（19），连接所述控制模块（11），用于根据所述控制指令，展现所述人脸图像的三维投影效果。

2.根据权利要求1所述的基于互联网的多平台信息交互***，其特征是：所述环境传感器模块（12）包括用于采集环境信息的体温传感器、血糖传感器、心跳传感器或血压传感器。

3.根据权利要求1所述的基于互联网的多平台信息交互***，其特征是：所述情绪模块（13）用于根据所述人脸图像信息、所述声音信息和所述文字信息，对情绪进行判别，确定情绪向量。

4.根据权利要求3所述的基于互联网的多平台信息交互***，其特征是：所述人脸图像信息包括笑、忧伤、愤怒、吃惊、无表情。

5.根据权利要求1所述的基于互联网的多平台信息交互***，其特征是：所述控制模块（11）还用于根据用户的表情信息控制所述显示操作模块（17）和所述音响模块（16）执行对应的操作。

6.根据权利要求1所述的基于互联网的多平台信息交互***，其特征是：所述设备终端（1）还包括无线通信模块（3），用于实现信息采集和用户情感的设备终端（1）与所述云平台（2）之间的交互。

7.根据权利要求3所述的基于互联网的多平台信息交互***，其特征是：还包括反馈模块（14），用于根据回话策略，分析所述情绪向量、所述人脸图像信息和所述文字信息，输出回馈文字。

8.根据权利要求1所述的基于互联网的多平台信息交互***，其特征是：所述音响模块（16）包括：

ASR模块，用于将所述声音信息转换为文字信息；

TTS模块，用于将所述回馈文字转换为语音信息。

9.根据权利要求1所述的基于互联网的多平台信息交互***，其特征是：所述投影模块（19）包括：