CN111695442A

CN111695442A - 一种基于多模态融合的在线学习智能辅助***

Info

Publication number: CN111695442A
Application number: CN202010435498.XA
Authority: CN
Inventors: 解仑; 张秋瑜; 徐涛; 王志良; 王先梅
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-22

Abstract

本发明提供一种基于多模态融合的在线学习智能辅助***，包括：学习图形界面模块，用于提供用户在线学习界面；数据采集及可视化模块，用于采集用户的多模态情感数据，并将采集的多模态情感数据进行图形化显示；数据分析处理模块，用于对采集的多模态情感数据进行分析处理，得到用户的情感类型和气质类型；学习反馈模块，用于根据用户不同的情感类型实施相应的学习干预；学习策略调整模块，用于根据用户不同的气质类型调整用户的学习策略。本发明能够增强用户在线学习过程中的交互感和体验，从而进一步提升在线学习的学习效果。

Description

一种基于多模态融合的在线学习智能辅助***

技术领域

本发明涉及智能服务及网络教育技术领域，特别涉及一种基于多模态融合的在线学习智能辅助***。

背景技术

随着信息技术在教育领域的不断应用，教育模式和教育方法不断发生变革。在线学***台如雨后春笋般相继涌出。网上学习不受年龄、时间、地区的影响，可以接收到各种优秀课程资源。相较于传统课堂教学，网上学习有利于培养学生自主学习、自主探索的能力。但是网上学习是一种师生、教学之间的时空分离状态，通常老师无法掌握学生的学习状态，对于自律能力不强的学生，容易出现学习效率不高的问题。通常，老师是通过学生学习时的面部表情来判断学生的学习状态和对该课程知识的感兴趣程度，因此，在智慧教育中要解决的关键问题是实现对学习者的学习情绪检测与识别。

情感识别研究的重要基础是有一个合适的情感特征，当前学者对各种单一模态的情感识别研究较多，而对两种情感模态以上的情感特征关注较少。情感识别的实质就是在上述情感载体中提取出特征，并给出其中隐藏的情感信息。当前很多情感识别的方法都只依赖于面部表情，这种仅仅依据单一载体传递的信息来识别情感的方式称为单模态情感识别，然而这种情感识别往往是片面的，主要原因在于情感表达方式的多样性。比如人们在愉悦时，除了表现在面部嘴角上扬，面部肌肉放松外，说话的音调也会稍稍提高，音色会变得轻快。因此，单个模态传递的信息缺乏完整性，成熟的情感识别需要各个模态之间的相互融合。借助深度学习的方法，可以实现自适应地特征提取，避免重复劳动，在一定程度上提高情感识别的效率。

发明内容

本发明的目的在于提供一种基于多模态融合的在线学习智能辅助***，解决现有技术中情感识别模式单一的问题，提高情感识别效率，从而提升用户在线学习的交互感和体验。

为解决上述技术问题，本发明的实施例提供如下方案：

一种基于多模态融合的在线学习智能辅助***，包括：

学习图形界面模块，用于提供用户在线学习界面，所述用户在线学习界面包括用户登录界面、用户个人空间界面、学习内容界面；

数据采集及可视化模块，用于采集用户的多模态情感数据，并将采集的多模态情感数据进行图形化显示；所述多模态情感数据包括表情信号数据、生理信号数据和眼动信号数据；

数据分析处理模块，用于对采集的多模态情感数据进行分析处理，得到用户的情感类型和气质类型；

学习反馈模块，用于根据用户不同的情感类型实施相应的学习干预，所述学习干预包括给予鼓励、学习流程调整、学习难度优化；

学习策略调整模块，用于根据用户不同的气质类型调整用户的学习策略，包括学习资源调整和学习方式调整。

优选地，所述数据采集及可视化模块包括：

摄像头，用于采集用户的表情信号数据；

可穿戴式生理传感器，用于采集用户的生理信号数据；

眼动仪，用于采集用户的眼动信号数据。

优选地，所述数据分析处理模块包括：

生理信号数据处理单元，用于对采集到的生理信号数据进行预处理和时频域特征提取，再利用其时频域特征通过自编码神经网络获取生理信号数据的高层特征；所述生理信号数据包括：皮肤导电性信号数据、心电信号数据、血容量脉冲信号数据；

表情信号数据处理单元，用于对采集到的表情信号数据进行预处理并提取卷积神经网络特征，之后利用自编码神经网络进行选择和融合，得到表情信号数据的高层特征；

多模态特征融合单元，用于利用自编码神经网络对生理信号数据的高层特征和表情信号数据的高层特征进行学习，实现两个模态特征的融合，获取用于分类的多模态融合特征，得到用户的情感类型；

眼动信号数据处理单元，用于对采集的眼动信号数据进行分析处理，得到用户的气质类型。

优选地，对采集到的生理信号数据进行预处理包括：提取出生理信号数据的中值、均值、最小值、最大值、范围、标准差、方差作为统计特征；从信号分析角度，提取信号幅度、偏度、峰度、频谱能量作为频谱特征；根据信号频率特性，提取特定个数的包络极大值点作为补充特征；

对采集到的表情信号数据进行预处理包括帧处理及人脸检测；

所述多模态特征融合单元所选取的自编码神经网络能够分别融合来自每一种模态的不同特征，通过自编码神经网络结构对不同模态的生理信号数据的内部特征进行信息压缩，以减少后续分类网络的结构复杂性和计算量。

优选地，所述眼动信号数据处理单元具体用于：

对于采集的原始眼动信号数据，每个数据点被识别为一个时间标签和坐标的形式发送到数据库中；

对原始眼动信号数据进行预处理，包括检验采样点是否有效，剔除没有眼动位置数据的点，剔除仅记录了一只眼睛且无法识别是左眼还是右眼的数据点，以及剔除无法得到最终凝视点的数据点；

将处理后的有效数据通过卷积神经网络提取相应特征，再通过支持向量机判断出气质类型。

优选地，所述情感类型包括：非常积极、比较积极、平静、比较消极、非常消极；

所述学习反馈模块具体用于：

当用户当前情感类型为比较积极或非常积极时，给予奖赏或不作为；

当用户当前情感类型为比较消极或非常消极时，给予鼓励；

对于情感类型长时间处于比较消极或非常消极的用户，在其原本学习流程中***休息放松时间段或更改其学习资源难度；

当用户当前情感类型为平静时，保持当前学习流程。

优选地，所述气质类型包括：胆汁质、多血质、黏液质、抑郁质；

所述学习策略调整模块具体用于：

根据用户不用的气质类型、学习过程中对于不同类型学习素材的关注程度、以及不同的学习习惯对其学习策略进行调整；

其中，所述学习资源调整包括：在文字类资源、视频类资源、音频类资源之间进行调整；

所述学习方式调整包括：在认知型学习方式和记忆型学习方式之间进行调整。

优选地，所述学习策略调整模块对用户不用的气质类型所对应的优势学习方式、学习过程中对于不同类型学习素材的关注程度、以及用户不同的学习习惯三项特征赋予不同的权重，根据每项特征的权重值判定不同学习资源推送的概率，并根据用户阶段性反馈动态调整权重，最终确定对于不同用户特定的且稳定的学习策略。

优选地，所述学习策略调整模块还用于将调整后的学习策略数据化存储于云端数据库中，并与用户信息绑定。

本发明的上述方案至少包括以下有益效果：

本发明通过采集用户多模态情感信号，分析信号数据并提取特征，进而分析用户的情感状态，对用户的感知难度进行持续性的机器学习监督，给予学习者恰当的学习反馈与学习干预，保证用户对学习难度和压力的感知在最优难度梯度。并且，本发明可以动态调整学习策略以符合用户自身的学习习惯和擅长的学习方式，由此增加用户在线学习过程中的交互感和体验，从而进一步提升在线学习的学习效果。相较于使用单一识别技术的情感计算***，本发明所提出的***具有更好的抗干扰性。

附图说明

图1是本发明实施例提供的在线学习智能辅助***的结构示意图；

图2是本发明实施例提供的在线学习智能辅助***的工作流程图；

图3是本发明实施例提供的在线学习智能辅助***的具体实现框架示意图；

图4是本发明实施例中多模态特征融合模型图；

图5是本发明实施例中学习策略调整流程示意图。

附图标记说明：1-学习图形界面模块；2-数据采集及可视化模块；3-数据分析处理模块；4-学习反馈模块；5-学习策略调整模块。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例提供了一种基于多模态融合的在线学习智能辅助***，如图1所示，该***包括：

学习图形界面模块1，用于提供用户在线学习界面，所述用户在线学习界面包括用户登录界面、用户个人空间界面、学习内容界面等；

数据采集及可视化模块2，用于采集用户的多模态情感数据，并将采集的多模态情感数据进行图形化显示；所述多模态情感数据包括表情信号数据、生理信号数据和眼动信号数据；

数据分析处理模块3，用于对采集的多模态情感数据进行分析处理，得到用户的情感类型和气质类型；

学习反馈模块4，用于根据用户不同的情感类型实施相应的学习干预，所述学习干预包括给予鼓励、学习流程调整、学习难度优化等；

学习策略调整模块5，用于根据用户不同的气质类型调整用户的学习策略，包括学习资源调整和学习方式调整等。

其中，学习图形界面模块1为终端用户使用，用户的所有学习过程均发生在该模块。学生首先通过输入自己的姓名和学号进行注册和登录进入***。用户登录账号并填写基本资料输入到用户数据库中储存，以便于之后每位用户在学习过程中产生的数据相对应。登录成功后，进入个人空间，可以看到用户的基本个人信息，之后用户可自主选择想要学习的课程开始学习。

数据采集及可视化模块2包括：

摄像头，用于采集用户的表情信号数据；可穿戴式生理传感器，用于采集用户的生理信号数据；眼动仪，用于采集用户的眼动信号数据。

本发明所述在线学习智能辅助***的工作流程如图2所示。首先，用户进入***后进行登录、填写基本信息、选择学习内容、选择自身学习习惯等操作，所有数据保存至云端用户资料数据库中。开始学习前，用户佩戴可穿戴式生理传感器，眼动仪，并调试高清摄像头使其可清楚捕获用户面部表情。

课程开始后各数据采集设备开始数据采集，可穿戴式生理传感器会随着课程的开始自动开始采集用户生理信号数据，包括但不限于心率、皮肤电信号、血容量搏动信号；摄像头录制视频后对视频进行处理得到图像序列，并添加时间标记，实时显示摄像头捕获图像；眼动仪捕获用户眼动信号，同样显示于摄像头捕获图像。获取的原始数据通过无线传送模式发送至后台对采集到的数据进行处理，并将接收到的数据备份至数据库。对采集到的数据进行分析处理后，得出用户当前的情感类型和用户的气质类型，根据得到的情感类型和气质类型对学习***进行反馈调整。

进一步地，数据分析处理模块3包括：

生理信号数据处理单元，用于对采集到的生理信号数据进行预处理和时频域特征提取，再利用其时频域特征通过自编码神经网络(SAE)获取生理信号数据的高层特征；所述生理信号数据包括：皮肤导电性信号(GSR)数据、心电信号(ECG)数据、血容量脉冲信号数据(BVP)；

其中，对采集到的生理信号数据进行预处理包括：提取出生理信号数据的中值、均值、最小值、最大值、范围、标准差、方差等作为统计特征；从信号分析角度，提取信号幅度、偏度、峰度、频谱能量等作为频谱特征；根据信号频率特性，提取特定个数的包络极大值点作为补充特征；

对采集到的表情信号数据进行预处理包括帧处理及人脸检测，具体包括：找出视频中每帧图像的脸部轮廓，对于一段视频流首先需要对视频进行分帧处理，得到一帧帧视频图片。对于人脸检测：直接对帧图像进行识别，图像中其他物体可能会对识别对象造成一些不必要的影响，而且图像的维度也较大；对帧图像进行人脸检测，将检测到的人脸图像进行识别，可以使分类算法不受其他无关信息的干扰，同时可以起到降维的作用；

进一步地，所述眼动信号数据处理单元具体用于：

将处理后的有效数据通过卷积神经网络提取相应特征，再通过支持向量机(SVM)判断出气质类型。

眼动仪可检测到用户的眼跳过程，眼跳过程能反映人对行为的控制特点。在完成需要更多资源的眼跳任务时，视觉***的反应速度会减慢，会出现更多错误。将眼动仪收集到的数据通过卷积神经网络提取相应特征，再通过SVM可判断其气质类型。

图3是本发明实施例提供的在线学习智能辅助***的具体实现框架示意图。具体包括应用层、感知层、服务层、数据分析层以及数据库五个部分。

所述应用层为终端用户使用，所有其他层提供的服务均为应用层所用，应用层以客户端形式呈现，用户的所有学习过程均发生在应用层。同时，将多模态数据可视化，方便体现用户实时学习状态。

所述感知层用于感知学习者的多模态行为，获取学习者的原始数据，为下层服务提出数据基础，包括生理信号采集设备、表情信号采集设备和眼动信号采集设备。可穿戴式生理传感器采用Empatica公司的E4腕带，随着课程的开始自动开始采集用户生理信号，包括但不限于心电信号、皮肤电信号、血容量搏动信号。高清摄像头采用罗技c920e摄像设备，支持1080p，30fps视频录制。眼动仪采用Tobii Pro Nano眼动仪，支持60Hz采样率，专为基于注视行为的研究而设计。随着课程的开始自动开始采集图像信号和眼动信号。

所述服务层负责常规的数据传输管理以及反馈信息管理并通过接口为其他层提供服务，服务层在整个***框架中起到了承上启下的作用，接收来自感知层的原始数据并传递给数据分析层，接收来自数据分析层的反馈信息并从数据库调取所需数据传递给应用层。服务层是各个模块之间通信渠道，也是***应用在服务器端的载体。

所述数据分析层是***处理数据的核心所在。其中，生理信号数据处理：对采集到的多种生理信号数据进行预处理和时频域特征提取，再利用其时频域特征通过自编码神经网络来获取生理信号数据的高层特征；表情信号数据处理：对采集到的表情信号数据(视频数据)进行帧处理、人脸检测等，再提取CNN特征，最后利用自编码神经网络将这两种特征进行选择和融合，得到表情信号数据的高层特征；多模态特征融合：将高层生理特征和高层表情特征利用自编码神经网络来进行学习，实现两个模态特征的融合，同时去除模态之间的冗余信息，得到用于分类的多模态融合特征；眼动信号处理：由用户在学习时的眼动信号得出用户的气质类型。

所述数据库统一管理***中的数据资源，为各层提供基础数据保障。其中，用户数据库用于存储用户的注册登录信息、个人课程信息、个人学习情况、情感数据、个人学习习惯、个人学习策略方案等数据。学习资料库用于存储各类型学习资料。

在本发明中，所述自编码神经网络(SAE)是一种无监督学习网络，它是让输出数据尽可能来重构输入数据。其输入和输出数据之间有一层隐含层，而且输出和输入层的神经单元个数是一样的。如果隐含层的神经单元数少于输入层，那么用这个模型学到的就是输入数据的压缩表示，相当于对输入数据进行降维。

进一步地，栈式自编码神经网络是由多层稀疏自编码器组成的神经网络模型，即前一个自编码器的输出作为后一个自编码器的输入。假设有一个n层栈式自编码神经网络，假定W^(k，1)，W^(k，2)，b^(k，1)，b^(k，2)表示的是第k个自编码器对应的权重和偏置，对于栈式自编码神经网络主要可以分为两个过程：

编码阶段，即信息从前向后传播：

a^(l)＝f(z^(l))

z^(l+1)＝W^(l，1)a^(l)+b^(l，1)

解码阶段，即信息从后向前传播：

a^(n+l)＝f(z^(n+l))

z^(n+l+1)＝W^(n-l，2)a^(n+l)+b^(n-l，2)

其中，a⁽ⁿ⁾是最深的隐藏单元的激活值，该值表示对特征的更高的抽象，可以将该值作为分类器的特征，将栈式自编码神经网络应用于分类中。

图4是本发明实施例中多模态特征融合模型图。多模态特征融合的模型，主要分为四部分。

第一部分是对三种生理信号数据进行预处理和时频域特征提取，再使用自编码神经网络利用这三种信号的时频域特征来获取生理信号数据的高层特征。

第二部分首先对表情信号数据进行帧处理、人脸检测等，再使用卷积神经网络提取CNN特征，最后利用自编码神经网络将这两种特征进行选择和融合，得到表情信号数据的高层特征。

第三部分是利用栈式自编码神经网络将多种生理信号数据和表情信号数据的不同特征分别进行融合，得到每种模态的统一高层表示特征，栈式自编码神经网络结构中包含了两个隐藏层，将多模态特征输入SAE进行训练，当网络结构达到稳定之后，取SAE最后一个隐藏层的输出作为接下来的输入，由于隐藏层的神经元个数远远小于输入层的神经元个数，从客观上就达到了信息压缩的效果，从而简化了后续分类网络的结构。然后再次采用自编码神经网络模型，从这两个模态的统一高层特征中获得多模态特征，从而实现了利用自编码神经网络模型直接进行特征选择和融合。之后融合特征输入SVM进行分类。

使用SVM对多模态融合特征进行分类，得到不同的情感类型识别结果，包括：非常积极、比较积极、平静、比较消极、非常消极。

进一步地，学习反馈模块4具体用于：

当用户当前情感类型为比较消极或非常消极时，给予鼓励；

当用户当前情感类型为平静时，保持当前学习流程。

所述气质类型，是指每一类人共同具有的各种气质特征的有规律的结合。分为四类：胆汁质、多血质、黏液质、抑郁质。

进一步地，学习策略调整模块5具体用于：

此外，还包括学习阶段调整如练习测试频率、小结知识量等，此处不再赘述。

具体地，学习策略调整模块5对用户不用的气质类型所对应的优势学习方式、学习过程中对于不同类型学习素材的关注程度、以及用户不同的学习习惯三项特征赋予不同的权重，根据每项特征的权重值判定不同学习资源推送的概率，并根据用户阶段性反馈动态调整权重，最终确定对于不同用户特定的且稳定的学习策略。

进一步地，学习策略调整模块5还用于将调整后的学习策略数据化存储于云端数据库中，并与用户信息绑定。

具体地，所述学习素材类型包括表现类型和内容类型。表现类型的学习素材包括：图表类素材，文字类素材，音频类素材，视频类素材等。内容类型的学习素材包括：概念讲解类素材，例题类素材，思考题类素材等。将这些类型以标签的形式标记到云端数据库中的教学资料上，对教学资料进行***性分类，能够方便后续学习策略调整时进行准确调用。

所述认知型学习方式分为冲动型、中间型、思考型。其中，中间型的学习方式多血质的人较有优势，而其他三种气质的人则没有明显的区别。思考型的学习方式抑郁质的人占有优势而胆汁质的人在这方面明显较差。冲动型的学习方式多血质的人较有优势，而黏液质与抑郁质则不采用此学习方式。

所述记忆型学习方式分为听觉型、中间型、视觉型。其中，中间型的学习方式各气质之间没有明显的区别，只是黏液质与抑郁质的人略占优势，而胆汁质的人略占劣势。听觉型的学习方式多血质的人占有明显优势。视觉型的学习方式多血质与黏液质的人占优势，而胆汁质的人在这方面是最差的。

***根据用户不同的气质类型从云端数据库中选择适合各类型的学习资料组建每位用户对应的学习资料库。胆汁质的人学习时不论是记忆型还是认知型均采用中间型，其对应的学习资料在表现类型上和内容类型上均衡；多血质的人学习时记忆以听觉为主，但在认知过程中应避免冲动型的考虑不周、错误较多的缺点，其对应的学习资料在表现类型上以音频资料为主和，在内容类型上以概念讲解为主；黏液质的人学习时记忆以视觉及中间型为主，尽量避免采用听觉记忆，认知过程以思考型与中间型为主，其对应的学习资料在表现类型上以图表类资料为主和在内容类型上以例题为主；抑郁质的人学习时记忆以中间型为主，认知过程以思考为主，其对应的学习资料在表现类型上均衡，在内容类型上以例题和思考题为主。由此发挥优势、避免劣势，在学习过程中得到事半功倍的结果。

图5是本发明实施例中学习策略调整流程示意图。用户进行注册时会以问卷形式调查用户自身以往的学习习惯，如更习惯于音频类学习素材还是视频类学习素材，更习惯于了解知识点的概念还是例题的讲解。根据用户所填写的问卷答案形成学习习惯特征值。用户开始学习课程内容后，眼动仪按采样率来采集眼动原始数据，通过原始数据分析出用户对不同学习素材的注视次数、每次注视时长，统计对于不同学习素材的注视程度比例，并根据比例得出用户对于不同学习素材的关注程度，形成关注程度特征值。同时，对原始眼动信号进行预处理并将处理后的有效数据通过卷积神经网络提取相应特征，再通过SVM判断其气质类型。根据用户气质类型得出用户优势学习方式，形成学习方式特征值。对三个特征值赋予初始权重，根据不同的权重得出后续不同学习资源的推送概率。根据概率值从云端数据库选择相应标签的学习资料对用户后续学习策略进行动态调整。

当每一个学习阶段结束后，对用户进行提问试调查，如用户满意当前学习策略，则继续后续学习阶段。如用户不满意当前学习策略，则根据用户的反馈对特征权重进行调整，在后续的学习阶段中更新学习策略，最终确定对于不同用户特定的且稳定的学习策略，并将其数据化存储于云端用户数据库中与用户信息绑定。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多模态融合的在线学习智能辅助***，其特征在于，包括：

2.根据权利要求1所述的在线学习智能辅助***，其特征在于，所述数据采集及可视化模块包括：

摄像头，用于采集用户的表情信号数据；

可穿戴式生理传感器，用于采集用户的生理信号数据；

眼动仪，用于采集用户的眼动信号数据。

3.根据权利要求1所述的在线学习智能辅助***，其特征在于，所述数据分析处理模块包括：

4.根据权利要求3所述的在线学习智能辅助***，其特征在于，对采集到的生理信号数据进行预处理包括：提取出生理信号数据的中值、均值、最小值、最大值、范围、标准差、方差作为统计特征；从信号分析角度，提取信号幅度、偏度、峰度、频谱能量作为频谱特征；根据信号频率特性，提取特定个数的包络极大值点作为补充特征；

5.根据权利要求3所述的在线学习智能辅助***，其特征在于，所述眼动信号数据处理单元具体用于：

6.根据权利要求1所述的在线学***静、比较消极、非常消极；

所述学习反馈模块具体用于：

当用户当前情感类型为比较消极或非常消极时，给予鼓励；

当用户当前情感类型为平静时，保持当前学习流程。

7.根据权利要求1所述的在线学习智能辅助***，其特征在于，所述气质类型包括：胆汁质、多血质、黏液质、抑郁质；

所述学习策略调整模块具体用于：

8.根据权利要求7所述的在线学习智能辅助***，其特征在于，所述学习策略调整模块对用户不用的气质类型所对应的优势学习方式、学习过程中对于不同类型学习素材的关注程度、以及用户不同的学习习惯三项特征赋予不同的权重，根据每项特征的权重值判定不同学习资源推送的概率，并根据用户阶段性反馈动态调整权重，最终确定对于不同用户特定的且稳定的学习策略。

9.根据权利要求8所述的在线学习智能辅助***，其特征在于，所述学习策略调整模块还用于将调整后的学习策略数据化存储于云端数据库中，并与用户信息绑定。