CN113729707A - 一种基于fecnn-lstm的眼动和ppg多模态融合的情感识别方法 - Google Patents

一种基于fecnn-lstm的眼动和ppg多模态融合的情感识别方法 Download PDF

Info

Publication number
CN113729707A
CN113729707A CN202111037434.5A CN202111037434A CN113729707A CN 113729707 A CN113729707 A CN 113729707A CN 202111037434 A CN202111037434 A CN 202111037434A CN 113729707 A CN113729707 A CN 113729707A
Authority
CN
China
Prior art keywords
data
ppg
eye movement
features
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111037434.5A
Other languages
English (en)
Inventor
陶小梅
陈心怡
周颖慧
鲍金笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Technology
Original Assignee
Guilin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Technology filed Critical Guilin University of Technology
Priority to CN202111037434.5A priority Critical patent/CN113729707A/zh
Publication of CN113729707A publication Critical patent/CN113729707A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B3/00Apparatus for testing the eyes; Instruments for examining the eyes
    • A61B3/10Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
    • A61B3/11Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for measuring interpupillary distance or diameter of pupils
    • A61B3/112Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for measuring interpupillary distance or diameter of pupils for measuring diameter of pupils
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B3/00Apparatus for testing the eyes; Instruments for examining the eyes
    • A61B3/10Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
    • A61B3/113Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for determining or recording eye movement
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/024Detecting, measuring or recording pulse rate or heart rate
    • A61B5/02416Detecting, measuring or recording pulse rate or heart rate using photoplethysmograph signals, e.g. generated by infrared radiation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1103Detecting eye twinkling
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7203Signal processing specially adapted for physiological signals or for diagnostic purposes for noise prevention, reduction or removal
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/725Details of waveform analysis using specific filters therefor, e.g. Kalman or adaptive filters
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Surgery (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Physiology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ophthalmology & Optometry (AREA)
  • Cardiology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Dentistry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种基于FECNN‑LSTM的眼动和PPG多模态融合的情感识别方法。包括:通过观看学习视频刺激材料,利用眼动跟踪技术和光电容积脉搏波描记的容积测量方法,获得学习者的瞳孔直径、眨眼、注视和眼跳等眼动信息以及心率值,心率变异性,峰值间期信号。研究在线学习过程中学习者情感状态与眼动生理信号的关系。计算并使用主成分分析法选取与学习者情感状态最相关的眼动特征、心率特征、心率变异性特征和峰值间期特征。再进行特征层融合生成浅层特征,归一化处理后,再用FECNN网络提取深层特征,再将得到的深层特征和浅层特征进行特征层融合后采用长短时记忆网络LSTM和随机森林RF,K近邻KNN,多层感知机MLP和支持向量机SVM进行感兴趣,困惑,无聊,高兴四种情感分类。

Description

一种基于FECNN-LSTM的眼动和PPG多模态融合的情感识别 方法
本研究得到国家自然科学基金项目(编号:61906051)、广西自然科学基金项目(编号:2018GXNSFBA050029)和桂林理工大学博士科研启动基金(GUTQDJJ2005015)资助
技术领域
本发明涉及情感识别领域,尤其涉及一种针对视频学习的基于眼动和PPG多模态信号分析融合并使用长短时记忆网络的情感识别方法。
背景技术
随着人工智能的快速发展,情感智能也逐渐受到研究者的重视。情感计算是赋予计算机识别,理解,表达和适应人情感的能力,使其能够感知用户的情感状态,适时做出正确的响应。情感识别是情感计算研究的关键问题之一,对人机交互等各种不同场景下都具有重要意义。当前的情感识别研究主要有:采用语音,文本,人脸表情,生理信号(如:脑电EEG,皮肤电EDA,肌电EMG,光电脉搏信号PPG等)以及多模态信号融合进行情感识别等。其中人脸表情和语音等是外在表现,容易被隐藏或者伪装。相比之下,生理信号的变化由人体生理***自发产生,不受个人主观意愿控制,能为情感识别提供准确可靠的依据。此外,随着科学技术的发展,采集生理信号的设备日渐完善,具有便于携带,非侵入式,信号稳定的特点,因此基于生理信号的情感识别研究具有很大的实用价值。但是选取合适的情感特征以及分类方法还需要进一步研究。
PPG是一种叫做光电容积脉搏波描记的容积测量方法,通过光学技术测量血流速率以及血液中容量的变化。心率(Heart Rate,HR)、心搏间期和心率变异性(Heart RateVariability,HRV)等与情感变化相关的生理指标均可以通过光电脉搏信号计算得出。HRV是指连续心跳之间的时间间隔变化,是个体情绪和心理状态的重要指标,能够很好的表征情感状态的变化。此外,脉搏信号相比脑电,呼吸等生理信号,采集方式更便捷,包含的情感特征更丰富。研究中常用PPG的时频域特征、深度层次特征以及心率相关的特征进行情感分类。
视觉是人们获取信息的直接通道,眼动信息能客观反映出人脑的信息加工机制。人的认知加工过程很大程度上依赖于视觉***,约有80%~90%的外界信息是通过人眼获取的。在视频学习中学习者的眼动信息较丰富,且可以通过非入侵方式的眼动追踪技术获取眼动数据,不会干扰学习过程。随着眼动追踪技术的普及,眼动数据可视化在理论和应用方面得到快速发展。眼动数据可视化4种主要可视化方法:扫描路径法、热区图法、感兴趣区法和三维空间法,眼动的时空特征是视觉信息提取过程中的生理和行为表现,与人的心理活动有着直接或者间接的关系,眼动特征能真实反映学习者的心理状态,参与度和认知负荷程度。
然而单个模态的生理信号进行情感识别的研究具有一定的局限性,不同模态的生理信号具有互补性和相关性,因此本文尝试使用眼动和PPG双模态生理信号的时频域特征融合深层特征进行情感分类。
发明内容
本发明所要解决的技术问题:针对现有不足,本发明提出一种基于FECNN-LSTM的眼动和PPG多模态融合的情感识别方法,所提出的方法包括:
本发明的技术方案:
步骤1:自建眼动和PPG多模态数据库,以学习视频作为刺激材料,获取眼动及PPG数据。
步骤2:对采集的眼动数据和生理信号数据进行标注,采用离散型的情感标注模型标注,将情感标注词分为感兴趣,高兴,困惑,无聊四种情感状态;对采集的眼动数据进行预处理,预处理包括:高质量数据筛选、数据清洗和数据去噪;由于PPG原始数据的采集过程中会受到电磁干扰,光照影响,运动伪差等干扰而产生噪音,而PPG信号的有效带通在0.8-10Hz之间,因此设定高通过滤器阈值为1Hz过滤掉信号在低频处产生的漂移,设定低通过滤阈值为10过滤高于10Hz的噪声干扰。
步骤3:将去噪的数据划分为训练集和验证集,划分比例为8:2。
步骤4:将预处理好的数据集的眼动和PPG数据转换为UTF-8格式文本,构造不同时间窗口长度的数据集,包括5秒、10秒和15秒时间窗口长度。
步骤5:计算5s时间窗口内的眼动时域、PPG时频域特征。
步骤6:使用主成分分析方法选取与情感状态最相关的眼动和PPG特征共72个。
步骤7:将步骤6选出的72个特征进行特征层融合生成浅层特征,归一化后设计并使用卷积神经网络FECNN提取深层特征;对深层特征使用主成分分析方法选取与情感状态最相关的特征共57维。将FECNN提取的深层特征和浅层特征进行特征层融合得到一个129维的特征向量作为情感分类器的输入。
步骤8:设计LSTM网络模型对浅层特征+深层特征进行情感分类。经过多次试验,将训练集中的数据分批进行多轮训练,以调整网络参数,直到达到最大迭代次数或满足提前截止条件,选出最优的LSTM网络结构和参数。将步骤7获得的129维特征向量作为LSTM模型的输入训练,用测试集数据评估模型性能,输出感兴趣、高兴、困惑和无聊四种情感状态中的一种,最后使用准确率和损失值评估模型性能。
步骤9:使用步骤8的训练得到的LSTM网络模型在测试集上运行,得到最终的分类精度指标。
步骤10:采用准确率(Precision)、召回率(Recall)和F1分数(F1-score)衡量机器学习模型的效果。需要定义几个基本概念,NTP:分类器将正样本判断为正样本的个数,NFP:分类器将负样本判断为正样本的个数,NTN:分类器将负样本判断为负样本的个数,NFN:分类器将正样本判断为负样本的个数。准确率定义为正样本中分类正确的样本个数占所有被分类为正样本个数的比例,公式为:
Figure BDA0003247827100000021
召回率定义为正样本中分类正确的样本个数占所有实际分类为正样本个数的比例,它衡量分类将正样本分类正确的能力,公式为:
Figure BDA0003247827100000031
F1分数定义为准确率和召回率调和均值的两倍,F1分数综合考虑分类器的准确率和召回率能力,公式为:
Figure BDA0003247827100000032
附图说明
图1为本发明中多模态数据采集实验的实验流程图。
图2为本发明中FECNN的网络结构。
图3为本发明中一种基于FECNN-LSTM的眼动和PPG多模态融合的情感识别方法流程图。
图4长短时记忆网络的神经元结构图。
具体实施方式
下面结合实例和附图对本发明做进一步的说明,但本发明的实施方式不限于此。
如图3所示,本实施提供一种基于FECNN-LSTM的眼动和PPG多模态融合的情感识别方法,包括以下步骤:
1、对数据进行清洗和划分不同时间窗口的数据集,并对数据进行去噪处理获得处理好的眼动信号和PPG信号。
2、计算眼动相关特征,包括:注视,扫视,眨眼和瞳孔类别的特征;计算PPG相关特征,包括:HR,HRV,RPeaks的特征。
3、进行主成分分析选取与情感状态相关性较高的眼动和PPG特征,并进行特征层融合构成浅层特征,对浅层特征进行归一化。
4、使用FECNN对浅层特征进行特征学习,提取深层特征,用主成分分析法选出与情感状态相关性较高的深层特征,并进行归一化。
5、然后将浅层特征和深层特征进行特征层融合,作为情感分类器的输入。采用机器学习中支持向量机、随机森林、K近邻、多层感知机四种算法对眼动、PPG单模态浅层特征以及融合后的眼动和PPG特征进行情感状态分类作为对比试验。使用不同的评价指标对获得的模型进行评价。
6、设计长短时记忆网络对深层+浅层特征进行情感分类,使用准确率和损失值对模型进行评估。
更具体的,自制一个多模态情感识别数据集,采用五个不同题材的学习视频作为刺激材料,整个多模态数据采集实验过程如图1所示,具体描述如下步骤:
S1、在实验进行前,先给被试佩戴生理信号采集设备,然后对被试进行眼部校准,以检查被试是否作为合格被试。
S2、在正式进入实验前被试需要观看注视点,即出现在屏幕正中的十字准星,时长为60s,加入注视点后可以获得眼动和PPG数据的基线值。
S3、实验过程中会先播放4个2min的视频片段,再播放1个10min的视频片段,4个2min的视频片段以随机的顺序播放,在播放每个视频片段前都会要求被试进行知识问卷测试,测量被试的先前知识,其内容与实验材料内容相关。然后被试在计算机屏幕上观看播放的视频片段,在视频播放结束后,被试需要通过按键标注观看视频时产生的情感并完成后测检验,完成后测检验后再进行下一个视频片段知识问卷测试、观看与后测检验。
S4、最后播放的视频是一个10min的诱发走神的视频,这个视频在观看过程中会弹出提醒,如果被试在提示弹出前的时间段内出现走神则可以按键标注走神。
S5、整个实验结束后,由实验人员为被试讲解标注模型,确保被试完全理解上述模型后,让被试观看回顾视频,包括视频片段及被试本人观看视频片段时的录像和被试观看视频片段时的眼动轨迹,由被试回顾当时产生的情感状态划分事件,并根据分类情感模型中的情感词和不同的唤醒等级选择自己当时所处的情感状态和情感强度,对5个视频进行标注。数据采集实验中的情感状态采用“暗示回顾”法和被试主观报告方式获取,即被试观看视频片段后,回放视频及同步录制的被试面部表***和被试眼动轨迹,刺激被试回忆当时的情感状态,将同步视频分割成事件片段,并从情感分类模型中的情感词和唤醒等级中选择自己的情感状态和情感强度。情感状态包括高兴、感兴趣、无聊、困惑、走神与其他。选取PAD维度模型中的A维度回顾标注被试处在某种情感状态的唤醒维度强弱,分别用1-5表示某种情感的强度,1为最低,5为最高,从1到5依次递增。
对于眼动信号预处理,主要是移除实验过程中被试者眼动数据异常值,消除采集过程中产生的噪声。对于PPG信号预处理,主要是去除采集PPG信号过程中的电磁干扰,光照影响,运动伪差等干扰影响产生的噪音。
根据研究目的选择合适有效的眼动、PPG指标是非常重要的,否则研究过程中有价值的数据信息就会丢失。在情感识别研究中,单一模态的指标具有一定局限性,多模态的信号具有相关性和互补性,因此应根据研究的需要选择眼动和PPG两个模态的指标进行分析。本实验选取的眼动指标主要包括以下四类:注视、眼跳、眨眼和瞳孔直径;选取的PPG指标主要包括HR,HRV和RPeaks三类。
步骤2中,具体的,将眼动、PPG数据预处理后,计算眼动的相关统计特征以及PPG的时频域特征。PPG频域特征具体计算公式如下式(4)~(9)。
对每个时间窗口的脉搏序列信号等间距采样选取N点构成离散序列X(n),进行离散傅里叶变换得到频域序列X(k),其中k为离散频率变量,WN为正变换核,j为虚数单位。计算公式如下。
Figure BDA0003247827100000041
由欧拉公式:
Figure BDA0003247827100000042
则:
WN=exp(-j2πnk)=cos2πnk-jsin2πnk (6)
此时X(k)为复数,
X(k)=R(k)+jI(k) (7)
R(k)为实部,I(k)为虚部。则频域序列的每个点的相位值为:
Figure BDA0003247827100000051
频率谱为:
Figure BDA0003247827100000052
由于离散傅里叶变换计算量大,将上述得到的数据用快速傅里叶变换处理,再把频率和相位表示为频率函数,并从功率谱密度中提取相应的频率成分HF,LF,VLF,LF/HF以及总功率作为HRV的频域特征。
设HRV序列为R=[R1,R2,…RN],Ri表示i时刻HRV的值,N代表序列长度。HRV时域特征计算公式如下(10)~(13)。RR间期差值均方根RMSSD的计算公式如下式(10),其中RRi=Ri+1-Ri
Figure BDA0003247827100000053
标准差SDNN公式如下:
Figure BDA0003247827100000054
其中
Figure BDA0003247827100000055
峰值间期大于50ms的百分比PNN50:
Figure BDA0003247827100000056
根据每个模态得到的特征采用主成分分析(PCA)法筛选出与情感状态显著相关的眼动和PPG特征。实验分析最终选取了32个眼动特征以及40个PPG特征。
步骤S3中,将同步时间窗口内的眼动统计特征和PPG时频域特征进行特征层融合后构成浅层特征,得到一个72维的组合特征向量。由于存在个体差异,不同人的生理信号基线值不同,因此需要去除个体的基线值,将眼动和PPG的每种情感特征用平静状态下的相应特征值作标准化,用min-max归一化将特征值映射到[0,1]区间内,min-max归一化公式(14)如下:
Figure BDA0003247827100000057
X*为归一化后的值,x为样本值,Xmin为样本中的最小值,Xmax为样本中的最大值。
步骤S4中,设计FECNN网络结构描述如下:FECNN网络中特征提取部分由连续的卷积层和池化层构成,卷积层用来提取输入数据的深层信息,池化层用于对获得的特征图进行降采样处理,以减轻网络过拟合程度。FECNN的输入是一个72×1的向量,共有6个卷积层,分别是Conv1,Conv2,Conv3,Conv4,Conv5,Conv6。每个卷积层都包含一个一维大小为3×1的卷积核,一个带有2×1过滤器的最大池化层和一个正则化Dropout层。Dropout层以概率0.5使部分神经元失活以防止模型出现过拟合。失活的神经元不会进行误差反向传播,但是该神经元的权重会被保留下来,因此每次输入样本时,该网络就采用了与之前不一样的网络结构。每个卷积层的步长设为1,使用Relu作为激活函数。卷积层Conv6后叠加一个Flatten展平层,然后用一个Dense层把Flatten层输出特征压缩成64×1维的深层特征。用皮尔逊相关系数选取与情感状态相关的深层特征,共57维。
步骤S5中,将S4中提取的深层特征与浅层特征进行特征层融合,输出一个129维的特征向量,用于情感分类器的输入。采用四种机器学习算法对眼动和PPG单模态数据进行情感分类,使用网格搜索进行参数寻优,最终得到的参数如下表所示:
Figure BDA0003247827100000061
四种机器学算法使用准确率、召回率和F1分数进行评估,评估结果如下:
Figure BDA0003247827100000062
步骤S6中,设计的长短时记忆网络LSTSM结构描述如下。
LSTM常用于分析时间序列数据,本文选用的LSTM由输入门,遗忘门,输出门和内部记忆单元组成,通过有效利用计算机内存,决定网络何时遗忘以前的隐藏状态,何时更新隐藏状态,用于解决RNN在处理有限长度的序列数据在反向传播过程中出现的梯度消失和***问题。LSTM网络结构单元如图4所示。图中it代表输入门单元的输出,ft代表遗忘门单元的输出,ot代表输出门单元的输出,c't代表内部记忆单元,ht为隐藏单元的输出。图中σ代表sigmoid激活函数。假设xt为t时刻LSTM单元的输入,W和U代表权重,ht-1为上一层隐藏单元的输出。具体描述如下式(15)~(20)所示。
it=σ(λWi(Wixt)+λUi(Uiht-1)) (15)
ft=σ(λWf(Wfxt)+λUf(Ufht-1)) (16)
ot=σ(λWo(Woxo)+λUo(Uoht-1)) (17)
c't=tanh(λWu(Wcxt)+λUc(Ucht-1)) (18)
ct=ftct-1+itc't (19)
ht=ottanh(ct) (20)
由式(15)~(20),时刻t隐藏单元的最终输出ht由前一个时间点隐藏单元输出ht-1和当前时间点输入xt共同决定,实现了记忆功能。通过3个门控单元的设计,LSTM记忆单元能选择性保存和更新长距离的信息,这有利于学习PPG信号和眼动的序列特征信息。
本文设计的LSTM网络具有3个隐藏层,隐藏单元数分别为32,64,72。将浅层特征和FECNN提取的深层特征作为LSTM的输入,训练阶段通过反向梯度传播更新网络权重,为了优化损失函数摆动幅度过大的问题,加快函数收敛速度,选择自适应学习率动态调整算法作为优化算法。使用多分类的交叉熵损失函数来评估当前训练得到的概率分布与真实分布的差异情况。如下公式(22)为交叉熵函数计算公式,其中
Figure BDA0003247827100000071
为期望输出,y为神经元实际输出,模型的损失值loss计算如下:
y=σ(Σwjxj+b) (21)
Figure BDA0003247827100000072
当期望输出和实际输出相等时,损失值为0。在每个LSTM层后使用dropout防止训练过拟合减少特征的相互作用。输出层使用softmax激活函数进行分类,输出一个由4个概率组成的二维数组,代表样本数据属于某种情感的概率值。LSTM最后输出感兴趣、高兴、困惑和无聊四种情感状态中的一种。经过600次迭代后,LSTM模型准确率和损失值逐渐趋于稳定,在测试集上的准确率为84.68%,在测试集上的损失值为0.43。

Claims (2)

1.基于FECNN-LSTM的眼动和PPG多模态融合的情感识别方法,其特征在于,所述方法包括:
步骤1:自建眼动和PPG多模态数据库,以学习视频作为刺激材料,获取眼动及PPG数据;
步骤2:对采集到的眼动、PPG数据进行预处理,所述预处理包括:数据清洗、数据标注;以及PPG数据使用低通滤波,高通滤波进行去噪,采用离散型的情感标注模型标注,将情感标注词分为感兴趣,高兴,困惑,无聊四种情感状态;对采集的眼动数据进行预处理,预处理包括:高质量数据筛选、数据清洗和数据去噪;由于PPG原始数据的采集过程中会受到电磁干扰,光照影响,运动伪差干扰而产生噪音,而PPG信号的有效带通在0.8-10Hz之间,因此设定高通过滤器阈值为1Hz过滤掉信号在低频处产生的漂移,设定低通过滤阈值为10过滤高于10Hz的噪声干扰;
步骤3:将预处理后的采集数据集划分为训练集和验证集,比例为80%和20%;
步骤4:将预处理好的数据集的眼动和PPG数据转换为UTF-8格式文本,构造不同时间窗口长度的数据集,包括5秒、10秒和15秒时间窗口长度;
步骤5:计算5s时间窗口内的眼动时域、PPG时频域特征,具体描述如下步骤:
S1、计算眼动数据的相关特征包括:注视次数,注视时长,注视速度的统计特征;扫视次数,扫视时长,扫视速度的统计特征;左右瞳孔直径变化率,左右瞳孔直径,瞳孔均值的统计特征;眨眼次数,眨眼频率,眨眼时长统计特征共50个;
S2、提取PPG数据的心率值HR,心率变异性和峰值RPeaks数据,并计算相关特征:HR均值,HR最值,HR一阶差分,HR二阶差分时域特征;HRV一阶差分,二阶差分,SDNN,RMSSD,PNN50,PNN20时域特征;PSD,LF,HF,VLF,LF/HF五个HRV频域特征;峰值和峰值一阶差分时域特征共32个;
步骤6:将上述特征使用PCA进行特征降维,选出72个与情感状态显著相关的特征;
步骤7:将上述选出的72个特征进行特征层融合构造成浅层特征,归一化后设计并使用FECNN提取浅层特征的深层特征,对深层特征使用主成分分析方法选取与情感状态最相关的特征共57维,再将浅层特征与深层特征进行特征层融合,使用SVM,RF,KNN和MLP四种机器学习算法对浅层特征+深层特征进行情感分类;
步骤8:设计LSTM网络模型对浅层特征+深层特征进行情感分类,经过多次试验,将训练集中的数据分批进行多轮训练,以调整网络参数,直到达到最大迭代次数或满足提前截止条件,选出最优的LSTM网络结构和参数;
步骤9:使用步骤8的训练得到的LSTM网络模型在测试集上运行,得到最终的分类精度指标;
步骤10:将LSTM的分类结果和SVM,KNN,MLP,RF算法的分类结果进行对比分析。
2.如权利要求1所述的视频学习中的情感识别方法,其特征在于,
步骤1具体描述如下:
S1、在实验进行前,先给被试佩戴生理信号采集设备,然后对被试进行眼部校准,以检查被试是否作为合格被试;
S2、在正式进入实验前被试需要观看注视点,即出现在屏幕正中的十字准星,时长为60s,加入注视点后可以获得眼动和PPG数据的基线值;
S3、实验过程中会先播放4个2min的视频片段,再播放1个10min的视频片段,4个2min的视频片段以随机的顺序播放,在播放每个视频片段前都会要求被试进行知识问卷测试,测量被试的先前知识,其内容与实验材料内容相关,然后被试在计算机屏幕上观看播放的视频片段,在视频播放结束后,被试需要通过按键标注观看视频时产生的情感并完成后测检验,完成后测检验后再进行下一个视频片段知识问卷测试、观看与后测检验;
S4、最后播放的视频是一个10min的诱发走神的视频,这个视频在观看过程中会弹出提醒,如果被试在提示弹出前的时间段内出现走神则可以按键标注走神;
S5、整个实验结束后,由实验人员为被试讲解标注模型,确保被试完全理解上述模型后,让被试观看回顾视频,包括视频片段及被试本人观看视频片段时的录像和被试观看视频片段时的眼动轨迹,由被试回顾当时产生的情感状态划分事件,并根据分类情感模型中的情感词和不同的唤醒等级选择自己当时所处的情感状态和情感强度,对5个视频进行标注,数据采集实验中的情感状态采用“暗示回顾”法和被试主观报告方式获取,即被试观看视频片段后,回放视频及同步录制的被试面部表***和被试眼动轨迹,刺激被试回忆当时的情感状态,将同步视频分割成事件片段,并从情感分类模型中的情感词和唤醒等级中选择自己的情感状态和情感强度,情感状态包括高兴、感兴趣、无聊、困惑、走神与其他,选取PAD维度模型中的A维度回顾标注被试处在某种情感状态的唤醒维度强弱,分别用1-5表示某种情感的强度,1为最低,5为最高,从1到5依次递增;
步骤2具体描述如下:
S1、数据预处理:去掉实验过程中视线跟踪丢失的被试的眼动数据,将获取的数据按不同步长划分数据,对于眼动信号预处理,主要是移除实验过程中被试者眼动数据异常值,消除采集过程中产生的噪声,对于PPG信号预处理,主要是去除采集PPG信号过程中的电磁干扰,光照影响,运动伪差干扰影响产生的噪音,而PPG信号的有效带通在0.8-10Hz之间,因此设定高通过滤器阈值为1Hz过滤掉信号在低频处产生的漂移,设定低通过滤阈值为10过滤高于10Hz的噪声干扰;
S2、数据标注:将所有被试数据加上情感属性标签‘label’,记感兴趣为0,困惑为1,无聊为2以及高兴为3;
步骤5具体描述如下:
根据研究目的选择合适有效的眼动PPG指标是非常重要的,否则研究过程中有价值的数据信息就会丢失,在情感识别研究中,单一模态的指标具有一定局限性,多模态的信号具有相关性和互补性,因此应根据研究的需要选择眼动和PPG两个模态的指标进行分析,本实验选取的眼动指标主要包括以下四类:注视、眼跳、眨眼和瞳孔直径;选取的PPG指标主要包括HR,HRV和RPeaks三类;
PPG的时频域特征计算如下,PPG频域特征具体计算公式如下式(4)~(9),对每个时间窗口的脉搏序列信号间距采样选取N点构成离散序列X(n),进行离散傅里叶变换得到频域序列X(k),其中k为离散频率变量,WN为正变换核,j为虚数单位,计算公式如下:
Figure FDA0003247827090000031
Figure FDA0003247827090000032
由欧拉公式:
e±jn=cos n±j sin n (5)
则:
WN=exp(-j2πnk)=cos2πnk-jsin2πnk (6)
此时X(k)为复数,
X(k)=R(k)+jI(k) (7)
R(k)为实部,I(k)为虚部,则频域序列的每个点的相位值为:
Figure FDA0003247827090000033
频率谱为:
Figure FDA0003247827090000034
由于离散傅里叶变换计算量大,将上述得到的数据用快速傅里叶变换处理,再把频率和相位表示为频率函数,并从功率谱密度中提取相应的频率成分HF,LF,VLF,LF/HF以及总功率作为HRV的频域特征;
设HRV序列为R=[R1,R2,…RN],Ri表示i时刻HRV的值,N代表序列长度,HRV时域特征计算公式如下(10)~(13),RR间期差值均方根RMSSD的计算公式如下式(10),其中RRi=Ri+1-Ri
Figure FDA0003247827090000041
标准差SDNN公式如下:
Figure FDA0003247827090000042
其中
Figure FDA0003247827090000043
峰值间期大于50ms的百分比PNN50:
Figure FDA0003247827090000044
根据每个模态得到的特征采用主成分分析(PCA)法筛选出与情感状态显著相关的眼动和PPG特征,实验分析最终选取了32个眼动特征以及40个PPG特征;
步骤7,具体描述如下:
S1、将同步时间窗口内的眼动统计特征和PPG时频域特征进行特征层融合后构成浅层特征,得到一个72维的组合特征向量,由于存在个体差异,不同人的生理信号基线值不同,因此需要去除个体的基线值,将眼动和PPG的每种情感特征用平静状态下的相应特征值作标准化,用min-max归一化将特征值映射到[0,1]区间内,min-max归一化公式(14)如下:
Figure FDA0003247827090000045
X*为归一化后的值,x为样本值,Xmin为样本中的最小值,Xmax为样本中的最大值,
S2、设计FECNN网络结构描述如下:FECNN网络中特征提取部分由连续的卷积层和池化层构成,卷积层用来提取输入数据的深层信息,池化层用于对获得的特征图进行降采样处理,以减轻网络过拟合程度,FECNN的输入是一个72×1的向量,共有6个卷积层,分别是Conv1,Conv2,Conv3,Conv4,Conv5,Conv6,每个卷积层都包含一个一维大小为3×1的卷积核,一个带有2×1过滤器的最大池化层和一个正则化Dropout层,Dropout层以概率0.5使部分神经元失活以防止模型出现过拟合,失活的神经元不会进行误差反向传播,但是该神经元的权重会被保留下来,因此每次输入样本时,该网络就采用了与之前不一样的网络结构,每个卷积层的步长设为1,使用Relu作为激活函数,卷积层Conv6后叠加一个Flatten展平层,然后用一个Dense层把Flatten层输出特征压缩成64×1维的深层特征,用皮尔逊相关系数选取与情感状态相关的深层特征,共57维;
步骤8中,设计的长短时记忆网络LSTM结构描述如下:
LSTM常用于分析时间序列数据,本文选用的LSTM由输入门,遗忘门,输出门和内部记忆单元组成,通过有效利用计算机内存,决定网络何时遗忘以前的隐藏状态,何时更新隐藏状态,用于解决RNN在处理有限长度的序列数据在反向传播过程中出现的梯度消失和***问题,具体如下式(15)~(20)所示;
it=σ(λWi(Wixt)+λUi(Uiht-1)) (15)
ft=σ(λWf(Wfxt)+λUf(Ufht-1)) (16)
ot=σ(λWo(Woxo)+λUo(Uoht-1)) (17)
c't=tanh(λWu(Wcxt)+λUc(Ucht-1)) (18)
ct=ftct-1+itc't (19)
ht=ottanh(ct) (20)
由式(15)~(20),时刻t隐藏单元的最终输出ht由前一个时间点隐藏单元输出ht-1和当前时间点输入xt共同决定,实现了记忆功能,通过3个门控单元的设计,LSTM记忆单元能选择性保存和更新长距离的信息,这有利于学习PPG信号和眼动的序列特征信息;
LSTM网络具有3个隐藏层,隐藏单元数分别为32,64,72,将浅层特征和FECNN提取的深层特征作为LSTM的输入,训练阶段通过反向梯度传播更新网络权重,为了优化损失函数摆动幅度过大的问题,加快函数收敛速度,选择自适应学习率动态调整算法作为优化算法,使用多分类的交叉熵损失函数来评估当前训练得到的概率分布与真实分布的差异情况,如下公式(22)为交叉熵函数计算公式,其中
Figure FDA0003247827090000051
为期望输出,y为神经元实际输出,模型的损失值loss计算如下:
y=σ(Σwjxj+b) (21)
Figure FDA0003247827090000061
当期望输出和实际输出相等时,损失值为0,在每个LSTM层后使用dropout防止训练过拟合减少特征的相互作用,输出层使用softmax激活函数进行分类,输出一个由4个概率组成的二维数组,代表样本数据属于某种情感的概率值,LSTM最后输出感兴趣、高兴、困惑和无聊四种情感状态中的一种。
CN202111037434.5A 2021-09-06 2021-09-06 一种基于fecnn-lstm的眼动和ppg多模态融合的情感识别方法 Pending CN113729707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111037434.5A CN113729707A (zh) 2021-09-06 2021-09-06 一种基于fecnn-lstm的眼动和ppg多模态融合的情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111037434.5A CN113729707A (zh) 2021-09-06 2021-09-06 一种基于fecnn-lstm的眼动和ppg多模态融合的情感识别方法

Publications (1)

Publication Number Publication Date
CN113729707A true CN113729707A (zh) 2021-12-03

Family

ID=78735860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111037434.5A Pending CN113729707A (zh) 2021-09-06 2021-09-06 一种基于fecnn-lstm的眼动和ppg多模态融合的情感识别方法

Country Status (1)

Country Link
CN (1) CN113729707A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114343640A (zh) * 2022-01-07 2022-04-15 北京师范大学 注意力评估方法及电子设备
CN114627329A (zh) * 2022-02-24 2022-06-14 海信集团控股股份有限公司 一种视觉敏感信息检测模型训练方法、装置和设备
CN115381467A (zh) * 2022-10-31 2022-11-25 浙江浙大西投脑机智能科技有限公司 一种基于注意力机制的时频信息动态融合解码方法及装置
CN115439921A (zh) * 2022-09-22 2022-12-06 徐州华讯科技有限公司 一种基于眼动图推理的图像偏好预测方法
CN115620706A (zh) * 2022-11-07 2023-01-17 之江实验室 一种模型训练方法、装置、设备及存储介质
CN115919313A (zh) * 2022-11-25 2023-04-07 合肥工业大学 一种基于时空特征的面部肌电情绪识别方法
CN116299684A (zh) * 2023-05-17 2023-06-23 成都理工大学 基于人工神经网络中双模态神经元的新型微震分类方法
CN116595423A (zh) * 2023-07-11 2023-08-15 四川大学 一种基于多特征融合的空中交通管制员认知负荷评估方法
CN116701917A (zh) * 2023-07-28 2023-09-05 电子科技大学 一种基于生理信号的开放集情感识别方法
CN116740015A (zh) * 2023-06-12 2023-09-12 北京长木谷医疗科技股份有限公司 基于深度学习的医学图像智能检测方法、装置及电子设备
CN117717340A (zh) * 2024-02-07 2024-03-19 中汽研汽车检验中心(天津)有限公司 一种驾驶员困意检测方法、装置、设备及介质

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114343640B (zh) * 2022-01-07 2023-10-13 北京师范大学 注意力评估方法及电子设备
CN114343640A (zh) * 2022-01-07 2022-04-15 北京师范大学 注意力评估方法及电子设备
CN114627329A (zh) * 2022-02-24 2022-06-14 海信集团控股股份有限公司 一种视觉敏感信息检测模型训练方法、装置和设备
CN115439921A (zh) * 2022-09-22 2022-12-06 徐州华讯科技有限公司 一种基于眼动图推理的图像偏好预测方法
CN115381467A (zh) * 2022-10-31 2022-11-25 浙江浙大西投脑机智能科技有限公司 一种基于注意力机制的时频信息动态融合解码方法及装置
CN115620706A (zh) * 2022-11-07 2023-01-17 之江实验室 一种模型训练方法、装置、设备及存储介质
CN115620706B (zh) * 2022-11-07 2023-03-10 之江实验室 一种模型训练方法、装置、设备及存储介质
CN115919313A (zh) * 2022-11-25 2023-04-07 合肥工业大学 一种基于时空特征的面部肌电情绪识别方法
CN115919313B (zh) * 2022-11-25 2024-04-19 合肥工业大学 一种基于时空特征的面部肌电情绪识别方法
CN116299684B (zh) * 2023-05-17 2023-07-21 成都理工大学 基于人工神经网络中双模态神经元的新型微震分类方法
CN116299684A (zh) * 2023-05-17 2023-06-23 成都理工大学 基于人工神经网络中双模态神经元的新型微震分类方法
CN116740015A (zh) * 2023-06-12 2023-09-12 北京长木谷医疗科技股份有限公司 基于深度学习的医学图像智能检测方法、装置及电子设备
CN116595423B (zh) * 2023-07-11 2023-09-19 四川大学 一种基于多特征融合的空中交通管制员认知负荷评估方法
CN116595423A (zh) * 2023-07-11 2023-08-15 四川大学 一种基于多特征融合的空中交通管制员认知负荷评估方法
CN116701917A (zh) * 2023-07-28 2023-09-05 电子科技大学 一种基于生理信号的开放集情感识别方法
CN116701917B (zh) * 2023-07-28 2023-10-20 电子科技大学 一种基于生理信号的开放集情感识别方法
CN117717340A (zh) * 2024-02-07 2024-03-19 中汽研汽车检验中心(天津)有限公司 一种驾驶员困意检测方法、装置、设备及介质
CN117717340B (zh) * 2024-02-07 2024-05-31 中汽研汽车检验中心(天津)有限公司 一种驾驶员困意检测方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN113729707A (zh) 一种基于fecnn-lstm的眼动和ppg多模态融合的情感识别方法
Zhang et al. Emotion recognition using multi-modal data and machine learning techniques: A tutorial and review
CN109157231B (zh) 基于情绪刺激任务的便携式多通道抑郁倾向评估***
Wang et al. Channel selection method for EEG emotion recognition using normalized mutual information
Zhang Expression-EEG based collaborative multimodal emotion recognition using deep autoencoder
Özerdem et al. Emotion recognition based on EEG features in movie clips with channel selection
CN106886792B (zh) 一种基于分层机制构建多分类器融合模型的脑电情感识别方法
Liu et al. Subject-independent emotion recognition of EEG signals based on dynamic empirical convolutional neural network
Xu et al. Learning EEG topographical representation for classification via convolutional neural network
Zhao et al. EmotionSense: Emotion recognition based on wearable wristband
CN112656427A (zh) 一种基于维度模型的脑电信号情绪识别方法
CN111920420B (zh) 一种基于统计学习的患者行为多模态分析与预测***
CN110390272B (zh) 一种基于加权主成分分析的eeg信号特征降维方法
An et al. Electroencephalogram emotion recognition based on 3D feature fusion and convolutional autoencoder
Wang et al. Maximum weight multi-modal information fusion algorithm of electroencephalographs and face images for emotion recognition
CN111000556A (zh) 一种基于深度模糊森林的情绪识别方法
Kang et al. 1D convolutional autoencoder-based PPG and GSR signals for real-time emotion classification
Samyoun et al. Stress detection via sensor translation
Pan et al. Recognition of human inner emotion based on two-stage FCA-ReliefF feature optimization
Alshamrani An advanced stress detection approach based on processing data from wearable wrist devices
Li et al. Eye-tracking signals based affective classification employing deep gradient convolutional neural networks
Dar et al. YAAD: young adult’s affective data using wearable ECG and GSR sensors
Zhu et al. Emotion recognition based on dynamic energy features using a Bi-LSTM network
Cao et al. Emotion recognition of single-electrode EEG based on multi-feature combination in time-frequency domain
CN117883082A (zh) 一种异常情绪识别方法、***、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211203

WD01 Invention patent application deemed withdrawn after publication