CN112446337A

CN112446337A - 一种基于表情识别的智慧博物馆管理***

Info

Publication number: CN112446337A
Application number: CN202011404738.6A
Authority: CN
Inventors: 赵轲; 张硕; 陶鑫; 郝聪婷; 曹韬; 宋翔宇; 王念慈; 宫新策
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-05
Anticipated expiration: 2040-12-02
Also published as: CN112446337B

Abstract

本发明属于智慧博物馆领域，提供一种基于表情识别的智慧博物馆管理***，通过视频采集模块采集每个展位的实时视频图像；并结合人脸检测模块、人脸识别模块、表情识别模块及数据处理模块得到游客在博物馆内的参观路径、以及在参观路径上每一个展位的驻留时间和展位的满意度评分；再结合所有游客的评价指标得到每一个展位的满意度评分和吸引力评分、以及博物馆的总体满意度评分和平均参观时间。本发明通过游客参观过程中的真实表情识别，结合与之匹配的评价指标计算模型，客观的展现游客对每一个展位以及博物馆的参观满意度，实现博物馆智慧化，同时，管理者也能通过各个评价指标的实时显示实现智慧博物馆更有方向性地改善服务，提高游客满意度。

Description

一种基于表情识别的智慧博物馆管理***

技术领域

本发明属于智慧博物馆领域，具体提供一种基于表情识别的智慧博物馆管理***。

背景技术

博物馆是各类历史文化的载体，是我们了解历史，启发当下，走向未来的窗口。截至2019年年底，全国已备案博物馆达5535家，全年接待观众12.27亿人次，博物馆为文明交流互鉴提供了新空间，已经走入了普通人的生活中。现在，大部分人出行旅游，到达一个新的地区，首先要去参观游览的就是本地区的历史博物馆；对于从事艺术和欣赏艺术的人们，往往被艺术类博物馆吸引，例如卢浮宫博物馆、大都会艺术博物馆等；对科学技术感兴趣的人们，科学与技术类博物馆有着更大的吸引力；各式各样的综合性博物馆包罗万千，满足人们的参观需求，丰富着人们的生活。由此可见，博物馆已经成为人们生活中必不可少的一部分。

随着科学技术的发展，智慧化成为各行各业的发展趋势。因此，如何提升博物馆的数字化水平，智慧化地服务游客，也成为博物馆的发展趋势。但是从传统博物馆到智慧博物馆，还有很长的路要走。从目前博物馆的智慧化程度来看，大部分博物馆还处在智慧化的开始阶段。传统博物馆展出方式固定，实体文物的陈列布置场地一般是固定不变的，因此容易造成受欢迎的展位人流量巨大，甚至需要排长队参展；同时，固定的展出位置也可能导致相邻相近的展藏品都不具有吸引力，某些区域的展位人流稀少。传统博物馆只能根据直觉或长时间的人眼观察来更加合理地安排各藏品的展出位置，耗费巨大的精力和时间，可能最后收到的效果也一般。另外，传统博物馆数字化和智慧化水平较低，导致博物馆无法及时获取游客的满意度，不能及时掌握游客的真实感受，提升服务质量。

智慧博物馆针对传统博物馆科学技术缺乏导致的展览误区，重新梳理智慧博物馆的要素，提出以人为中心的信息传递模式，以人为中心，从人的基本数据出发，运用数据将博物馆的物和人联系在一起，从而人性化和个性化地实现博物馆的智能化控制和智慧化改善。基于此，本发明提供一种基于表情识别的智慧博物馆管理***。

发明内容

本发明的目的在于针对传统博物馆数字化和智慧化水平较低带来的诸多问题，提供一种基于表情识别的智慧博物馆管理***；基于表情识别能够实现以人为中心的博物馆智慧化，客观反映游客对每一个展位的参观满意度，结合人脸识别获取的游客停留时间数据，综合评价得出博物馆的每一个展位的游客满意度，并将评价结果实时展示给管理者，实现智慧博物馆更有方向性地改善服务，提高游客满意度。

为实现上述目的，本发明采用的技术方案为：

一种基于表情识别的智慧博物馆管理***，包括：视频采集模块、人脸检测模块、人脸识别模块、表情识别模块、数据处理模块、数据库及可视化模块；其特征在于，所述数据库中预存人脸信息文件夹，所述视频采集模块为设置于博物馆的每一个展位的摄像头，通过摄像头采集得到相应展位的视频图像、并输入人脸检测模块，由人脸检测模块检测视频图像中的人脸图像、分别输入人脸识别模块和表情识别模块；所述人脸识别模块访问数据库中人脸信息文件夹，得到人脸图像的身份信息、并与人脸图像的帧数信息共同存储于数据库中；所述表情识别模块对人脸图像进行表情识别，得到表情类别、并存储于数据库中；所述数据处理模块访问数据库，计算得到评价指标，并通过可视化模块进行展示。

进一步的，所述人脸检测模块采用采用多任务级联卷积网络(MTCNN)模型，所述人脸识别模块采用FaceNet网络模型。

进一步的，所述表情识别模块采用A_mini_Xception网络模型，所述A_mini_Xception网络模型包括两个部分，其中，第一部分包含顺序连接的2个普通卷积核和5组深度可分离卷积，且每个卷积核后面都会跟着批处理的归一化操作；每个深度可分离卷积由两个分支构成，第一分支为顺序连接的2个3×3的可分离卷积核(Separable Convolution)与1个最大池化层，第二分支为1个1×1的可分离卷积核，第一分支与第二分支的数据经过残差连接(residual connection、图中的带圆圈符号)后输入到第二部分；第二部分由顺序连接的1个3×3的普通卷积核、1个全局平均池化层、1个Softmax层。

更进一步的，所述A_mini_Xception网络模型的训练过程如下：

步骤1.构建训练集：

步骤1.1.通过互联网采集或者公开数据集获取情感图像，依据情感图像中表情进行分类：高兴、感兴趣、专注、困惑、厌烦和疲劳，并制作类型标签：高兴、感兴趣、专注、困惑、厌烦和疲劳依次标记为第1类～第6类；

步骤1.2.数据预处理，将情感图像输入人脸检测模型，得到人脸图像；再对人脸图像依次进行灰度归一化和直方图均衡化处理；将灰度归一化和直方图均衡化处理后的人脸图像及其分类标签作为训练样本，进而得到训练集；

步骤2.模型训练：

设置损失函数，采用Adam优化器对网络模型进行训练；所述损失函数为：

其中，n为输入样本数，m为分类数；y_im表示第i个样本为第m类的模型预测值，

表示第i个样本的类型标签。

进一步的，所述数据处理模块中，评价指标包括：游客于每一个展位的驻留时间和满意度评分，游客对博物馆的满意度评分，每一个展位的满意度评分和吸引力评分，博物馆的总体满意度评分和平均参观时间；

每个评价指标的具体计算过程如下：

1)游客于每一个展位的驻留时间和满意度评分：

驻留时间计算：将游客最后一次出现在本展位的帧数与第一次出现在本展位的帧数进行差值计算，得出游客于本展位的驻留时间；

满意度计算：以10分为满分机制为每一类表情赋值：高兴：10分、感兴趣：8分、专注：7分、困惑：5分、疲劳：3分、厌烦：1分；计算游客于本展位驻留时间内表情分数的平均值作为游客对展位的满意度评分；

2)游客对博物馆的满意度评分：

针对单一游客建立满意度计算模型：

R_k＝α₁·x₁+α₂·x₂+...+α_M·x_M+β·T+γ

其中，R_k表示游客k对博物馆的满意度评分，x₁,x₂,...,x_M分别表示游客k参观第1～第M个展位的表情评分、为游客在相应展位停留时间内所有表情评分的均值，α₁,α₂,...,α_M,β,γ均为预设权重，M为展位总数；

3)每一个展位的满意度评分和吸引力评分：

针对单个展位建立吸引力评分模型；假设预设时段共有游客N人，展位数量为M，设

表示游客k在第i个展位的表情评分，

表示游客k在第i个展位的参观时间，k＝1,2,...,N，i＝1,2,...,M，R_k表示游客k的满意度评分；建立单个展位建立吸引力评分模型为：

其中，Q_i表示第i个展位吸引力评分，xⁱ表示第i个展位的满意度评分：

4)博物馆的总体满意度评分和平均参观时间：

针对博物馆建立综合评分模型，包括总体满意度评分与平均参观时长，其中，

总体满意度指数R_tol：

平均参观时长T′：

进一步的，所述可视化模块具体为：

针对游客：根据其参观展位的前后顺序、结合博物馆地图绘制参观路径图，且参观路径上的每一个展位标记游客停留时间和表情评分；参观路径图通过微信小程序或APP进行推送至游客，实现可视化；

针对管理者：将各个展位的满意度评分和吸引力评分通过热力图实时显示，同时显示博物馆的总体满意度评分和平均参观时间。

本发明的有益效果在于：

本发明提供一种基于表情识别的智慧博物馆管理***，通过摄像头(视频采集模块)实时采集每个展位的实时视频图像；并结合人脸检测模块、人脸识别模块、表情识别模块及数据处理模块得到游客在博物馆内的参观路径、以及在参观路径上每一个展位的驻留时间和展位的满意度评分；再结合所有游客的评价指标得到每一个展位的满意度评分和吸引力评分、以及博物馆的总体满意度评分和平均参观时间；并最后通过可视化模块将参观路径图通过微信小程序或APP进行推送至游客，将各个展位的满意度评分和吸引力评分热力图、博物馆的总体满意度评分和平均参观时间实时显示给博物馆管理者，实现评价指标可视化。本发明的智慧博物馆管理***相较于传统博物馆，通过游客参观过程中的真实表情识别，结合与之匹配的评价指标计算模型，能够客观的展现游客对每一个展位以及博物馆的参观满意度，即实现博物馆智慧化，同时，对管理者也能够通过各个评价指标的实时显示实现智慧博物馆更有方向性地改善服务，提高游客满意度。

附图说明

图1为本发明基于表情识别的智慧博物馆管理***的结构框图。

图2为本发明中表情识别模块的网络结构示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

本实施例提供基于表情识别的智慧博物馆管理***，其结构框图如图1所示；具体包括：视频采集模块、人脸检测模块、人脸识别模块、表情识别模块、数据处理模块、数据库及可视化模块；其中，所述数据库中预存人脸信息文件夹，所述视频采集模块为设置于博物馆的每一个展位的摄像头，通过摄像头采集得到相应展位的视频图像、并输入人脸检测模块，由人脸检测模块检测视频图像中的人脸图像、分别输入人脸识别模块和表情识别模块；所述人脸识别模块访问数据库中人脸信息文件夹，得到人脸图像的身份信息、并与人脸图像的帧数信息共同存储于数据库中；所述表情识别模块对人脸图像进行表情识别，得到表情类别、并存储于数据库中；所述数据处理模块访问数据库，计算得到评价指标，并通过可视化模块进行展示。

针对视频采集模块：

本实施例中，采用设置于博物馆的每一个展位的摄像头、用于采集该展位的视频，视频每秒包含30帧图像，然后每15帧进行一次人脸信息提取；

针对人脸检测模块：

本实施例中采用多任务级联卷积网络(MTCNN)，该模型主要通过P-Net、R-Net、和O-Net三层网络结构，一步步精确调整候选框，进行快速高效的人脸检测；需要说明的是，多任务级联卷积网络(MTCNN)为本领域常用人脸检测模型，其详细网络结构此处不再赘述，并且、本发明中人脸检测模块并不局限于MTCNN网络模型；

针对人脸识别模块：

人脸检测模块检测到的人脸信息，通过访问数据库中人脸信息文件夹(包含人物照片和相应人物ID)来识别视频数据中的人脸信息；本实施例中采用FaceNet网络，该网络亦为本领域常用人脸识别模型，其详细网络结构此处不再赘述，并且、本发明中人脸识别模块并不局限于FaceNet网络模型；需要说明的是，人脸识别模块中的人脸信息文件夹预先存储于数据库中，本实施例中，游客通过手机微信小程序或者APP预约进入博物馆时，上传个人的正面和侧面照片，用于博物馆的改进完善；游客上传的照片与其固定的ID标签进行绑定，并存入人脸信息文件夹；

针对表情识别模块：

本发明中采用的表情识别模型是根据mini_Xception网络进行的层级改进模型，经过多次调整参数、优化结构以及Dropout实验，进行多次训练结果对比，得出了A_mini_Xception网络模型；具体包括两个部分，如图2所示；第一部分主要进行特征信息提取，也就是将信息的空间相互关系信道相互关系中分离，包含了顺序连接的2个普通卷积核和5组深度可分离卷积，且每个卷积核后面都会跟着批处理的归一化操作；输入通过2个3×3的普通卷积核，再依次进入5组深度可分离卷积；每个深度可分离卷积由两个分支构成，第一分支为顺序连接的2个3×3的可分离卷积核(Separable Convolution)与1个最大池化层，第二分支为1个1×1的可分离卷积核，第一分支与第二分支的数据经过残差连接(residualconnection、图中的带圆圈符号)后输入到第二部分；其中，使用1×1可分离卷积主要是用来映射跨通道的相关性；最大池化层将特征信息压缩，筛选出重要信息，以此来保留显著特征；residual connection是矩阵对应的元素相加，得到的结果通道数不变；

第二部分由顺序连接的1个3×3的普通卷积核、1个全局平均池化层、1个Softmax层；其中，第一部分提取的特征信息和通道之间的相关性信息输入3×3的普通卷积核中，进行最后一次特征提取；再将特征提取结果输入全局平均池化层，提取得全局面部特征；最后再利用Softmax对前一层提取得全局面部特征进行细化分类；为了降低参数量，实现降维的目的，使用全局平均池化，对所有特征映射中的元素求平均值，对整个网络在结构上正则化，来防止过拟合；

构建训练集：

需要说明的是：目前较为流行的表情分类并不完全反应游客参观时的心理状态，与本发明中智慧博物馆的应用领域存在一定差异；因此，本发明基于游客参观时的心理分析，提出六种表情分类：高兴、感兴趣、专注、困惑、厌烦和疲劳；其中，尤其专注的表情特征与中性表情较为相似，个体的面部五官状态并未有明显变化；

1)表情数据集的构建

通过互联网采集或者公开数据集获取情感图像，并依据情感图像中表情进行分类：高兴、感兴趣、专注、困惑、厌烦和疲劳；本实施例中，数据集由44889张图片组成，包含从现实世界收集的大量情感图像以及目前互联网上已公布的公开数据集；现实世界的情感图像主要从互联网采集，采集方式为手动采集和爬虫采集；

2)数据预处理，对表情数据集中的情感图像进行数据预处理，得到训练集；具体步骤如下：

步骤1.删除非人脸以及遮挡过多的图片，同时去除背景等多余信息：

人脸检测通过多任务级联卷积网络MTCNN来获取人脸的两眼坐标，通过人眼坐标确定人脸定位，将除人脸定位的之外的其余部分用0填充、得到正方形图像，再将图片大小调整为48×48，从而达到去除背景的作用；此处的多任务级联卷积网络MTCNN仅用于构建训练集过程中的数据处理，可以与上述人脸识别模块相同、也可以不同；

步骤2.消除光照等因素的干扰：

由于原始数据集从各个背景采集，包含了光照等干扰因素，为避免这些因素的干扰，需要对经步骤1处理的所有图像再依次进行灰度归一化和直方图均衡化处理；

最后将经过数据预处理的情感图像及其分类标签作为训练样本，得到训练集。

模型训练：

本实施例中，采用Adam优化器进行训练，学习率设为1e-2，批量大小batch_size设为64，分类标签设为6种，训练集的1/4作为验证集；模型采用多分类的对数损失函数，这是与网络中softmax分类器相对应的损失函数，损失函数通过以下公式进行计算：

其中，n表示输入样本数；m表示分类数，高兴、感兴趣、专注、困惑、厌烦和疲劳依次标记为第1类～第6类；y_im表示第i个样本为第m类的模型预测值；

表示第i个样本的类型标签，例如，当第i个样本的分类标签为第1类时、

其余项均为0；

本实施例中，m为6，即上述损失函数为一个多输出的损失函数；

本实施例针对上述A_mini_Xception网络进行训练后，将训练好的网络模型应用于本发明扩展后的人脸表情数据集上，在测试集上得到了75％的准确效率，基于实时性的要求，该识别精度已经较高，能够保证本发明实现准确的表情识别。

针对数据处理模块：

驻留时间和满意度计算部分：

(1)驻留时间计算：***通过摄像头获取图像数据，每个展位前的摄像头获取的视频数据代表着相应展位前的人物流动信息，经过人脸检测和识别后，得到展位前出现的每一个人物ID及其驻留时间。在具体游览中，游客的脸部可能因特殊原因暂时离开摄像头范围，但是游客本身并未离开展位，例如低头或者转头与其他人交流等行为；因此仅凭人脸识别的帧数来计算停留时间是存在漏洞的，所以本发明将人物最后一次出现在本展位的帧数与第一次出现在本展位的帧数进行差值计算，即得出人物的驻留时间，此方法得出的时间数据更加准确。输出的数据结构如表1所示；算法模型得到的人物ID信息和驻留时间信息最终存入数据库，于前端可视化模块进行展示。

表1人物ID以及停留时间表

人物ID/展位信息	展位1	展位2	...
				1	10s	15s	...
2	30s	12s	...
				3	22s	16s	...
...	...	...	...

(2)满意度计算：为了减轻计算消耗，提高计算效率，本发明通过摄像头采集视频图像，每秒包含30帧图像，然后每15帧提取一次人脸信息，相当于一秒提取两次人脸信息，然后将人脸信息送入表情识别网络进行表情分类；

游客表情分为6种，以10分满分的机制为每一类表情赋值：高兴(10分)，感兴趣(8分)，专注(7分)，困惑(5分)，疲劳(3分)，厌烦(1分)；通过人脸识别获取每一位游客的停留时间，计算出对应停留时间中游客出现的表情分数的平均值进行输出，因此输出的表情分数范围是1～10，分数越高表明此游客越满意。输出的数据结构如表2所示，模型得到的人物ID信息和表情得分信息最终最终存入数据库，于前端可视化模块进行展示。

表2人物ID以及表情得分表

人物ID/展位信息	展位1	展位2	...
				1	9	9	...
2	8	6	...
				3	7	8	...
...	...	...	...

首先，针对单一游客建立满意度计算模型；通常情况下，游客对于不感兴趣的展位停留时间较短，而在较短的停留时间内可能会出现其表情评分较高，因此，单纯通过表情评分评价或停留时间无法准确的表示游客对于展位的满意度；因此，本发明建立了一个多项加权求和的游客满意度计算模型：

R_k＝α₁·x₁+α₂·x₂+...+α_M·x_M+β·T+γ

其中，R_k表示游客k对博物馆的综合满意度评分，x₁,x₂,...,x_M分别表示游客k参观第1～第M个展位的表情评分、为游客在相应展位停留时间内所有表情评分的均值，T表示游客参观博物馆的总时长，α₁,α₂,...,α_M,β,γ均为预设权重；

上述预设权重是根据一定数量的游客先验数据、采用多变量线性回归分析得到，所述先验数据为：针对单一游客的每个展位的表情评分、总停留时间及游客问卷调查满意度评分，如下表所示：

人物ID/展位信息	展位1	展位2	...	总停留时间(秒)	游客满意度R
						1	9	9	...	1208	9
2	8	6	...	964	7
						3	7	8	...	1082	7
...	...	...	...	...	...

通过上述游客满意度计算模型的建立能够客观、综合的评定游客对博物馆的满意度评分。

其次、针对单个展位建立吸引力评分模型；假设预设时段共有游客N人，展位数量为M，设

表示游客k在第i个展位的表情评分，

对于管理者，通过对所有展位的满意度评分和吸引力评分进行对比，可以对满意度较低的展位进行整改，更满足游客的参观需求，可以结合吸引力指数对展品布局进行调整，避免某些展位区域参观人数过多或者过于冷清，更加合理地进行博物馆陈列和布局。

最后，针对博物馆建立综合评分模型，包括总体满意度评分与平均参观时长，其中，

总体满意度指数：

平均参观时长：

对于管理者，博物馆总体满意度可以帮助博物馆管理者较为准确有效地了解游客的参观体验；平均参观时长表示大部分游客的游览时长，人流量较大时可以通过游览时长对预约人数进行计算，更加科学地安排展览时间和控制预约人数。

综上所述，博物馆管理者可以通过以上所有评价指标，更加智能化地管理博物馆，通过科学的计算和分析，改善博物馆陈列，提高游客的满意度，提升博物馆的服务水平。

针对可视化模块：

针对游客：根据其参观展位的前后顺序、结合博物馆地图绘制参观路径图，且参观路径上的每一个展位标记游客停留时间和表情评分；参观路径图通过微信小程序或APP进行推送至游客，即实现可视化；

针对管理者：将各个展位的满意度评分和吸引力评分通过热力图实时显示；具体为：首先获取博物馆地图，然后根据数据处理模块得到的各个展位满意度和吸引力评分，进行博物馆地图上的热力图实时显示。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于表情识别的智慧博物馆管理***，包括：视频采集模块、人脸检测模块、人脸识别模块、表情识别模块、数据处理模块、数据库及可视化模块；其特征在于，所述数据库中预存人脸信息文件夹，所述视频采集模块为设置于博物馆的每一个展位的摄像头，通过摄像头采集得到相应展位的视频图像、并输入人脸检测模块，由人脸检测模块检测视频图像中的人脸图像、分别输入人脸识别模块和表情识别模块；所述人脸识别模块访问数据库中人脸信息文件夹，得到人脸图像的身份信息、并与人脸图像的帧数信息共同存储于数据库中；所述表情识别模块对人脸图像进行表情识别，得到表情类别、并存储于数据库中；所述数据处理模块访问数据库，计算得到评价指标，并通过可视化模块进行展示。

2.按权利要求1所述基于表情识别的智慧博物馆管理***，其特征在于，所述人脸检测模块采用采用多任务级联卷积网络(MTCNN)模型，所述人脸识别模块采用FaceNet网络模型。

3.按权利要求1所述基于表情识别的智慧博物馆管理***，其特征在于，所述表情识别模块采用A_mini_Xception网络模型，所述A_mini_Xception网络模型包括两个部分，其中，第一部分包含顺序连接的2个普通卷积核和5组深度可分离卷积，且每个卷积核后面都会跟着批处理的归一化操作；每个深度可分离卷积由两个分支构成，第一分支为顺序连接的2个3×3的可分离卷积核(Separable Convolution)与1个最大池化层，第二分支为1个1×1的可分离卷积核，第一分支与第二分支的数据经过残差连接(residual connection、图中的带圆圈符号)后输入到第二部分；第二部分由顺序连接的1个3×3的普通卷积核、1个全局平均池化层、1个Softmax层。

4.按权利要求3所述基于表情识别的智慧博物馆管理***，其特征在于，所述A_mini_Xception网络模型的训练过程如下：

步骤1.构建训练集：

步骤2.模型训练：