CN113673567B

CN113673567B - 基于多角度子区域自适应的全景图情感识别方法及***

Info

Publication number: CN113673567B
Application number: CN202110816786.4A
Authority: CN
Inventors: 青春美; 黄容; 徐向民
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2023-07-21
Anticipated expiration: 2041-07-20
Also published as: CN113673567A

Abstract

本发明公开了基于多角度子区域自适应的全景图情感识别方法及***，包括用于预测沉浸式虚拟环境下的用户情感识别，包括多角度旋转模块、特征提取模块、子区域自适应模块、多尺度融合模块及情感分类模块。利用球面多角度旋转算法产生一系列等距柱状投影全景图，输入卷积神经网络获取不同层次的特征优势。通过全局特征指导局部特征，自适应地建立当前尺度上下文特征之间的关联性，捕获不同层次特征图全局与局部的上下文依赖。对不同层次的特征图上采样，在通道维度拼接实现特征融合，获取用户的情感分类标签。本发明可正确预测用户在多种场景下的情感偏好及分布，提升VR下的用户体验。

Description

基于多角度子区域自适应的全景图情感识别方法及***

技术领域

本发明涉及情感识别领域，具体涉及基于多角度子区域自适应的全景图情感识别方法及***。

背景技术

情感是一种心理和生理状态，伴随着认知和意识过程，对人情感、认知的研究是人工智能的高级阶段。随着人工智能和深度学习的蓬勃发展，建立具备感知、识别和理解人类情感能力的情感模型成为可能。通过赋予机器对用户情感做出智能、灵敏和友好反馈的能力，最终营造出一个人与人、人与机器和谐共处的自然环境，这一美好愿景为计算机的未来应用指引新方向。

传统情感诱发有图片、文字、语音、视频等方式，对应的情感识别数据集实际预测效果却不尽人意。虚拟现实技术通过沉浸式逼真、立体体验，达到情感诱发目的，是较优的情绪诱发元。近年来，深度学***面上的一种存储形式，可作为分析VR沉浸式虚拟环境的情感的有效素材。

发明内容

为了克服现有技术的缺点和不足，本发明提出基于多角度子区域自适应的全景图情感识别***及方法。

本发明通过头戴式显示器中全景内容的显示特点以及等距柱状投影方式，设计球面多角度旋转算法获取不同角度全景图，与自适应上下文的卷积神经网络相结合，从而有效提高情感分类标签的准确性。

本发明采用如下技术方案：

一种基于多角度子区域自适应的全景图情感识别方法，包括：

多角度旋转步骤：采用球面多角度旋转及等距柱状投影实现三维全方位立体视图到二维平面全景图的转换；

特征提取步骤：利用预训练卷积神经网络模型对二维平面全景图进行特征提取，获取不同层次的特征图；

子区域自适应步骤：输入不同层次的特征图，寻找全局与局部的关联性，自适应建立当前尺度的上下文特征，捕获不同层次特征图全局与局部的上下文依赖；

多尺度融合步骤：将不同层次的特征图通过上采样步骤统一尺寸，并在通道维度上进行拼接，实现多尺度特征融合；

情感分类步骤：根据不同层次特征优势，确定目标情感，输出对应的情感标签。

进一步，所述球面多角度旋转具体为：

建立以用户头部为球心的三维球坐标系，将用户在头戴显示器下呈现的360度全景图先投影到球体表面；

根据全景图内容分布特点对投影图进行旋转；

所述旋转包括水平旋转及垂直旋转，水平旋转实现两侧被切割的边缘内容旋转到中间主视区；垂直旋转实现两极严重扭曲失真内容旋转到赤道附近。

进一步，所述等距柱状投影是将经线映射为恒定间距的垂直线，将纬线映射为恒定间距的水平线，将三维立体视图等距圆柱投影到二维全景图。

进一步，三维球坐标为右手坐标系，视场角为90度，将用户双目直视方向作为水平轴，则前视口中心坐标为[0,0,0]；右视口中心坐标为[90,0,0]；后视口中心坐标为[180,0,0]；左视口中心坐标为[-90,0,0]；上视口中心坐标为[0,90,0]；下视口中心坐标为[0,-90,0]；对应与球体相切的立方体的六个面。

进一步，所述特征提取步骤具体为：

将二维全景图输入预训练好的卷积神经网络，提取视觉世界通用的不同特征空间的层次结构，构成特征向量集合[X¹,X²,...,X^l]，集合中的每一个元素代表当前层次的特征图。

进一步，所述子区域自适应步骤包括子区域内容表征分支与情感贡献度表征分支两个分支；

所述子区域内容表征分支将输入大小为h×w×c的特征图通过自适应平均池化操作，得到子区域内容表征y^s，其中h,w,c,s分别代表特征图的高度、宽度、通道数和预置尺寸；

所述情感贡献度表征分支，具体包括：

对特征向量集合[X¹,X²,...,X^l]中的每个元素进行全局池化，得到大小为1×1×c的全局信息表征g(X^l)；

利用广播机制将全局信息表征g(X^l)与输入特征图逐元素相加实现残差连接，通过1x1的卷积操作将通道数目转换为s²，从而构建大小为hw×s²的自适应情感贡献度矩阵a^s；

将自适应情感贡献度矩阵a^s与子区域内容表征y^s相乘，得到上下文特征表征向量Z^l，该向量表示每一个像素点i与每一个子区域y^s×s的关联程度。

进一步，所述自适应平均池化将输入特征图划分为s×s个子区域，得到一组子区域表示Y^s×s＝[y¹,y²,...,y^s×s]，将大小为s×s×c的特征图变形为s²×c的子区域内容表征y^s。

进一步，所述构建情感贡献度矩阵a^s具体步骤为：设子区域y^s×s对特征图i点处的情感分类标签的贡献度为a_i，则特征图任意i点对应s×s个情感贡献度向量a_i，构成集合变形得到情感贡献度矩阵a^s，其大小为hw×s²。

进一步，多尺度融合步骤，具体为：利用上采样操作，如反卷积或插值运算等，实现不同层次的多尺度特征图，尺寸统一，并在通道维度上拼接，完成特征融合，最终得到大小为H×W×(C₁+C₂+...+C_l)的底层几何信息表征与高层语义信息表征相结合的总信息表征。

一种实现基于多角度子区域自适应的全景图情感识别方法的***，包括：

多角度旋转模块：用于多角度旋转及等距柱状投影实现三维全景视图到二维全景图的转换；

特征提取模块：用于对二维全景图进行特征提取，得到不同层次的特征图；

子区域自适应模块：用于将情感分类标签一致的区域相互关联，全局特征引导局部特征自适应建立当前尺度的上下文特征的关联性，捕获长距离依赖；

多尺度融合模块：用于将不同层次特征图统一尺寸并在通道维度上拼接，实现多尺度特征融合；

情感分类模块：根据不同层次特征优势，确定目标情感，输出对应的情感标签。

本发明具有如下的有益效果：

1、针对虚拟现实诱发态下情感标签数据稀少问题，提出球面多角度旋转算法实现数据增强。对用户虚拟环境下的360度视图建立三维球坐标系，将球体沿不同坐标轴多角度旋转后，再分别进行等距柱状投影得到扩充后的数据样本，可有效提高模型的泛化能力。

2、等距柱状投影将经线和纬线等距投影到矩形平面，将导致全景内容在上下两极出现严重的扭曲失真。通过球面多角度旋转算法扩充的数据样本可保持旋转不变性，缓解扭曲失真的同时，将两侧边缘信息旋转到中心主视区，使内容特征能较好的被情感模型捕捉和提取，提升模型识别准确率。

3、利用预训练好的卷积神经网络提取全景图不同层次特征，发挥底层细节信息与高层语义信息的互补优势。通过全局特征引导局部特征，自适应地建立特征图不同区域或对象之间的关联性，捕获长距离依赖。从而有效提升模型对全景图情感诱发区域的预测性能。

4、本发明填补了全景图情感识别领域的空白，有助于在沉浸式虚拟环境下，对用户情感进行解读并收集反馈，这对于用户行为预测和VR场景建模等VR应用场景的开发至关重要。

附图说明

图1是本发明总体实施方法的流程图。

图2是用户在虚拟环境下头戴显示器的示意图。

图3(a)及图3(b)分别是三维球坐标及投影后的二维平面示意图。

图4是多角度旋转算法沿x轴旋转180度的效果示意图。

图5是本发明子区域自适应模块示意图。

图6为本发明总体实施方法的模型框架示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1所示，一种基于多角度子区域自适应的全景图情感识别方法，用于沉浸式虚拟环境下对用户情感的识别与预测，包括如下：

多角度旋转模块，对沉浸式虚拟环境呈现给用户的交互式360度视图，如图2所示，采用球面多角度旋转算法获取一系列数据扩充样本。并利用等距柱状投影将经线映射为恒定间距的垂直线，将纬线映射为恒定间距的水平线，完成三维全方位立体视图到二维平面全景图的转换。

图2中HMD表示头盔显示器。

所述球面多角度旋转算法，具体如下：建立以用户头部为球心的三维笛卡尔坐标系。将球体沿水平轴依次旋转一定角度，使得原本在两极严重扭曲的对象多角度旋转到赤道附近改善失真。同时将球体沿垂直轴依次旋转一定角度，将两侧被切割的边缘内容旋转到中心主视区。

采用多角度旋转算法的目的在于，要根据全景图内容分布特点使全景图诱发情感的区域旋转到主视的靠近赤道的位置，减少扭曲失真投影带来的不利影响，便于模型捕捉相关特征。

进一步，所述球面多角度旋转算法，具体包括如下步骤：

构建以用户头部为原点o的三维球坐标系，符合右手坐标系，如图3(a)所示。利用球面多角度旋转算法，将球体沿水平方向旋转90度，重复2次，实现两侧被切割的边缘内容旋转到中间主视区，见图4。再将球体沿垂直方向旋转45度，重复4次，将原本两极严重扭曲的对象旋转到赤道附近改善失真。每张全景图得到2x4＝8种数据增强的结果。

设全景图的高度为H，宽度为W，平面上任意一点的坐标为(u,v)，对应三维球坐标点为(x,y,z)，经纬度值为则经纬度与球坐标的关系如下：

同一点在三维空间与二维平面的转换公式如下：

将经线映射为恒定间距的垂直线，将纬线映射为恒定间距的水平线，如图3(b)所示。

在情感识别领域，由于全景图ERP存储格式存在内容扭曲失真的局限性，为了便于模型捕捉相关特征，多角度算法需要将诱发情感的对象或区域旋转到主视的靠近赤道的位置，从而经等距矩形投影到二维平面的中心位。但不同全景图需要的旋转角度不同，人工对每一张全景图个性化定制不切实际，本发明通过设定统一的旋转角度和次数，便于批量化预处理。通常来说，将球体水平旋转90度，重复2次，再将球体沿x轴旋转45度，重复4次，每张全景图得到2x4＝8种结果，可基本实现上述要求。

特征提取模块，使用在大规模图像分类任务上预训练好的卷积神经网络实现特征提取。对于输入图像I，利用公式X^l＝f(Σk^l·X^l-1+b^l)，提取视觉世界通用的不同特征空间的层次结构，构成特征图向量集合[X¹,X²,...,X^l]。其中，k^l为第l层的卷积核，X^l-1为l-1层输出的特征图，b^l为偏置项。集合中的每一个元素代表当前层次的特征图，作为子区域自适应模块的输入，发挥不同层次信息的互补优势。

子区域自适应模块，如图5所示，通过寻找全局与局部的关联性，自适应建立当前尺度的上下文特征，并捕获不同层次特征图全局与局部的上下文依赖。该模块由子区域内容表征分支与情感贡献度表征两个分支组成，具体为：

子区域内容表征分支对特征向量集合[X¹,X²,...,X^l]中的每个元素进行自适应平均池化，自适应平均池化函数定义如下：

kernel_size＝(input_size+2×padding)-(output_size-1)×stride

即输入尺寸、输出尺寸、边界填充及移动步长决定当前卷积核的尺寸。将大小为h×w×c的特征图X^l转换为s×s×c，其中h,w,c,s分别代表特征图的高度、宽度、通道数和预置尺寸。则自适应平均池化将输入特征图划分为s×s个子区域，得到一组子区域表示Y^s×s＝[y¹,y²,...,y^s×s]。将大小为s×s×c的特征图变形为s²×c的子区域内容表征y^s。

情感贡献度表征分支对特征向量集合[X¹,X²,...,X^l]中的每个元素进行全局平均池化，得到大小为1×1×c的全局信息表征g(X^l)。利用广播机制将1×1×c全局信息表征与输入特征图逐像素相加实现残差连接，得到大小为h×w×c的特征图。

设子区域y^s×s对特征图i点处的情感分类标签的贡献度为a_i，通过1x1的卷积操作将通道数目转换为s²，则特征图任意i点对应s×s个情感贡献度向量a_i，构成集合变形得到大小为hw×s²自适应情感贡献度矩阵a^s。

将情感贡献度表征分支输出的情感贡献度矩阵a^s与子区域内容表征分支输出的子区域内容表征y^s相乘，函数定义如下：

得到上下文特征表征向量Z^l，该向量表示每一个像素点i与每一个子区域y^s×s的关联程度，其内部隐含的情感贡献度向量A_i表征全局与局部的连接权重，随着网络的不断迭代而自动优化。

进一步，所述依赖是指两个或多个情感主体之间的关联性。特征提取模块利用全景图全局和局部的特征，可实现对不同区域或对象的识别，比如情感主体人和猫，但这不足以作为情感预测的标准。还需要通过子区域自适应模块，自适应的建立人和猫之间的关联性，人在逗弄或抚摸小猫，从而给出正确的积极的情感标签。

多尺度融合模块，实现对不同层次的特征图进行特征融合。利用上采样操作实现不同层次特征图的尺寸统一，然后将统一尺寸的特征图在通道维度上进行拼接，最终得到大小为H×W×(C₁+C₂+...+C_l)的底层几何信息表征与高层语义信息表征结合。

情感分类模块，对含显著主体的全景图及不含显著主体的全景图都能实现较高的情感分类效果。由于全连接层的参数冗余，利用全局平均池化取代全连接层起到“分类器”的作用。利用更关注抽象语义信息的深层特征，对具有显著主体的全景图进行情感识别。利用提供关于边缘、条纹以及颜色等细节感知信息的浅层特征，对不含显著主体的全景图进行情感识别。得到准确率更高的情感分类标签，模型的整体框架如图6所示。

特征提取模块不同层次卷积操作提取的特征不同，conv layer_1，2等底层卷积提取视觉层特征，如色彩，纹理，轮廓等，conv layer 4，5等高层卷积提取对象层和概念层特征，即抽象的语义信息。预测不同/相同全景图的情感区域需要结合不同层次的特征优势，若全景图内容是单一直白的自然风光场景，则底层颜色、纹理信息是正确分类的关键；若全景图内容是复杂的多对象交互场景，那么高层的语义信息就很重要。子区域自适应模块通过建立特征图不同区域和对象之间的关联性，有利于更好地捕获情感诱发区域，从而给出正确的情感标签。

本实施例中，特征提取模块提取了conv layer_2，3，4，5的4层特征图，同时每一层的特征图都要送入子区域自适应模块，在不同尺度S＝1，2，4，n(s设置为多少也是没有限制的，一般是1，2，4结合的效果最好)下建立不同区域的关联性。因为不同层次特征图的大小不一样，需要通过多尺度融合模块，首先是统一尺度，然后在通道维度上将上述所有特征图进行拼接，将拼接后的总特征作为情感分类的依据，最后得到输入全景图的情感极性，即积极的还是消极的。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多角度子区域自适应的全景图情感识别方法，其特征在于，包括：

特征提取步骤：利用预训练模型对二维全景图进行特征提取，获取不同层次的特征图；

多尺度融合步骤：将不同层次的特征图在通道维度上进行拼接，实现多尺度特征融合；

情感分类步骤：根据不同层次特征优势，确定目标情感，输出对应的情感标签；

所述球面多角度旋转具体为：

根据全景图内容分布特点对投影图进行旋转；

所述旋转包括水平旋转及垂直旋转，水平旋转实现两侧被切割的边缘内容旋转到中间主视区；垂直旋转实现两极严重扭曲失真内容旋转到赤道附近；

所述等距柱状投影是将经线映射为恒定间距的垂直线，将纬线映射为恒定间距的水平线，将三维立体视图等距圆柱投影到二维全景图；

所述子区域自适应步骤包括子区域内容表征分支与情感贡献度表征分支两个分支；

所述情感贡献度表征分支，具体包括：

2.根据权利要求1所述的全景图情感识别方法，其特征在于，三维球坐标为右手坐标系，视场角为90度，将用户双目直视方向作为水平轴，则前视口中心坐标为[0,0,0]；右视口中心坐标为[90,0,0]；后视口中心坐标为[180,0,0]；左视口中心坐标为[-90,0,0]；上视口中心坐标为[0,90,0]；下视口中心坐标为[0,-90,0]；对应与球体相切的立方体的六个面。

3.根据权利要求1所述的全景图情感识别方法，其特征在于，所述特征提取步骤具体为：

4.根据权利要求1所述的全景图情感识别方法，其特征在于，构建大小为hw×s²的自适应情感贡献度矩阵a^s，具体为：设子区域y^s×s对特征图i点处的情感分类标签的贡献度为a_i，通过1x1的卷积操作将通道数目转换为s²，则特征图任意i点对应s×s个情感贡献度向量a_i，构成集合变形得到大小为hw×s²自适应情感贡献度矩阵a^s。

5.根据权利要求1所述的全景图情感识别方法，其特征在于，自适应平均池化将输入特征图划分为s×s个子区域，得到一组子区域表示Y^s×s＝[y¹,y²,...,y^s×s]，将大小为s×s×c的特征图变形为s²×c的子区域内容表征y^s。

6.一种实现基于权利要求1-5任一项所述的多角度子区域自适应的全景图情感识别方法的***，其特征在于，包括：

特征提取模块：对二维全景图进行特征提取，得到不同层次的特征图，捕获特征图全局与局部的上下文依赖；

子区域自适应模块：将情感分类标签一致的区域相互关联，通过寻找全局与局部的关联性，自适应建立当前尺度的上下文特征；

多尺度融合模块：将特征图在通道维度上拼接，进行多尺度特征融合；