CN113673567B - 基于多角度子区域自适应的全景图情感识别方法及*** - Google Patents
基于多角度子区域自适应的全景图情感识别方法及*** Download PDFInfo
- Publication number
- CN113673567B CN113673567B CN202110816786.4A CN202110816786A CN113673567B CN 113673567 B CN113673567 B CN 113673567B CN 202110816786 A CN202110816786 A CN 202110816786A CN 113673567 B CN113673567 B CN 113673567B
- Authority
- CN
- China
- Prior art keywords
- emotion
- feature
- sub
- module
- panorama
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 21
- 230000008451 emotion Effects 0.000 claims abstract description 75
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 16
- 238000012512 characterization method Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 abstract description 4
- 230000006698 induction Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/06—Topological mapping of higher dimensional structures onto lower dimensional surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
- G06T3/047—Fisheye or wide-angle transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Biology (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于多角度子区域自适应的全景图情感识别方法及***,包括用于预测沉浸式虚拟环境下的用户情感识别,包括多角度旋转模块、特征提取模块、子区域自适应模块、多尺度融合模块及情感分类模块。利用球面多角度旋转算法产生一系列等距柱状投影全景图,输入卷积神经网络获取不同层次的特征优势。通过全局特征指导局部特征,自适应地建立当前尺度上下文特征之间的关联性,捕获不同层次特征图全局与局部的上下文依赖。对不同层次的特征图上采样,在通道维度拼接实现特征融合,获取用户的情感分类标签。本发明可正确预测用户在多种场景下的情感偏好及分布,提升VR下的用户体验。
Description
技术领域
本发明涉及情感识别领域,具体涉及基于多角度子区域自适应的全景图情感识别方法及***。
背景技术
情感是一种心理和生理状态,伴随着认知和意识过程,对人情感、认知的研究是人工智能的高级阶段。随着人工智能和深度学习的蓬勃发展,建立具备感知、识别和理解人类情感能力的情感模型成为可能。通过赋予机器对用户情感做出智能、灵敏和友好反馈的能力,最终营造出一个人与人、人与机器和谐共处的自然环境,这一美好愿景为计算机的未来应用指引新方向。
传统情感诱发有图片、文字、语音、视频等方式,对应的情感识别数据集实际预测效果却不尽人意。虚拟现实技术通过沉浸式逼真、立体体验,达到情感诱发目的,是较优的情绪诱发元。近年来,深度学***面上的一种存储形式,可作为分析VR沉浸式虚拟环境的情感的有效素材。
发明内容
为了克服现有技术的缺点和不足,本发明提出基于多角度子区域自适应的全景图情感识别***及方法。
本发明通过头戴式显示器中全景内容的显示特点以及等距柱状投影方式,设计球面多角度旋转算法获取不同角度全景图,与自适应上下文的卷积神经网络相结合,从而有效提高情感分类标签的准确性。
本发明采用如下技术方案:
一种基于多角度子区域自适应的全景图情感识别方法,包括:
多角度旋转步骤:采用球面多角度旋转及等距柱状投影实现三维全方位立体视图到二维平面全景图的转换;
特征提取步骤:利用预训练卷积神经网络模型对二维平面全景图进行特征提取,获取不同层次的特征图;
子区域自适应步骤:输入不同层次的特征图,寻找全局与局部的关联性,自适应建立当前尺度的上下文特征,捕获不同层次特征图全局与局部的上下文依赖;
多尺度融合步骤:将不同层次的特征图通过上采样步骤统一尺寸,并在通道维度上进行拼接,实现多尺度特征融合;
情感分类步骤:根据不同层次特征优势,确定目标情感,输出对应的情感标签。
进一步,所述球面多角度旋转具体为:
建立以用户头部为球心的三维球坐标系,将用户在头戴显示器下呈现的360度全景图先投影到球体表面;
根据全景图内容分布特点对投影图进行旋转;
所述旋转包括水平旋转及垂直旋转,水平旋转实现两侧被切割的边缘内容旋转到中间主视区;垂直旋转实现两极严重扭曲失真内容旋转到赤道附近。
进一步,所述等距柱状投影是将经线映射为恒定间距的垂直线,将纬线映射为恒定间距的水平线,将三维立体视图等距圆柱投影到二维全景图。
进一步,三维球坐标为右手坐标系,视场角为90度,将用户双目直视方向作为水平轴,则前视口中心坐标为[0,0,0];右视口中心坐标为[90,0,0];后视口中心坐标为[180,0,0];左视口中心坐标为[-90,0,0];上视口中心坐标为[0,90,0];下视口中心坐标为[0,-90,0];对应与球体相切的立方体的六个面。
进一步,所述特征提取步骤具体为:
将二维全景图输入预训练好的卷积神经网络,提取视觉世界通用的不同特征空间的层次结构,构成特征向量集合[X1,X2,...,Xl],集合中的每一个元素代表当前层次的特征图。
进一步,所述子区域自适应步骤包括子区域内容表征分支与情感贡献度表征分支两个分支;
所述子区域内容表征分支将输入大小为h×w×c的特征图通过自适应平均池化操作,得到子区域内容表征ys,其中h,w,c,s分别代表特征图的高度、宽度、通道数和预置尺寸;
所述情感贡献度表征分支,具体包括:
对特征向量集合[X1,X2,...,Xl]中的每个元素进行全局池化,得到大小为1×1×c的全局信息表征g(Xl);
利用广播机制将全局信息表征g(Xl)与输入特征图逐元素相加实现残差连接,通过1x1的卷积操作将通道数目转换为s2,从而构建大小为hw×s2的自适应情感贡献度矩阵as;
将自适应情感贡献度矩阵as与子区域内容表征ys相乘,得到上下文特征表征向量Zl,该向量表示每一个像素点i与每一个子区域ys×s的关联程度。
进一步,所述自适应平均池化将输入特征图划分为s×s个子区域,得到一组子区域表示Ys×s=[y1,y2,...,ys×s],将大小为s×s×c的特征图变形为s2×c的子区域内容表征ys。
进一步,所述构建情感贡献度矩阵as具体步骤为:设子区域ys×s对特征图i点处的情感分类标签的贡献度为ai,则特征图任意i点对应s×s个情感贡献度向量ai,构成集合变形得到情感贡献度矩阵as,其大小为hw×s2。
进一步,多尺度融合步骤,具体为:利用上采样操作,如反卷积或插值运算等,实现不同层次的多尺度特征图,尺寸统一,并在通道维度上拼接,完成特征融合,最终得到大小为H×W×(C1+C2+...+Cl)的底层几何信息表征与高层语义信息表征相结合的总信息表征。
一种实现基于多角度子区域自适应的全景图情感识别方法的***,包括:
多角度旋转模块:用于多角度旋转及等距柱状投影实现三维全景视图到二维全景图的转换;
特征提取模块:用于对二维全景图进行特征提取,得到不同层次的特征图;
子区域自适应模块:用于将情感分类标签一致的区域相互关联,全局特征引导局部特征自适应建立当前尺度的上下文特征的关联性,捕获长距离依赖;
多尺度融合模块:用于将不同层次特征图统一尺寸并在通道维度上拼接,实现多尺度特征融合;
情感分类模块:根据不同层次特征优势,确定目标情感,输出对应的情感标签。
本发明具有如下的有益效果:
1、针对虚拟现实诱发态下情感标签数据稀少问题,提出球面多角度旋转算法实现数据增强。对用户虚拟环境下的360度视图建立三维球坐标系,将球体沿不同坐标轴多角度旋转后,再分别进行等距柱状投影得到扩充后的数据样本,可有效提高模型的泛化能力。
2、等距柱状投影将经线和纬线等距投影到矩形平面,将导致全景内容在上下两极出现严重的扭曲失真。通过球面多角度旋转算法扩充的数据样本可保持旋转不变性,缓解扭曲失真的同时,将两侧边缘信息旋转到中心主视区,使内容特征能较好的被情感模型捕捉和提取,提升模型识别准确率。
3、利用预训练好的卷积神经网络提取全景图不同层次特征,发挥底层细节信息与高层语义信息的互补优势。通过全局特征引导局部特征,自适应地建立特征图不同区域或对象之间的关联性,捕获长距离依赖。从而有效提升模型对全景图情感诱发区域的预测性能。
4、本发明填补了全景图情感识别领域的空白,有助于在沉浸式虚拟环境下,对用户情感进行解读并收集反馈,这对于用户行为预测和VR场景建模等VR应用场景的开发至关重要。
附图说明
图1是本发明总体实施方法的流程图。
图2是用户在虚拟环境下头戴显示器的示意图。
图3(a)及图3(b)分别是三维球坐标及投影后的二维平面示意图。
图4是多角度旋转算法沿x轴旋转180度的效果示意图。
图5是本发明子区域自适应模块示意图。
图6为本发明总体实施方法的模型框架示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1所示,一种基于多角度子区域自适应的全景图情感识别方法,用于沉浸式虚拟环境下对用户情感的识别与预测,包括如下:
多角度旋转模块,对沉浸式虚拟环境呈现给用户的交互式360度视图,如图2所示,采用球面多角度旋转算法获取一系列数据扩充样本。并利用等距柱状投影将经线映射为恒定间距的垂直线,将纬线映射为恒定间距的水平线,完成三维全方位立体视图到二维平面全景图的转换。
图2中HMD表示头盔显示器。
所述球面多角度旋转算法,具体如下:建立以用户头部为球心的三维笛卡尔坐标系。将球体沿水平轴依次旋转一定角度,使得原本在两极严重扭曲的对象多角度旋转到赤道附近改善失真。同时将球体沿垂直轴依次旋转一定角度,将两侧被切割的边缘内容旋转到中心主视区。
采用多角度旋转算法的目的在于,要根据全景图内容分布特点使全景图诱发情感的区域旋转到主视的靠近赤道的位置,减少扭曲失真投影带来的不利影响,便于模型捕捉相关特征。
所述旋转包括水平旋转及垂直旋转,水平旋转实现两侧被切割的边缘内容旋转到中间主视区;垂直旋转实现两极严重扭曲失真内容旋转到赤道附近。
进一步,所述球面多角度旋转算法,具体包括如下步骤:
构建以用户头部为原点o的三维球坐标系,符合右手坐标系,如图3(a)所示。利用球面多角度旋转算法,将球体沿水平方向旋转90度,重复2次,实现两侧被切割的边缘内容旋转到中间主视区,见图4。再将球体沿垂直方向旋转45度,重复4次,将原本两极严重扭曲的对象旋转到赤道附近改善失真。每张全景图得到2x4=8种数据增强的结果。
设全景图的高度为H,宽度为W,平面上任意一点的坐标为(u,v),对应三维球坐标点为(x,y,z),经纬度值为则经纬度与球坐标的关系如下:
同一点在三维空间与二维平面的转换公式如下:
将经线映射为恒定间距的垂直线,将纬线映射为恒定间距的水平线,如图3(b)所示。
在情感识别领域,由于全景图ERP存储格式存在内容扭曲失真的局限性,为了便于模型捕捉相关特征,多角度算法需要将诱发情感的对象或区域旋转到主视的靠近赤道的位置,从而经等距矩形投影到二维平面的中心位。但不同全景图需要的旋转角度不同,人工对每一张全景图个性化定制不切实际,本发明通过设定统一的旋转角度和次数,便于批量化预处理。通常来说,将球体水平旋转90度,重复2次,再将球体沿x轴旋转45度,重复4次,每张全景图得到2x4=8种结果,可基本实现上述要求。
特征提取模块,使用在大规模图像分类任务上预训练好的卷积神经网络实现特征提取。对于输入图像I,利用公式Xl=f(Σkl·Xl-1+bl),提取视觉世界通用的不同特征空间的层次结构,构成特征图向量集合[X1,X2,...,Xl]。其中,kl为第l层的卷积核,Xl-1为l-1层输出的特征图,bl为偏置项。集合中的每一个元素代表当前层次的特征图,作为子区域自适应模块的输入,发挥不同层次信息的互补优势。
子区域自适应模块,如图5所示,通过寻找全局与局部的关联性,自适应建立当前尺度的上下文特征,并捕获不同层次特征图全局与局部的上下文依赖。该模块由子区域内容表征分支与情感贡献度表征两个分支组成,具体为:
子区域内容表征分支对特征向量集合[X1,X2,...,Xl]中的每个元素进行自适应平均池化,自适应平均池化函数定义如下:
kernel_size=(input_size+2×padding)-(output_size-1)×stride
即输入尺寸、输出尺寸、边界填充及移动步长决定当前卷积核的尺寸。将大小为h×w×c的特征图Xl转换为s×s×c,其中h,w,c,s分别代表特征图的高度、宽度、通道数和预置尺寸。则自适应平均池化将输入特征图划分为s×s个子区域,得到一组子区域表示Ys×s=[y1,y2,...,ys×s]。将大小为s×s×c的特征图变形为s2×c的子区域内容表征ys。
情感贡献度表征分支对特征向量集合[X1,X2,...,Xl]中的每个元素进行全局平均池化,得到大小为1×1×c的全局信息表征g(Xl)。利用广播机制将1×1×c全局信息表征与输入特征图逐像素相加实现残差连接,得到大小为h×w×c的特征图。
设子区域ys×s对特征图i点处的情感分类标签的贡献度为ai,通过1x1的卷积操作将通道数目转换为s2,则特征图任意i点对应s×s个情感贡献度向量ai,构成集合变形得到大小为hw×s2自适应情感贡献度矩阵as。
将情感贡献度表征分支输出的情感贡献度矩阵as与子区域内容表征分支输出的子区域内容表征ys相乘,函数定义如下:
得到上下文特征表征向量Zl,该向量表示每一个像素点i与每一个子区域ys×s的关联程度,其内部隐含的情感贡献度向量Ai表征全局与局部的连接权重,随着网络的不断迭代而自动优化。
进一步,所述依赖是指两个或多个情感主体之间的关联性。特征提取模块利用全景图全局和局部的特征,可实现对不同区域或对象的识别,比如情感主体人和猫,但这不足以作为情感预测的标准。还需要通过子区域自适应模块,自适应的建立人和猫之间的关联性,人在逗弄或抚摸小猫,从而给出正确的积极的情感标签。
多尺度融合模块,实现对不同层次的特征图进行特征融合。利用上采样操作实现不同层次特征图的尺寸统一,然后将统一尺寸的特征图在通道维度上进行拼接,最终得到大小为H×W×(C1+C2+...+Cl)的底层几何信息表征与高层语义信息表征结合。
情感分类模块,对含显著主体的全景图及不含显著主体的全景图都能实现较高的情感分类效果。由于全连接层的参数冗余,利用全局平均池化取代全连接层起到“分类器”的作用。利用更关注抽象语义信息的深层特征,对具有显著主体的全景图进行情感识别。利用提供关于边缘、条纹以及颜色等细节感知信息的浅层特征,对不含显著主体的全景图进行情感识别。得到准确率更高的情感分类标签,模型的整体框架如图6所示。
特征提取模块不同层次卷积操作提取的特征不同,conv layer_1,2等底层卷积提取视觉层特征,如色彩,纹理,轮廓等,conv layer 4,5等高层卷积提取对象层和概念层特征,即抽象的语义信息。预测不同/相同全景图的情感区域需要结合不同层次的特征优势,若全景图内容是单一直白的自然风光场景,则底层颜色、纹理信息是正确分类的关键;若全景图内容是复杂的多对象交互场景,那么高层的语义信息就很重要。子区域自适应模块通过建立特征图不同区域和对象之间的关联性,有利于更好地捕获情感诱发区域,从而给出正确的情感标签。
本实施例中,特征提取模块提取了conv layer_2,3,4,5的4层特征图,同时每一层的特征图都要送入子区域自适应模块,在不同尺度S=1,2,4,n(s设置为多少也是没有限制的,一般是1,2,4结合的效果最好)下建立不同区域的关联性。因为不同层次特征图的大小不一样,需要通过多尺度融合模块,首先是统一尺度,然后在通道维度上将上述所有特征图进行拼接,将拼接后的总特征作为情感分类的依据,最后得到输入全景图的情感极性,即积极的还是消极的。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于多角度子区域自适应的全景图情感识别方法,其特征在于,包括:
多角度旋转步骤:采用球面多角度旋转及等距柱状投影实现三维全方位立体视图到二维平面全景图的转换;
特征提取步骤:利用预训练模型对二维全景图进行特征提取,获取不同层次的特征图;
子区域自适应步骤:输入不同层次的特征图,寻找全局与局部的关联性,自适应建立当前尺度的上下文特征,捕获不同层次特征图全局与局部的上下文依赖;
多尺度融合步骤:将不同层次的特征图在通道维度上进行拼接,实现多尺度特征融合;
情感分类步骤:根据不同层次特征优势,确定目标情感,输出对应的情感标签;
所述球面多角度旋转具体为:
建立以用户头部为球心的三维球坐标系,将用户在头戴显示器下呈现的360度全景图先投影到球体表面;
根据全景图内容分布特点对投影图进行旋转;
所述旋转包括水平旋转及垂直旋转,水平旋转实现两侧被切割的边缘内容旋转到中间主视区;垂直旋转实现两极严重扭曲失真内容旋转到赤道附近;
所述等距柱状投影是将经线映射为恒定间距的垂直线,将纬线映射为恒定间距的水平线,将三维立体视图等距圆柱投影到二维全景图;
所述子区域自适应步骤包括子区域内容表征分支与情感贡献度表征分支两个分支;
所述子区域内容表征分支将输入大小为h×w×c的特征图通过自适应平均池化操作,得到子区域内容表征ys,其中h,w,c,s分别代表特征图的高度、宽度、通道数和预置尺寸;
所述情感贡献度表征分支,具体包括:
对特征向量集合[X1,X2,...,Xl]中的每个元素进行全局池化,得到大小为1×1×c的全局信息表征g(Xl);
利用广播机制将全局信息表征g(Xl)与输入特征图逐元素相加实现残差连接,通过1x1的卷积操作将通道数目转换为s2,从而构建大小为hw×s2的自适应情感贡献度矩阵as;
将自适应情感贡献度矩阵as与子区域内容表征ys相乘,得到上下文特征表征向量Zl,该向量表示每一个像素点i与每一个子区域ys×s的关联程度。
2.根据权利要求1所述的全景图情感识别方法,其特征在于,三维球坐标为右手坐标系,视场角为90度,将用户双目直视方向作为水平轴,则前视口中心坐标为[0,0,0];右视口中心坐标为[90,0,0];后视口中心坐标为[180,0,0];左视口中心坐标为[-90,0,0];上视口中心坐标为[0,90,0];下视口中心坐标为[0,-90,0];对应与球体相切的立方体的六个面。
3.根据权利要求1所述的全景图情感识别方法,其特征在于,所述特征提取步骤具体为:
将二维全景图输入预训练好的卷积神经网络,提取视觉世界通用的不同特征空间的层次结构,构成特征向量集合[X1,X2,...,Xl],集合中的每一个元素代表当前层次的特征图。
4.根据权利要求1所述的全景图情感识别方法,其特征在于,构建大小为hw×s2的自适应情感贡献度矩阵as,具体为:设子区域ys×s对特征图i点处的情感分类标签的贡献度为ai,通过1x1的卷积操作将通道数目转换为s2,则特征图任意i点对应s×s个情感贡献度向量ai,构成集合变形得到大小为hw×s2自适应情感贡献度矩阵as。
5.根据权利要求1所述的全景图情感识别方法,其特征在于,自适应平均池化将输入特征图划分为s×s个子区域,得到一组子区域表示Ys×s=[y1,y2,...,ys×s],将大小为s×s×c的特征图变形为s2×c的子区域内容表征ys。
6.一种实现基于权利要求1-5任一项所述的多角度子区域自适应的全景图情感识别方法的***,其特征在于,包括:
多角度旋转模块:用于多角度旋转及等距柱状投影实现三维全景视图到二维全景图的转换;
特征提取模块:对二维全景图进行特征提取,得到不同层次的特征图,捕获特征图全局与局部的上下文依赖;
子区域自适应模块:将情感分类标签一致的区域相互关联,通过寻找全局与局部的关联性,自适应建立当前尺度的上下文特征;
多尺度融合模块:将特征图在通道维度上拼接,进行多尺度特征融合;
情感分类模块:根据不同层次特征优势,确定目标情感,输出对应的情感标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110816786.4A CN113673567B (zh) | 2021-07-20 | 2021-07-20 | 基于多角度子区域自适应的全景图情感识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110816786.4A CN113673567B (zh) | 2021-07-20 | 2021-07-20 | 基于多角度子区域自适应的全景图情感识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113673567A CN113673567A (zh) | 2021-11-19 |
CN113673567B true CN113673567B (zh) | 2023-07-21 |
Family
ID=78539860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110816786.4A Active CN113673567B (zh) | 2021-07-20 | 2021-07-20 | 基于多角度子区域自适应的全景图情感识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673567B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114201970A (zh) * | 2021-11-23 | 2022-03-18 | 国家电网有限公司华东分部 | 一种基于语义特征抓取电网调度事件检测的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506722A (zh) * | 2017-08-18 | 2017-12-22 | 中国地质大学(武汉) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 |
CN111832620A (zh) * | 2020-06-11 | 2020-10-27 | 桂林电子科技大学 | 一种基于双注意力多层特征融合的图片情感分类方法 |
CN112784764A (zh) * | 2021-01-27 | 2021-05-11 | 南京邮电大学 | 一种基于局部与全局注意力机制的表情识别方法及*** |
CN112800875A (zh) * | 2021-01-14 | 2021-05-14 | 北京理工大学 | 一种混合特征融合和决策融合的多模态情感识别方法 |
CN113011504A (zh) * | 2021-03-23 | 2021-06-22 | 华南理工大学 | 基于视角权重和特征融合的虚拟现实场景情感识别方法 |
-
2021
- 2021-07-20 CN CN202110816786.4A patent/CN113673567B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506722A (zh) * | 2017-08-18 | 2017-12-22 | 中国地质大学(武汉) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 |
CN111832620A (zh) * | 2020-06-11 | 2020-10-27 | 桂林电子科技大学 | 一种基于双注意力多层特征融合的图片情感分类方法 |
CN112800875A (zh) * | 2021-01-14 | 2021-05-14 | 北京理工大学 | 一种混合特征融合和决策融合的多模态情感识别方法 |
CN112784764A (zh) * | 2021-01-27 | 2021-05-11 | 南京邮电大学 | 一种基于局部与全局注意力机制的表情识别方法及*** |
CN113011504A (zh) * | 2021-03-23 | 2021-06-22 | 华南理工大学 | 基于视角权重和特征融合的虚拟现实场景情感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113673567A (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3923248A1 (en) | Image processing method and apparatus, electronic device and computer-readable storage medium | |
Henderson et al. | Unsupervised object-centric video generation and decomposition in 3D | |
CN111563502A (zh) | 图像的文本识别方法、装置、电子设备及计算机存储介质 | |
CN112954292B (zh) | 一种基于增强现实的数字博物馆导览***和方法 | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
WO2022197431A1 (en) | Methods and systems for personalized 3d head model deformation | |
Li et al. | Three-dimensional traffic scenes simulation from road image sequences | |
US11823415B2 (en) | 3D pose estimation in robotics | |
CN113822965A (zh) | 图像渲染处理方法、装置和设备及计算机存储介质 | |
Karakottas et al. | 360 surface regression with a hyper-sphere loss | |
CN115222917A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
CN115115805A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
IL299465A (en) | An object recognition neural network for predicting a missing visual information center | |
WO2022197430A1 (en) | Methods and systems for forming personalized 3d head and facial models | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN113673567B (zh) | 基于多角度子区域自适应的全景图情感识别方法及*** | |
CN116740261A (zh) | 图像重建方法和装置、图像重建模型的训练方法和装置 | |
WO2021151380A1 (en) | Method for rendering virtual object based on illumination estimation, method for training neural network, and related products | |
CN117635801A (zh) | 基于实时渲染可泛化神经辐射场的新视图合成方法及*** | |
CN114283152A (zh) | 图像处理、图像处理模型的训练方法、装置、设备及介质 | |
CN117333645A (zh) | 一种环形全息交互***及其设备 | |
CN113570615A (zh) | 一种基于深度学习的图像处理方法、电子设备及存储介质 | |
CN117115398A (zh) | 一种虚实融合的数字孪生流体现象模拟方法 | |
CN115393471A (zh) | 图像处理方法、装置及电子设备 | |
Yao et al. | Neural Radiance Field-based Visual Rendering: A Comprehensive Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |