CN116400802A - 虚拟现实设备及多模态情绪识别方法 - Google Patents

虚拟现实设备及多模态情绪识别方法 Download PDF

Info

Publication number
CN116400802A
CN116400802A CN202310291727.9A CN202310291727A CN116400802A CN 116400802 A CN116400802 A CN 116400802A CN 202310291727 A CN202310291727 A CN 202310291727A CN 116400802 A CN116400802 A CN 116400802A
Authority
CN
China
Prior art keywords
feature
features
image
electroencephalogram
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310291727.9A
Other languages
English (en)
Inventor
许畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Electronic Technology Wuhan Co ltd
Original Assignee
Hisense Electronic Technology Wuhan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Electronic Technology Wuhan Co ltd filed Critical Hisense Electronic Technology Wuhan Co ltd
Priority to CN202310291727.9A priority Critical patent/CN116400802A/zh
Publication of CN116400802A publication Critical patent/CN116400802A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Dermatology (AREA)
  • Neurology (AREA)
  • Neurosurgery (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例提供一种虚拟现实设备及多模态情绪识别方法,所述方法可以响应于用户输入的情绪识别指令,获取语音信号、面部表情图像以及脑电信号,然后提取语音信号中的音频特征,以及提取面部表情图像的图像特征,以及提取脑电信号的脑电特征。然后将音频特征与图像特征进行拼接,得到图音特征,以及将图音特征与脑电特征执行共同注意力编码,得到赋予权重的权重脑电特征。再将音频特征、图像特征以及权重脑电特征执行特征融合,得到多模态特征向量。最后将多模态特征向量输入至情绪分类模型,得到情绪识别结果。本申请可以将不同模态特征在语义空间中对齐,对情绪特征进行多模态的分析,以提高在人机交互过程中,情绪分析的准确性。

Description

虚拟现实设备及多模态情绪识别方法
技术领域
本申请涉及虚拟现实技术领域,主要涉及一种虚拟现实设备及多模态情绪识别方法。
背景技术
基于虚拟现实的人机交互***,如AR设备、VR设备等强调沉浸感和交互感,上述虚拟现实设备也会借助场景渲染、模拟、传感等技术营造虚拟场景。为提高用户对虚拟场景的体验感,虚拟现实设备还可以识别人类对象对虚拟场景的情绪变化,以提升人机交互体验。
情绪识别是通过获取用户的生理或非生理信号对个体的情绪状态进行自动判别,可以通过文本、语音、面部图像等进行情绪判断。但是,上述情绪判断的手段模态单一,无法对复杂的情绪特征进行表征和准确识别。除此之外,文本、语音、面部图像这类信息往往比较表层,无法客观、真实地识别出真正的情绪信息。
发明内容
本申请的部分实施例提供一种虚拟现实设备及多模态情绪识别方法,以解决情绪识别方法手段模态单一,造成情绪识别不准确的问题。
第一方面,本申请的部分实施例提供一种虚拟现实设备,所述虚拟现实设备包括存储器、采集接口以及控制器,其中,所述存储器被配置为存储情感分类模型,所述情绪分类模型为根据样本特征数据训练得到的神经网络模型,所述样本特征数据为带有分类标签的多模态特征向量。所述采集接口被配置为采集语音信号、面部表情图像以及脑电信号。所述控制器被配置为:
响应于情绪识别指令,获取所述语音信号、所述面部表情图像以及脑电信号;
提取所述语音信号中的音频特征,以及提取所述面部表情图像的图像特征,以及提取所述脑电信号的脑电特征;
拼接所述音频特征和所述图像特征,以得到图音特征,以及将所述图音特征与所述脑电特征执行共同注意力编码,得到权重脑电特征;
将所述音频特征、图像特征以及权重脑电特征执行特征融合,得到多模态特征向量;
将所述多模态特征向量输入至所述情绪分类模型,得到情绪识别结果。
第二方面,本申请的部分实施例提供一种多模态情绪识别方法,应用于虚拟现实设备,所述虚拟现实设备包括存储器、采集接口以及控制器,其中,所述存储器被配置为存储情绪分类模型,所述情绪分类模型为根据样本特征数据训练得到的神经网络模型,所述样本特征数据为带有分类标签的多模态特征向量;所述采集接口被配置为采集语音信号、面部表情图像以及脑电信号;所述方法包括:
响应于情绪识别指令,获取所述语音信号、所述面部表情图像以及脑电信号;
提取所述语音信号中的音频特征,以及提取所述面部表情图像的图像特征,以及提取所述脑电信号的脑电特征;
拼接所述音频特征和所述图像特征,以得到图音特征,以及将所述图音特征与所述脑电特征执行共同注意力编码,得到权重脑电特征;
将所述音频特征、图像特征以及权重脑电特征执行特征融合,得到多模态特征向量;
将所述多模态特征向量输入至所述情绪分类模型,得到情绪识别结果。
由以上方案可知,本申请实施例提供一种虚拟现实设备及多模态情绪识别方法,所述方法可以响应于用户输入的情绪识别指令,获取语音信号、面部表情图像以及脑电信号,然后提取语音信号中的音频特征,以及提取面部表情图像的图像特征,以及提取脑电信号的脑电特征。然后将音频特征与图像特征进行拼接,得到图音特征,以及将图音特征与脑电特征执行共同注意力编码,得到赋予权重的权重脑电特征。再将音频特征、图像特征以及权重脑电特征执行特征融合,得到多模态特征向量。最后将多模态特征向量输入至情绪分类模型,得到情绪识别结果。本申请可以通过获取被测者的语音信号、面部表情图像以及脑电信号,将不同模态特征在同一高维语义空间中对齐,对情绪特征进行多模态的分析,以提高在人机交互过程中,情绪分析的准确性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中包括虚拟现实设备的显示***结构示意图;
图2为本申请实施例中选择媒资时的虚拟画面示意图;
图3为本申请实施例提供的多模态情绪识别方法流程图;
图4为本申请实施例中采集用户情绪信号的示意图;
图5为本申请实施例中提取音频特征的流程图;
图6为本申请实施例中提取图像特征的流程图;
图7为本申请实施例中根据图像特征和音频特征为脑电特征赋权的流程图;
图8为本申请实施例中计算第一注意力分布值的流程图;
图9为本申请实施例中识别情绪的判断流程图;
图10为本申请实施例中模型训练的收敛判断流程图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请实施例中,所述虚拟现实设备500泛指能够佩戴于用户面部,为用户提供沉浸感体验的显示设备,包括但不限于VR眼镜、增强现实设备(AugmentedReality,AR)、VR游戏设备、移动计算设备以及其它可穿戴式计算机等。本申请部分实施例以VR眼镜为例对技术方案进行阐述,应当理解的是,所提供的技术方案同时可应用于其他类型的虚拟现实设备。所述虚拟现实设备500可以独立运行,或者作为外接设备接入其他智能显示设备,其中,所述显示设备可以是智能电视、计算机、平板电脑、服务器等。
虚拟现实设备500可以在佩戴于用户面部后,显示媒资画面,为用户双眼提供近距离影像,以带来沉浸感体验。为了呈现媒资画面,虚拟现实设备500可以包括多个用于显示画面和面部佩戴的部件。以VR眼镜为例,虚拟现实设备500可以包括但不限于外壳、位置固定件、光学***、显示组件、姿态检测电路、接口电路等部件中的至少一种。实际应用中,光学***、显示组件、姿态检测电路以及接口电路可以设置于外壳内,以用于呈现具体的显示画面;外壳两侧连接位置固定连接件,以佩戴于用户头部。
在使用时,姿态检测电路中内置有重力加速度传感、陀螺仪等姿态检测元件,当用户头部移动或转动时,可以检测到用户的姿态,并将检测到的姿态数据传递给控制器等处理元件,使处理元件可以根据检测到的姿态数据调整显示组件中的具体画面内容。
在一些实施例中,如图1所示的虚拟现实设备500可以接入显示设备200,并与服务器400之间构建一个基于网络的显示***,在虚拟现实设备500、显示设备200以及服务器400之间可以实时进行数据交互,例如显示设备200可以从服务器400获取媒资数据并进行播放,以及将具体的画面内容传输给虚拟现实设备500中进行显示。
其中,显示设备200可以是液晶显示器、OLED显示器、投影显示设备。具体显示设备类型,尺寸大小和分辨率等不作限定,本领技术人员可以理解的是,显示设备200可以根据需要做性能和配置上一些改变。显示设备200可以提供广播接收电视功能,还可以附加提供计算机支持功能的智能网络电视功能,包括但不限于,网络电视、智能电视、互联网协议电视(IPTV)等。
显示设备200以及虚拟现实设备500还与服务器400通过多种通信方式进行数据通信。可允许显示设备200和虚拟现实设备500通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的,显示设备200通过发送和接收信息,以及电子节目指南(EPG)互动,接收软件程序更新,或访问远程储存的数字媒体库。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。
在进行数据交互的过程中,用户可通过移动终端300和遥控器100操作显示设备200。移动终端300和遥控器100可以与显示设备200之间采用直接的无线连接方式进行通信,也可以采用非直接连接的方式进行通信。即在一些实施例中,移动终端300和遥控器100可以通过蓝牙、红外等直接连接方式与显示设备200进行通信。当发送控制指令时,移动终端300和遥控器100可以直接将控制指令数据通过蓝牙或红外发送到显示设备200。
在另一些实施例中,移动终端300和遥控器100还可以通过无线路由器与显示设备200接入同一个无线网络,以通过无线网络与显示设备200建立非直接连接通信。当发送控制指令时,移动终端300和遥控器100可以将控制指令数据先发送给无线路由器,再通过无线路由器将控制指令数据转发给显示设备200。
在一些实施例中,用户还可以使用移动终端300和遥控器100还可以直接与虚拟现实设备500进行交互,例如,可以将移动终端300和遥控器100作为虚拟现实场景中的手柄进行使用,以实现体感交互等功能。
在一些实施例中,虚拟现实设备500的显示组件包括显示屏幕以及与显示屏幕有关的驱动电路。为了呈现具体画面,以及带来立体效果,显示组件中可以包括两个显示屏幕,分别对应于用户的左眼和右眼。在呈现3D效果时,左右两个屏幕中显示的画面内容会稍有不同,可以分别显示3D片源在拍摄过程中的左相机和右相机。由于用户左右眼观察到的画面内容,因此在佩戴时,可以观察到立体感较强的显示画面。
虚拟现实设备500中的光学***,是由多个透镜组成的光学模组。光学***设置在用户的双眼与显示屏幕之间,可以通过透镜对光信号的折射以及透镜上偏振片的偏振效应,增加光程,使显示组件呈现的内容可以清晰的呈现在用户的视野范围内。同时,为了适应不同用户的视力情况,光学***还支持调焦,即通过调焦组件调整多个透镜中的一个或多个的位置,改变多个透镜之间的相互距离,从而改变光程,调整画面清晰度。
虚拟现实设备500的接口电路可以用于传递交互数据,除上述传递姿态数据和显示内容数据外,在实际应用中,虚拟现实设备500还可以通过接口电路连接其他显示设备或外设,以通过和连接设备之间进行数据交互,实现更为复杂的功能。例如,虚拟现实设备500可以通过接口电路连接显示设备,从而将所显示的画面实时输出至显示设备进行显示。又例如,虚拟现实设备500还可以通过接口电路连接手柄,手柄可以由用户手持操作,从而在VR用户界面中执行相关操作。
用户还可以通过遥控器100在虚拟现实设备500中选择播放对应的媒资内容,基于虚拟现实的人机交互***,如AR设备、VR设备等强调沉浸感和交互感,虚拟现实设备500可以借助场景渲染、模拟、传感等技术营造虚拟场景,为用户提供更真实的画面体验,提高用户对虚拟场景的体验感。
在一些实施例中,所述遥控器100可以为控制手柄,为便于用户操作,在控制手柄的对应区域,还可以设置有按键,用户可以通过所述按键控制显示设备200中的焦点选项。例如,如图2所示,用户可以通过方向按键控制显示设备200中的焦点选项,在焦点选项选中用户想要启动的目标选项时,可以根据显示界面中的提示信息点击对应的按键以启动或关闭目标选项,以播放对应选项的媒资内容。
用户在体验或观看虚拟显示场景时,会根据虚拟场景的变化,出现不同的情绪,例如,用户在通过虚拟现实设备500观看虚拟现实场景时,随着场景的变化,在观看画面后,用户的情绪也会根据画面中所播放的内容而出现变化,虚拟现实设备500还可以识别人类对象对虚拟场景的情绪变化,以提升人机交互体验。
在一些实施例中,虚拟现实设备500通过非生理信号对用户的情绪进行判断,例如,用户在观看虚拟显示场景时所说出的文本内容、语音以及用户在观看虚拟显示场景时的面部图像等。但是,上述技术手段仅以用户说出的文本内容、用户说出的语音以及用户的面部图像的其中一种作为判断用户情绪的判断依据,无法对用户复杂的情绪特征进行表征和准备识别。除此之外,单一模态的信息较为表层,根据个体、地域或文化差异的不同,难以统一判断。并且用户在表达情感时往往具有模糊性,例如在处于愤怒、厌恶等负面情感状态时,用户更倾向于控制自己的音调或者表情来隐藏自己的负面情绪。同时,单一模态信号相较于多模态信号而言,包含信息更少,不足以正确分析情感状态,造成情感分类的结果错误。
为了准备识别用户情绪,本申请的部分实施例提供一种多模态情绪识别方法,以解决情绪识别方法手段模态单一,造成情绪识别不准确的问题,所述方法可以应用于虚拟现实设备500,也可以应用于带有相同功能硬件的增强现实设备、可穿戴设备、VR游戏设备等头戴设备。其中,所述虚拟现实设备500应包括存储器,所述存储器中存储有情绪分类模型,所述情绪分类模型为根据样本特征数据训练得到的神经网络模型。其中,样本特征数据为带有分类标签的多模态特征向量,所述分类标签包括多种情绪类型,例如,喜悦标签、伤心标签、愤怒标签、惊吓标签、厌恶标签或幸福标签等。
为了便于采集用户的模态信号,虚拟现实设备500还应该包括采集接口,采集接口可以采集用户处于情绪识别环境时所发出的语音信号、面部表情图像以及脑电信号。所述情绪识别环境可以为用户处于观看或朗读情绪引导媒资时的环境。情绪引导媒资可以是一段情绪引导视频或多张具有明显情绪特征的图片,或者,情绪引导媒资还可以是一段具有情绪引导作用的文本。
参见图4,在一些实施例中,为了分别采集语音信号、面部表情图像以及脑电信号,采集接口可以分别与音频输入接口、图像采集接口以及脑机接口连接。当虚拟现实设备500通过采集接口采集用户的语音信号时,可以接通语音输入接口,采集用户在处于情绪识别环境时所发出的语音信号,所述语音信号可以为测试人员根据情绪引导媒资所发出的声音信号,所述声音信号包括用户说出的情感语音,如“我很高兴”、“我很生气”等,或者用户发出的感叹词,如“啊”、“呀”、“唉”、“哇”等。
在虚拟现实设备500采集用户的面部表情图像时,可以接通图像采集接口。图像采集接口可以内置或外置摄像头,以通过所述摄像头采集用户的面部表情图像。为了更准确的获取用户的表情变化,在一些实施例中,图像采集接口还可以连接多个摄像头,所述多个摄像头分别设置在位于用户的不同角度位置,以拍摄不同角度的面部表情图像,例如正脸表情图像、侧脸表情图像等。
在虚拟现实设备500采集用户的脑电信号时,可以接通脑机接口,所述脑机接口可以连接有脑电采集设备,所述脑电采集设备可以贴合在用户的采集部位,例如额头,手臂,胸部等,以采集用户的脑电波、心率脉搏等生理信号。
需要说明的是,为了保证用户情绪识别的准确性,需要确保语音信号、面部表情图像以及脑电信号处于同一时刻。因此,虚拟现实设备500可以同时开始采集语音信号、面部表情图像以及脑电信号,或者将不同时间点开始采集的语音信号、面部表情图像以及脑电信号按照同一时间段进行截取,作为情绪识别的依据。
所述虚拟现实设备500还包括控制器510,所述控制器510被配置为执行一种多模态情绪识别方法,通过获取用户的多种模态信息,更加准确地识别用户的情绪,如图3所示,具体包括以下内容:
S100,响应于情绪识别指令,获取所述语音信号、所述面部表情图像以及脑电信号。
所述情绪识别指令可以自动生成或主动生成,用户可以根据个人需要设置虚拟现实设备500的情绪识别模式。当用户设置虚拟现实设备500的情绪识别模式为自动模式,即当虚拟现实设备500启动时,虚拟现实设备500会根据电源信号自动生成情绪识别指令,以在用户开始使用虚拟现实设备500时起,虚拟现实设备500就持续对用户的情绪进行识别。当用户设备虚拟现实设备500的情绪识别模式为主动模式时,虚拟现实设备500可以通过获取用户主动发出的情绪识别指令开始对用户执行情绪识别。此时,情绪识别指令可以根据用户通过遥控器100的按键,或者在显示设备200中手动触控对应的情绪识别区域,以生成情绪识别指令。
当获取到情绪识别指令之后,响应于情绪识别指令,控制器510可以控制采集接口获取用户的语音信号、面部表情图像以及脑电信号。其中,控制器510可以分别或同时接通音频输入接口、图像采集接口以及脑机接口,以对应获取语音信号、面部表情图像以及脑电信号。
在一些实施例中,图像采集接口还可以根据所连接的摄像头录制用户在处于情绪识别环境时的视频片段。控制器510可以对所述视频片段进行分帧处理,并选取对应的帧画面作为面部表情图像。
S200,提取所述语音信号中的音频特征,以及提取所述面部表情图像的图像特征,以及提取所述脑电信号的脑电特征。
在获取到语音信号、面部表情图像以及脑电特征之后,为了便于情绪的识别,控制器510需要分别从语音信号中提取音频特征,从面部表情图像中提取图像特征,从脑电信号中提取脑电特征。但是,对于不同的情绪信号,所提取情绪特征的方式也存在区别。
对于语音信号来说,语音信号可以包含用户所要表达的文本内容,也包含用户所要表达的情感信息,虚拟现实设备500可以通过获取语音信号捕捉用户的情感状态和变化,例如通过语音识别技术,通过计算机对用户情感感知和语音理解过程进行模拟,以从所采集到的语音信号中提取表达情感的音频特征,在一些实施例中,对于音频特征的提取,如图5所示,控制器510还可以执行以下方法:
S201,对语音信号执行快速傅里叶变换,以得到语音光谱。
由于语音信号无法显示语音频谱上的能量分布,因此,在本实施例中,控制器510会先将语音信号进行预处理,以帧为单位对语音信号进行分割,然后将语音信号中的每一帧都经过傅里叶变换,得到语音光谱。语音光谱可以表征语音信号在频谱上的能量分布,将语音数据转换为频域上的能量分布来处理音频特征。在控制器510对语音信号进行傅里叶变换之后,还可以对变换之后的语音光谱取模平方,以便更好的处理语音数据的特征。
S202,将所述语音光谱输入至梅尔滤波器,以消除语音光谱中的谐波,得到梅尔频谱。
在本实施例中,控制器510可以将语音光谱输入至梅尔滤波器,并通过梅尔滤波器将语音光谱进行平滑化,以消除语音光谱中的谐波,并输出梅尔滤波数据。在本实施例中,通过消除语音光谱的谐波,并凸显出语音光谱中能量相对集中的区域,即语音信号中的共振峰,降低提取音频特征的运算量。
S203,对所述梅尔频谱依次执行对数运算以及离散余弦变换,得到语音倒谱。
在本实施例中,在梅尔滤波器输出梅尔频谱之后,控制器510根据得到的梅尔频谱计算对数并执行离散余弦变换,得到语音倒谱。
在一些实施例中,如果存在多个梅尔滤波器,控制器510则根据每个梅尔滤波器输出的梅尔频谱计算对数,并对每个梅尔频谱进行求和,在对求和后的梅尔频谱执行离散余弦变换,得到语音倒谱。
S204,根据所述语音倒谱的倒谱系数,将所述语音倒谱输出为音频特征。
在本实施例中,控制器510可以从语音倒谱中提取倒谱系数,并根据所述倒谱系数输出语音倒谱。
由于虚拟现实设备500的发声***会抑制语音信号的高频部分,因此,控制器510难以识别高频域的语音信号,造成无法对语音信号中的音频特征进行准确识别。为了准确识别音频特征,在一些实施例中,控制器510还可以先将所采集的语音信号输入至高斯滤波器,以通过高斯滤波器对语音信号进行高频补偿,使语音信号更加平坦,以弥补受发声***抑制的高频部分,使音域的识别更加准确。
在一些实施例中,控制器510还可以对语音信号进行分帧操作和加窗操作,其中,控制器510会按照时间序列将语音信号的执行分帧操作,分帧的采样点可以根据选取为特征的数值,例如,选取语音信号中的N点的采样点集合作为分帧标记点,N的数值可以取256或512,涵盖的时间约为20~30ms,数值越大说明该帧的涵盖的时间越长。
在一些实施例中,为了避免相邻两帧的音域差距较大,控制器510会在相邻两帧之间设置有一段重叠区域,所述重叠区域中包含有M个采样点,M的值为N的1/2到1/3之间,以使相邻两帧之间能够平滑过渡。
在对语音信号进行分帧操作之后,控制器510会将每一帧频谱带入窗函数,以消除每一帧的开始与结束两端之间会造成语音信号的不连续性,造成频谱泄露。在本实施例中,可以采用的窗函数有方窗函数、汉明窗函数和汉宁窗函数等,根据窗函数的频域特性,可采用汉明窗。
在一些实施例中,对于图像特征的提取,控制器510还可以被配置为将图像采集接口采集到的面部表情图像输入至卷积神经网络中,通过卷积神经网络对面部表情图像执行建模,以得到建模图像。建模图像能够包含更多用户在被拍摄时面部的表情特征,因此,控制器510可以从建模图像中提取到更多的图像特征,以更准确地识别用户的情绪。
在一些实施例中,卷积神经网络可以根据图像处理的速度需求,采用不同的网络结构。例如,为了提高图像处理速度,卷积神经网络可以采用AlexNet网络结构,其中,AlexNet网络结构包括两个图像处理器,每个图像处理器用于执行AlexNet网络结构一半的运算。卷积神经网络中还包括卷积层、池化层以及全连接层,卷积神经网络可以根据图像处理精度和速度来设置卷积层和全连接层的数量。
参见图6,以AlexNet网络结构作为示例,AlexNet网络结构包含5层卷积层和3层全连接层,在每层卷积层后设置有池化层。控制器510需要将建模图像输入至AlexNet网络结构之前,对建模图像的尺寸规格进行缩放处理,以确保建模图像符合AlexNet网络结构的输入尺寸,为了便于处理,输入的建模图像尺寸可以为227×227×3。
在控制器510将建模图像输入至AlexNet网络结构后,卷积层会对建模图像执行卷积处理,其中,卷积层会按照卷积比例,缩小建模图像,以输出卷积特征图。例如,第一卷积层的卷积核尺寸为11×11,步长为4,卷积核数量为96,因此,卷积特征图的输出尺寸为(227-11)÷(4+1)=55,即每个卷积特征图为55×55×96。
由于AlexNet网络结构中包含两个图像处理器,因此,控制器510还需要通过池化层对卷积特征图执行降维处理。在池化层中,池化核大小可以为3×3,步长为2,此时在池化层对卷积特征提进行降维处理后,输出两组尺寸大小为27×27×48的降维特征图,分别对应两个图像处理器,以便于执行后续的计算。
在得到降维特征图之后,控制器510可以将降维特征图继续输入至其他卷积层中进行卷积处理,根据相同或不同的卷积核输出不同程度特征的特征图。在一些实施例中,卷积层还可以设置填充层,以填充未被提取到的特征单元,完善面部特征。
在AlexNet网络结构完成卷积流程之后,控制器510将处于对底层的卷积层所输出的降维特征图输入至全连接层,全连接层会将降维特征图计算得到的特征空间映射样本标记空间,将降维特征图中的特征整合为向量值,以输出图像特征。
在一些实施例中,对于脑电特征的提取,由于脑电信号的模态计算较为复杂,因此,为了简化脑电信号的识别过程,控制器510还可以将脑电信号进行多角度特征进行预处理,其中,多角度特征包括时域特征、频域特征、时频域特征、多电极特征以及连通性特征。控制器510可以根据时域特征、频域特征、时频域特征、多电极特征以及连通性特征,从脑电信号中提取脑电特征。
时域特征包括平均值、标准差、一阶差分、归一化一阶差分等,这些时域特征的计算过程较为简单,能够提高脑电特征的识别效率。控制器510可以根据时域特征的随着时间的波形识别脑电信号的变化情况,从而提取脑电特征。
在一些实施例中,脑电信号的振幅在一定程度上会受到大脑皮层的活跃程度的影响,脑电信号在时域上还可以表示为脑电信号的振幅的平方计算结果。
频域特征包含脑电信号的能量分布,在频域方向,脑电信号可以近似为不同频率震荡的复指数或正弦波的叠加。控制器510可以通过对脑电信号进行频域分析,以快速而高效计算脑电信号的频谱信息,且频域分析的计算过程简单,成本低廉。
在控制器510对脑电信号执行频域分析之前,控制器510还需要识别脑电信号的周期连续性。如果脑电信号为周期连续信号,在控制器510对脑电信号执行傅里叶变换时,会将脑电信号转换为能够反映脑电波形的频域光谱,周期越大,频域光谱的频率点就越密集,所识别的脑电特征越完整。
但是,时域特征和频域特征所对应的提取方法具有局限性,即脑电信号仅能从一个域进行计算,而没有同时考虑具有另一高分辨力的域的特征。例如,时域特征不能提供脑电信号的震荡信息,或者,频域特征没有提供详细的频域光谱随时间变化的信息。
因此,在一些实施例中,控制器510还可以按照时频域特征对脑电信号进行预处理。控制器510可以通过短时傅里叶变换(STFT,short-timeFouriertransform),Morlet小波,基于滤波器的希尔伯特变换(HilbertTransform)等手段对脑电信号进行时频域方向的预处理,使脑电特征能够同时表征时域和频域的情绪分辨依据,提高对用户的情绪判断准确性。
在脑机接口中,脑电信号均是通过脑电电极进行传递或记录脑电信号的电势分布及变化。脑电电极分为干电极、湿电极以及半干电极,脑电电极可以贴合于用户的有发区域,如头皮区域,或者无发区域,如前额区域。在采集脑电信号之前,为了降低脑电电极与头皮之前的阻抗,可以在脑电电极与头皮之前涂抹导电介质,导电介质中的金属离子可以扩散进人体皮肤的角质层,降低脑电电极与皮肤之间的阻抗,提高脑电信号的传递效率。
在一些实施例中,控制器510可以通过多个脑电电极来对脑电信号进行预处理,由于脑电电极具有较高的信号质量,因此,可以通过多电极特征准确获取用户在处于情绪识别环境所产生的脑电信号的数据信息。
在一些实施例中,控制器510在对脑电信号进行连通性特征的预处理时,可以在脑电信号中引入连通性矩阵,通过测量大脑在处于情绪识别环境时的活动依赖性与大脑区域之间的关系。控制器510可以根据脑电信号计算连通性指标,然后根据连通性指标以及对应的排序方法构造连通性矩阵,并在连通性矩阵中提取有效的脑电特征。
S300,拼接所述音频特征和所述图像特征,以得到图音特征,以及将所述图音特征与所述脑电特征执行共同注意力编码,得到权重脑电特征。
在本实施例中,控制器510需要根据音频特征、图像特征以及脑电特征对用户的情绪进行判断,而音频特征和图像特征是用户根据情绪引导视频所表现的非生理信号对应的模态特征,而脑电信号是用户根据情绪引导视频所表现的生理信号。由于上述信号同时存在生理信号和非生理信号,在进行多模态特征融合时,可能出现较大的模态融合误差,造成情绪识别结果出现偏差。
为了减少多模态特征融合的误差,控制器510还可以根据注意力机制对脑电特征赋予非生理信号的权重。在控制器510赋予非生理信号的权重之前,为了便于计算,还可以对非生理信号对应的模态特征进行拼接,即拼接音频特征和图像特征,得到图音特征。在得到图音特征之后,控制器510可以将图音特征与脑电特征执行共同注意力编码,以在脑电特征中赋予音频特征和图像特征的权重,得到权重脑电特征。为后续的多模态特征融合过渡,减少多模态特征融合所产生的误差,提高情绪识别结果的准确性。
由于被测试的个体不同,用户在处于情绪识别环境时所作出的表情或者说出的语音内容也会不同,例如,用户在观看情绪引导媒资时面无表情,但是说出了许多关于观看情绪媒资的语音内容,此时用户的面部表情图像对于情绪识别没有较大的参考价值,对应所提取的图像特征较少,而用户的语音信号对于情绪识别具有参考价值,对应所提取的音频特征多。
因此,为了保证脑电特征所赋予的非生理模态特征的权重的平衡性,如图7所示,在一些实施例中,将图音特征与脑电特征执行共同注意力编码的过程中,控制器510需要先获取图音特征中图像特征与音频特征的占有比例。其中,控制器510可以根据用户在情绪识别环境中的面部表情图像的变化差值来调整图像特征在图音特征中的占有比例,以及控制器510还可以根据用户在情绪识别环境中发出的语音信号的持续时间来调整音频特征在图音特征中的占有比例。
在获取到占有比例之后,控制器510可以根据占有比例计算图像特征在图音特征中的第一占有值,第一占有值可以表征图像特征在图音特征中所分布的特征数量,控制器510可以根据第一占有值,调整共同注意力机制针对图像特征的注意力分布值。在一些实施例中,控制器510还可以根据占有比例计算音频特征在图音特征中的第二占有值,第二占有制可以表征音频特征在图音特征中所分布的特征数量,控制器510可以根据第二占有值,调整共同注意力机制针对音频特征的注意力分布值,以便于脑电特征更好的融合图音特征。
在一些实施例中,在控制器510对脑电特征与图音特征执行共同注意力编码的过程中,还可以引入脑电特征与图音特征的相关性,以提高脑电特征的注意力分布的准确性。图8为本申请部分实施例计算图音特征的注意力分布值的流程图,在图8中,控制器510可以从图音特征中提取图音元素,所述图音元素包括图像元素和音频元素,所述图像元素可以是由像素点构成的图像区域,还可以为根据时间序列新增的元素或消失的元素。所述音频元素可以为音频信号的波形图、音域图或者与图像元素对应的波形位置以及音域位置。应当说明的是,本实施例中的图像元素和音频元素应以同一时间点作为选取依据,以确保图像元素和音频元素能够共同反应用户在当前时间点所产生的情绪。
在控制器510提取图像元素和音频元素之后,还可以分别计算脑电特征与图像元素的第一相关性和脑电特征与音频元素的第二相关性,例如,获取脑电特征出现波动情况时,选取对应时间点或对应帧的图像元素,并计算图像元素与脑电特征的变化之间的关系,以获取第一相关性。控制器510可以根据第一相关性和第二相关性计算共同注意力机制的注意力分布系数。由于图音特征中包含多组图像元素和音频元素,因此,控制器510还需要对注意力分布系数执行加权求和,以根据脑电特征和图音特征的相关性确定计算权重脑电特征的最适注意力分布值。
S400,将所述音频特征、图像特征以及权重脑电特征执行特征融合,得到多模态特征向量。
在本实施例中,控制器510得到权重脑电特征之后,还需要将脑电权重特征与音频特征和图像特征进行模态融合,由于权重脑电特征赋予有图像权重和音频权重,因此,控制器510在对音频特征、图像特征以及权重脑电特征执行特征融合时,可以减少所产生的模态误差,得到包含有多种类型的情绪特征的多模态特征向量。
S500,将所述多模态特征向量输入至所述情绪分类模型,得到情绪识别结果。
在本实施例中,控制器510可以从存储器中调出情绪分类模型,然后将多模态特征向量输入至情绪分类模型。多模态特征中包含多种模态的情绪特征,能够多方向反应出用户的情绪,情绪分类模型可以对多模态特征执行情绪识别,得到用户的情绪识别结果。
在一些实施例中,控制器510可以通过情绪分类模型计算每种情绪状态对于多模态特征向量的置信度分数。其中,情绪状态为情绪分类模型中的基础情绪状态,例如,喜悦状态、伤心状态、愤怒状态、惊吓状态、厌恶状态或幸福状态等。如图9所示,在计算出置信度分数之后,控制器510可以根据每种情绪状态的置信度分数进行分析,置信度分数越高,说明多模态特征向量更符合该种情绪状态。因此,控制器510可以将置信度分数最高的情绪状态输出为情绪识别结果。
在一些实施例中,在使用情绪分类模型之前,控制器510还需要对情绪分类模型执行相关的训练过程。控制器510可以获取样本特征数据,样本特征数据为带有分类标签的多模态特征向量。在本实施例中,为了区别于训练好的情绪分类模型,将未完成训练的情绪分类模型定义为待训练模型。控制器510在获取样本特征数据之后,将样本特征数据输入至待训练模型中,对待训练模型执行训练,得到训练过程中的情绪识别结果。
为了判断待训练模型的收敛程度,控制器510还需要根据损失函数计算待训练模型的分类损失,控制器510可以计算训练过程中的情绪识别结果与已完成训练的情绪分类模型的情绪识别结果之间的分类损失。
在一些实施例中,如图10所示,控制器510还可以设置损失阈值判断待训练模型的收敛进度,如果分类损失大于损失阈值,说明待训练模型在情绪识别过程中所产生的损失较大,控制器510需要对待训练模型执行迭代训练。如果分类损失小于或者等于损失阈值时,说明待训练模型在情绪识别过程中所产生的损失符合情绪识别结果的输出标准,此时控制器510输出待训练模型的模型参数,得到完成训练的情绪分类模型。
在本申请的部分实施例中,还提供一种多模态情绪识别方法,应用于上述记载的任意一种虚拟现实设备500,所述方法包括:
S100,响应于情绪识别指令,获取所述语音信号、所述面部表情图像以及脑电信号;
S200,提取所述语音信号中的音频特征,以及提取所述面部表情图像的图像特征,以及提取所述脑电信号的脑电特征;
S300,拼接所述音频特征和所述图像特征,以得到图音特征,以及将所述图音特征与所述脑电特征执行共同注意力编码,得到权重脑电特征;
S400,将所述音频特征、图像特征以及权重脑电特征执行特征融合,得到多模态特征向量;
S500,将所述多模态特征向量输入至所述情绪分类模型,得到情绪识别结果。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品可以存储在计算机可读存储介质中。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释本公开内容,从而使得本领域技术人员更好的使用所述实施方式。

Claims (10)

1.一种虚拟现实设备,其特征在于,包括:
存储器,被配置为存储情绪分类模型,所述情绪分类模型为根据样本特征数据训练得到的神经网络模型,所述样本特征数据为带有分类标签的多模态特征向量;
采集接口,被配置为采集语音信号、面部表情图像以及脑电信号;
控制器,被配置为:
响应于情绪识别指令,获取所述语音信号、所述面部表情图像以及脑电信号;
提取所述语音信号中的音频特征,以及提取所述面部表情图像的图像特征,以及提取所述脑电信号的脑电特征;
拼接所述音频特征和所述图像特征,以得到图音特征,以及将所述图音特征与所述脑电特征执行共同注意力编码,得到权重脑电特征;
将所述音频特征、图像特征以及权重脑电特征执行特征融合,得到多模态特征向量;
将所述多模态特征向量输入至所述情绪分类模型,得到情绪识别结果。
2.根据权利要求1所述的虚拟现实设备,其特征在于,所述控制器执行提取所述语音信号中的音频特征,还进一步被配置为:
对所述语音信号执行快速傅里叶变换,以得到语音光谱;
将所述语音光谱输入至梅尔滤波器,以消除语音光谱中的谐波,得到梅尔频谱;
对所述梅尔频谱依次执行对数运算以及离散余弦变换,得到语音倒谱;
根据所述语音倒谱的倒谱系数,将所述语音倒谱输出为音频特征。
3.根据权利要求1所述的虚拟现实设备,其特征在于,所述控制器执行提取所述面部表情图像的图像特征以及提取所述脑电信号的脑电特征,还进一步被配置为:
将所述面部表情图像输入至卷积神经网络中,以对所述面部表情图像执行建模,得到建模图像;
从所述建模图像中提取所述图像特征。
4.根据权利要求3所述的虚拟现实设备,其特征在于,所述卷积神经网络包括卷积层、池化层以及全连接层,所述控制器执行从所述建模图像中提取所述图像特征,还进一步被配置为:
通过所述卷积层对建模图像执行卷积处理,以按照卷积比例缩小所述建模图像,得到卷积特征图;
将所述卷积特征图输入至所述池化层,对所述卷积特征图进行降维处理,得到降维特征图;
将所述降维特征图通过所述全连接层输出,得到所述图像特征。
5.根据权利要求1所述的虚拟现实设备,其特征在于,所述控制器执行提取所述面部表情图像的图像特征以及提取所述脑电信号的脑电特征,还进一步被配置为:
将所述脑电信号按照多角度特征进行预处理,所述多角度特征包括时域特征、频域特征、时频域特征、多电极特征以及连通性特征;
根据所述时域特征、频域特征、时频域特征、多电极特征以及连通性特征,从脑电信号中提取脑电特征。
6.根据权利要求1所述的虚拟现实设备,其特征在于,所述控制器执行将所述图音特征与所述脑电特征执行共同注意力编码,还进一步被配置为:
获取所述图音特征中图像特征与音频特征的占有比例;
根据所述占有比例,计算所述图像特征对于图音特征的第一占有值,以及计算音频特征对于图音特征的第二占有值;
根据所述第一占有值以及所述第二占有值调整共同注意力编码的注意力分布值。
7.根据权利要求1所述的虚拟现实设备,其特征在于,所述控制器执行将所述图音特征与所述脑电特征执行共同注意力编码,还进一步被配置为:
从所述图音特征中的提取图音元素,所述图音元素包括图像元素和音频元素;
计算脑电特征与图像元素的第一相关性以及计算所述脑电特征与音频特征的第二相关性;
根据所述第一相关性和所述第二相关性计算共同注意力编码的注意力分布系数;
对所述注意力系数执行加权求和,以得到共同注意力编码的注意力分布值。
8.根据权利要求1所述的虚拟现实设备,其特征在于,所述控制器执行将所述多模态特征向量输入至所述情绪分类模型,还进一步被配置为:
计算情绪状态对于多模态特征向量的置信度分数,所述情绪状态为所述情绪分类模型中的基础情绪状态;
将所述置信度分数最高的情绪状态输出为情绪识别结果。
9.根据权利要求1所述的虚拟现实设备,其特征在于,所述控制器还进一步被配置为:
获取样本特征数据,所述样本特征数据为带有分类标签的多模态特征向量
将所述多模态特征向量输入至待训练模型,根据交叉熵损失函数计算待训练模型的分类损失;
当所述分类损失小于损失阈值时,输出所述待训练模型的模型参数,以得到情绪分类模型。
10.一种多模态情绪识别方法,其特征在于,应用于虚拟现实设备,所述虚拟现实设备包括存储器、采集接口以及控制器,其中,所述存储器被配置为存储情绪分类模型,所述情绪分类模型为根据样本特征数据训练得到的神经网络模型,所述样本特征数据为带有分类标签的多模态特征向量;所述采集接口被配置为采集语音信号、面部表情图像以及脑电信号;所述方法包括:
响应于情绪识别指令,获取所述语音信号、所述面部表情图像以及脑电信号;
提取所述语音信号中的音频特征,以及提取所述面部表情图像的图像特征,以及提取所述脑电信号的脑电特征;
拼接所述音频特征和所述图像特征,以得到图音特征,以及将所述图音特征与所述脑电特征执行共同注意力编码,得到权重脑电特征;
将所述音频特征、图像特征以及权重脑电特征执行特征融合,得到多模态特征向量;
将所述多模态特征向量输入至所述情绪分类模型,得到情绪识别结果。
CN202310291727.9A 2023-03-21 2023-03-21 虚拟现实设备及多模态情绪识别方法 Pending CN116400802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310291727.9A CN116400802A (zh) 2023-03-21 2023-03-21 虚拟现实设备及多模态情绪识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310291727.9A CN116400802A (zh) 2023-03-21 2023-03-21 虚拟现实设备及多模态情绪识别方法

Publications (1)

Publication Number Publication Date
CN116400802A true CN116400802A (zh) 2023-07-07

Family

ID=87015230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310291727.9A Pending CN116400802A (zh) 2023-03-21 2023-03-21 虚拟现实设备及多模态情绪识别方法

Country Status (1)

Country Link
CN (1) CN116400802A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116880701A (zh) * 2023-09-07 2023-10-13 深圳优立全息科技有限公司 基于全息设备的多模态交互方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116880701A (zh) * 2023-09-07 2023-10-13 深圳优立全息科技有限公司 基于全息设备的多模态交互方法及***
CN116880701B (zh) * 2023-09-07 2023-12-22 深圳优立全息科技有限公司 基于全息设备的多模态交互方法及***

Similar Documents

Publication Publication Date Title
CN110531860B (zh) 一种基于人工智能的动画形象驱动方法和装置
EP4047598B1 (en) Voice matching method and related device
US20190188903A1 (en) Method and apparatus for providing virtual companion to a user
CN111179962B (zh) 语音分离模型的训练方法、语音分离方法及装置
KR20180136387A (ko) 커뮤니케이션 장치, 커뮤니케이션 로봇 및 컴퓨터가 판독 가능한 기록 매체
CA3033109A1 (en) Word flow annotation
US20140129207A1 (en) Augmented Reality Language Translation
CN106648048A (zh) 一种基于虚拟现实的外语学习方法与***
CN110969106A (zh) 一种基于表情、语音和眼动特征的多模态测谎方法
CN116484318B (zh) 一种演讲训练反馈方法、装置及存储介质
CN113421547B (zh) 一种语音处理方法及相关设备
US20220044693A1 (en) Internet calling method and apparatus, computer device, and storage medium
CN207408959U (zh) 具有文本及语音处理功能的混合现实智能眼镜
CN112016367A (zh) 一种情绪识别***、方法及电子设备
CN113380271B (zh) 情绪识别方法、***、设备及介质
CN112446322B (zh) 眼球特征检测方法、装置、设备及计算机可读存储介质
CN114120432A (zh) 基于视线估计的在线学习注意力跟踪方法及其应用
WO2023178906A1 (zh) 活体检测方法及装置、电子设备、存储介质、计算机程序、计算机程序产品
CN109241924A (zh) 基于互联网的多平台信息交互***
CN109947971A (zh) 图像检索方法、装置、电子设备及存储介质
CN116880701B (zh) 基于全息设备的多模态交互方法及***
CN109784128A (zh) 具有文本及语音处理功能的混合现实智能眼镜
CN111091845A (zh) 音频处理方法、装置、终端设备及计算机存储介质
CN116400802A (zh) 虚拟现实设备及多模态情绪识别方法
CN114882862A (zh) 一种语音处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination