CN109241912B - 面向无人自主***的基于类脑跨媒体智能的目标识别方法 - Google Patents

面向无人自主***的基于类脑跨媒体智能的目标识别方法 Download PDF

Info

Publication number
CN109241912B
CN109241912B CN201811046842.5A CN201811046842A CN109241912B CN 109241912 B CN109241912 B CN 109241912B CN 201811046842 A CN201811046842 A CN 201811046842A CN 109241912 B CN109241912 B CN 109241912B
Authority
CN
China
Prior art keywords
target
information
semantic information
context information
cst
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811046842.5A
Other languages
English (en)
Other versions
CN109241912A (zh
Inventor
刘扬
周毅
刘春�
杨伟
沈亚田
孟伟
孔德珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN201811046842.5A priority Critical patent/CN109241912B/zh
Publication of CN109241912A publication Critical patent/CN109241912A/zh
Application granted granted Critical
Publication of CN109241912B publication Critical patent/CN109241912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种面向无人自主***的基于类脑跨媒体智能的目标识别方法。该方法包括:步骤1、获取无人自主***采集到的目标场景的视音频数据,对所述视音频数据进行预处理,提取所述视音频数据中的语言文字,将所述语言文字采用分布式表示,得到词向量;步骤2、结合对象时空上下文信息,对预处理后的视音频数据和词向量进行显著性计算;步骤3、根据显著性计算结果和对象时空上下文信息,训练多模态融合神经网络,提取视音频数据和词向量的属性语义信息;步骤4、根据对象时空上下文信息、属性语义信息和目标知识图谱的先验知识,采用认知计算和贝叶斯推理,得到目标场景中的目标语义信息。本发明能有效提升无人自主设备的智能化目标识别效果。

Description

面向无人自主***的基于类脑跨媒体智能的目标识别方法
技术领域
本发明涉及无人自主智能控制技术领域,尤其涉及面向无人自主***的基于类脑跨媒体智能的目标识别方法。
背景技术
人工智能与无人***融合形成无人自主***(UAS),目前无人自主***已形成陆、海、空、天一体化体系。在移动场景中,无人自主***是智能机器人和无人自主设备对目标进行分析与识别的重要的智能支撑***。
智能机器人(如工业机器人、服务机器人、空间机器人、海洋机器人以及无人车间等)的无人***先后经历了自动化、智能化、自主化以及集群化的发展过程。诸如无人机(UAV)、无人车(UGV)、无人船(USV)以及无人潜航器(UUV)等无人自主设备的***智能化感知和控制,融合了3C技术(即控制、计算和通信)以及材料等多学科技术。
要实现无人自主***的智能化的自主控制,必须解决其对环境信息的态势感知和目标认知问题。目前基于传统方法的无人***目标识别,考虑到***的复杂性和实施困难,大多采用单模态识别方法,无法解决跨媒体或跨模态的目标属性的多模态差异问题。如何采用类脑跨媒体智能方法进行无人自主***的目标识别,使智能机器人和无人自主设备实现对环境信息的动态态势感知,自主控制和执行任务是目前亟需解决的重要问题。
发明内容
为解决现有技术中存在的上述问题,本发明提供一种面向无人自主***的基于类脑跨媒体智能的目标识别方法,可解决跨模态和跨媒体的目标属性的多模态差异,实现环境信息的态势感知和目标认知,使得智能机器人和无人自主设备能够动态感知环境信息,自主控制和执行任务。
本发明提供一种面向无人自主***的基于类脑跨媒体智能的目标识别方法,该方法包括:
步骤1、获取无人自主***采集到的目标场景的视音频数据,对所述视音频数据进行预处理,提取所述视音频数据中的语言文字,将所述语言文字采用分布式表示,得到词向量;
步骤2、结合对象时空上下文信息,对预处理后的视音频数据和所述词向量进行显著性计算;
步骤3、根据显著性计算结果和对象时空上下文信息,训练多模态融合神经网络,提取视音频数据和词向量的属性语义信息;
步骤4、根据对象时空上下文信息、属性语义信息和目标知识图谱的先验知识,采用认知计算和贝叶斯推理,得到目标场景中的目标语义信息。
进一步地,该方法还包括:步骤5、根据属性语义信息和目标语义信息,更新目标知识图谱。
进一步地,该方法还包括:步骤6、采用预设的情感强化计算模型,对目标语义信息进行情感强化学习;相应地,所述步骤2为:
结合对象时空上下文信息和情感强化学习结果,对预处理后的视音频数据和所述词向量进行显著性计算。
进一步地,该方法还包括:步骤7、根据情感强化学习结果、属性语义信息和目标语义信息,更新目标的对象时空上下文信息。
进一步地,所述显著性计算结果包括图像的视觉显著图、语音的听觉显著图和语言文字的注意分配概率。
进一步地,所述多模态融合神经网络包括图像处理的深度卷积网络、语音处理的深度卷积网络、语言文字处理的循环神经网络和多模态融合的深度神经网络。
进一步地,所述目标知识图谱包括目标语义信息与属性语义信息之间的共现概率。
进一步地,所述对象时空上下信息包括属性语义信息出现的时间上下文信息和空间上下文信息,以及目标语义信息出现的时间上下文信息和空间上下文信息。
本发明的有益效果:
本发明提供的面向无人自主***的基于类脑跨媒体智能的目标识别方法,与传统的目标识别方法相比,具有如下有益效果:
(1)采用类脑跨媒体智能的目标语义集成,实现基于统计学习的目标语义的认知计算,能有效挖掘大数据环境的目标本质语义信息;
(2)采用类脑的注意机制,实现基于选择性注意的目标显著性计算,可集中有效计算资源,提升目标的识别效率;
(3)采用深度学习,实现类脑多模态融合的感知计算,可有效提取和表示目标的属性语义特征;
(4)采用类脑记忆原理,实现跨模态知识图谱存储,可有效表示目标的复杂语义关系;
(5)采用类脑情感机制的强化学习方法,可有效提高目标的监督学习和无监督学习效果。
附图说明
图1为本发明实施例提供的面向无人自主***的基于类脑跨媒体智能的目标识别方法的流程示意图;
图2为本发明又一实施例提供的面向无人自主***的基于类脑跨媒体智能的目标识别方法的流程示意图;
图3为本发明再一实施例提供的面向无人自主***的基于类脑跨媒体智能的目标识别方法的流程示意图;
图4为本发明实施例提供的实验数据示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的面向无人自主***的基于类脑跨媒体智能的目标识别方法的流程示意图。如图1所示,该方法包括以下步骤:
S101、获取无人自主***采集到的目标场景的视音频数据,对所述视音频数据进行预处理;并对从目标场景中提取的语言文字采用分布式表示,得到词向量;具体地,本步骤中采用多通道进行媒体信息采集。无人自主***通过摄像头和麦克风等视音频采集设备,采集目标场景的视频图像数据和音频数据;所述预处理包括去噪和文本处理操作。由于目标场景中可能存在多个目标对象,去噪的目的旨在获取被关注目标的图像数据和音频数据。文本处理指采用语言处理工具(例如字符识别SDK和语音识别SDK)提取文本信息,对上述视音频数据提取的文本采用分布式表示(Distributed Representation),构造目标场景中语言文字的词向量(Word Embedding)。
S102、结合对象时空上下文信息,对预处理后的视音频数据和所述词向量进行显著性计算;
具体地,本步骤模拟丘脑的选择性注意的机制对多媒体信息进行显著性计算。对图像、音频和文字,结合对象的时空上下文信息,分别实现关注目标的语义对象的显著性计算。具体显著性计算算法可采用谱残差(SR)、Itti,以及基于图论的显著性计算(GBVS)等方法实现。
S103、根据显著性计算结果和对象时空上下文信息,训练多模态融合神经网络,提取视音频数据和词向量的属性语义信息;
具体地,本步骤模拟枕叶、颞叶的初级视听皮层的视听的层次感觉机制,在目标对象的时空上下文的作用下,对显著性计算结果采用深度学习训练得到多模态融合神经网络,提取视听数据与语言文字的属性语义信息。
S104、根据对象时空上下文信息、属性语义信息和目标知识图谱的先验知识,采用认知计算和贝叶斯推理,得到目标场景中的目标语义信息。
具体地,本步骤模拟额叶、颞叶的视听联合皮层的思维、预测和推理机制,进行跨媒体集成认知计算。采用认知计算和贝叶斯推理,在对象时空上下文和目标知识图谱的先验知识的作用下,根据步骤S103中获取的属性语义信息实现跨媒体认知的集成学习,输出目标语义信息。目标语义信息包括目标种类和目标身份。本步骤中的跨媒体集成认知计算可采用提升(Boosting)、装袋(Bagging)或随机森林(Random Forest)等集成学习算法实现。
本发明实施例提供的面向无人自主***的基于类脑跨媒体智能的目标识别方法,与传统的无人自主***目标识别方法相比,具有如下有益效果:
(1)采用类脑跨媒体智能的目标语义集成,实现基于统计学习的目标语义的认知计算,能有效挖掘大数据环境的目标本质语义信息;
(2)采用类脑的注意机制,实现基于选择性注意目标的显著性计算,可集中有效计算资源,提升目标识别效率;
(3)采用深度学习,实现类脑多模态融合的感知计算,可有效提取和表示目标的属性语义特征。
图2为本发明有又一实施例提供的面向无人自主***的基于类脑跨媒体智能的目标识别方法的流程示意图。本实施例与上述实施例的区别之处在于,在上述实施例的基础上,该方法还包括:
步骤S105、根据属性语义信息和目标语义信息,更新目标知识图谱。
具体地,本步骤模拟联想长期记忆原理,将已完成识别的目标场景的目标语义信息和属性语义信息不断合并和添加到原目标知识图谱中,更新目标知识图谱。
步骤S106、采用预设的情感强化计算模型,对目标语义信息进行情感强化学习;相应地,所述步骤S102为:结合对象时空上下文信息和情感强化学习结果,对预处理后的视音频数据和所述词向量进行显著性计算。
具体地,所述情感强化学习包括情感计算和强化反馈计算。其中情感强化学习算法可采用Q学习算法或深度强化学习方法实现。然后基于情感强化学习结果,根据情感状态转换动态调整反馈策略,以及层次分级预测策略,控制多媒体目标信息的显著性计算。
步骤S107、根据情感强化学习结果、属性语义信息和目标语义信息,更新目标的对象时空上下文信息。
本发明实施例提供的面向无人自主***的基于类脑跨媒体智能的目标识别方法,与传统的无人自主***目标识别方法相比,具有以下有益效果:
(1)采用类脑跨媒体智能的目标语义集成,实现基于统计学习的目标语义的认知计算,能有效挖掘大数据环境的目标本质语义信息;
(2)采用类脑的注意机制,实现基于选择性注意目标的显著性计算,可集中有效计算资源,提升目标识别效率;
(3)采用深度学习,实现类脑多模态融合的感知计算,可有效提取和表示目标的属性语义特征;
(4)采用类脑记忆原理的跨模态知识图谱,可有效表示目标的复杂语义关系;(5)采用类脑情感强化学习方法,可有效提高目标的监督学习和无监督学习效果。
在上述实施例的基础上,上述步骤中的显著性计算结果包括图像的视觉显著图、语音的听觉显著图和语言文字的注意分配概率。上述步骤中的多模态融合神经网络包括图像处理的深度卷积网络、语音处理的深度卷积网络、语言文字处理的循环神经网络和多模态融合的深度神经网络。具体图像处理的深度卷积网络可迁移AlexNet、DeepID、DeepFace和VGGNet(或OxfordNet)等网络结构设计实现。语音处理的深度卷积网络可参照微软ResNet和谷歌GoogLeNet等网络结构设计实现。语言文字处理的循环神经网络可采用长短时间记忆(LSTM)网络、门控循环单元(GRU)网络、神经图灵机(NTM)等网络结构设计实现。多模态融合的网络结构可采用深度神经网络(DBN)、自编码器(Auto Encoder)、生成式对抗网络(GAN)以及对偶学习(Dual Learning)算法实现。
对于深度卷积网络,可交替采用卷积和池化操作实现网络运算。结合对象时空上下文计算得到显著性计算结果,作为深度卷积网络的输入。在卷积层中,利用前层提取的特征图x与一个可学习的滤波核w进行卷积,卷积的结果再经过激活函数输出形成本层的特征图。其中,特征图x是深度卷积网络对其输入的逐层变换处理结果。若第L层为卷积层,第L+1层为子采样层,则第L层第j个特征图的计算方法为:
Figure GDA0002532441210000061
其中,L代表层数,
Figure GDA0002532441210000062
是第L层第j个特征图与第L-1层第i个特征图相连所对应的卷积核的连接权重,M代表输入特征图的一个选择,b为输出特征图偏置。f为采用近似Softplus的修正线性单元(ReLU)激活函数。ReLU函数的运算速度快、泛化性能好,并具有一定的稀疏能力,其定义为:
Figure GDA0002532441210000063
这里各符号的定义与公式(1)相同。第L层的第j个特征图的残差计算方法为:
Figure GDA0002532441210000064
这里V为克罗内克(Kronecker)积的上采样操作,即扩展L+1子采样层和第L卷积层相同尺寸,·为点积算子。通过对第j个特征图(宽u,高v)的残差求和计算偏置b的梯度:
Figure GDA0002532441210000071
第j个特征图的卷积核w的梯度为:
Figure GDA0002532441210000072
其中,
Figure GDA0002532441210000073
表示在卷积过程中,卷积输出与
Figure GDA0002532441210000074
逐元素相乘的矩阵。
在池化层对输入特征图进行一对一的下采样操作。子采样是一种模糊滤波,可降低网络的复杂度,增强对目标缩放、平移、形变的不变性。若第L层为子采样层,第L-1为卷积层,对第j子块进行下采样方法为:
Figure GDA0002532441210000075
这里Λ是下采样方法,β和b分别为特征图的权值系数和偏置。
池化层的残差δ和偏置b的计算与卷积层类似。权值系数β的梯度计算方法为:
Figure GDA0002532441210000076
对于语言文字处理的循环神经网络可参考文献(Cho K,Merrienboer B V,Gulcehre C,et al.Learning Phrase Representations using RNN Encoder-Decoderfor Statistical Machine Translation[J].Computer Science,2014)。
接着,将深度卷积网络(用于图像处理及语音处理)和循环神经网络(用于语言文字处理)的输出结果作为深度神经网络的训练数据,最终训练得到多模态融合的深度神经网络模型。具体训练过程可参考文献(Ngiam J,Khosla A,Kim M,et al.Multimodal DeepLearning[C],2009)。
在上述实施例的基础上,上述步骤中的目标知识图谱包括目标语义信息与属性语义信息之间的共现概率。上述步骤中的对象时空上下信息包括属性语义信息出现的时间上下文信息和空间上下文信息,以及目标语义信息出现的时间上下文信息和空间上下文信息。
图3为本发明再一实施例提供的面向无人自主***的基于类脑跨媒体智能的目标识别方法的流程示意图。结合图3,本发明实施例具体如下:
在步骤ST1中(包括子步骤ST11、ST12和ST13),无人自主***(UAS)通过图像感知器(如摄像头)和声音感知器(如麦克风)等视音频采集设备,采集目标所处场景的视觉信息(Mv)和听觉信息(Ma),利用语音识别或字符识别工具对视音频进行初步处理,提取场景中的语言文字的词向量信息(Mt),共同构成目标T的输入信息M<Mv,Ma,Mt>;
在步骤ST2多媒体显著性计算(SC)中,模拟丘脑的选择性注意机制,对图像、音频和文字,结合情感强化学习结果(RP)和对象时空上下文信息(Cst),分别实现基于选择性注意的语义对象的显著性计算(SC),计算输入的媒体信息M的显著图S<Sv,Sa,St>,其中Sv为Mv的视觉显著图,Sa为Ma的听觉显著图,St为Mt的注意分配概率,即:
SC:<M,Cst,RP>→S (8)
在步骤ST3多模态融合感知计算(MP)中,模拟枕叶、颞叶的初级视听皮层的视听层次感觉机制,采用深度学习(Deep Learning),在对象时空上下文信息(Cst)的作用下,训练多模态融合神经网络(MN),提取视听与语言文字的属性语义信息(TP),即:
MP:<S,Cst>→<TP,MN> (9)
在步骤ST4目标知识图谱(KG)生成中,模拟联想长期记忆(MAL)原理,利用属性语义信息(TP)和目标语义信息(TS),生成和更新目标知识图谱(KG),即:
MAL:<TP,TS>→KG (10)
本步骤中,可采用历史数据中的目标语义信息和属性语义信息的先验知识预先生成的目标知识图谱;更新目标知识图谱的过程则和上述实施例的步骤S105相同,不断将后期提取的属性语义信息和目标语义信息补充进来实现目标知识图谱的更新。
在步骤ST5跨媒体集成认知计算(CCI)中,模拟额叶、颞叶的视听联合皮层的思维、预测和推理机制,采用认知计算(Cognitive Computing)和贝叶斯推理(BayesianInference),在对象时空上下文信息(Cst)和目标知识图谱(KG)的先验知识的作用下,实现跨媒体认知的集成学习(Ensemble Learning),提取目标语义信息(TS),并更新对象时空上下文信息(Cst')和目标知识图谱(KG'),即:
CCI:<TP,TS,KG>→<TS,KG',Cst'> (11)
其中CCI是认知计算与集成学习的复合处理。这里采用贝叶斯加权集成思想,获得目标语义信息(TS),即:
Figure GDA0002532441210000091
其中,ω是不同的分类器h的权重,N为分类器的数量。
在步骤ST6对象时空上下文信息生成(TGst)中,模拟海马体的短期分布式记忆(MAS)的原理,根据情感强化学习结果(RP)、属性语义信息(TP)和目标语义信息(TS),生成和更新目标的对象时空上下文信息(Cst),即:
TGst:<TS,TP,RP>→Cst (13)
在步骤ST7情感强化学习(ERL)中,模拟边缘***的情感状态转换和奖惩机制(RP),实现目标语义信息(TS)的情感计算(Affective Computing)和强化学习(Reinforcement Learning),并进一步反馈控制目标的显著性计算(SC)和对象时空上下文信息(Cst),即:
ERL:<TS,RP>→<SC,Cst> (14)
其中情感强化学习(ERL)是情感计算和强化学习的复合处理。情感强化学习(ERL)模拟情感奖惩机制(RP)的目的是提取稳定的和最优的目标语义,其重点是求解显著性计算(SC)和对象时空上下文信息(Cst)与目标真实语义信息
Figure GDA0002532441210000092
误差的最小范式。
Figure GDA0002532441210000093
由上述实施例可知,本发明提供的面向无人自主***的基于类脑跨媒体智能的目标识别方法,通过对目标语义信息进行情感强化学习,进而将情感强化学习结果用于反馈控制的显著性计算和对象时空上下文信息的生成,形成一个闭环,实现目标识别的自主调节和反馈,可不断提升无人自主***的目标识别准确率。
本发明可用于跨媒体身份识别和跨模态目标鉴别。采用该目标识别方法的具体目标识别应用的实验数据如图4所示。其中,图4中:(A)是用于无人车(UGV)***的对场景中车辆探测视频提取的多媒体目标对象的车辆拍照、车辆音频和车辆文本示例;(B)是在智能机器人的人机交互视频中,多媒体目标对象的人脸照片、说话人语音和声纹示例;(C)是在无人机(UAV)***的遥感图像中,跨模态舰船目标的可见光、红外和雷达图像示例。初步实验表明,在目标协作配合的环境下,本发明的目标的身份识别率可达95%以上。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.面向无人自主***的基于类脑跨媒体智能的目标识别方法,其特征在于,包括:
步骤1、无人自主***通过视音频采集设备,采集目标所处场景的视觉信息Mv和听觉信息Ma,利用语音识别或字符识别工具对视音频进行初步处理,提取场景中的语言文字的词向量信息Mt,共同构成目标T的输入信息M<Mv,Ma,Mt>;
步骤2、对多媒体信息进行显著性计算SC:模拟丘脑的选择性注意机制,对图像、音频和文字,结合情感强化学习结果RP和对象时空上下文信息Cst,分别实现基于选择性注意的语义对象的显著性计算SC,计算输入信息M<Mv,Ma,Mt>的显著图S<Sv,Sa,St>,显著性计算算法采用谱残差法、Itti算法以及基于图论的显著性计算算法,其中Sv为Mv的视觉显著图,Sa为Ma的听觉显著图,St为Mt的注意分配概率,即:
SC:<M,Cst,RP>→S;
步骤3、多模态融合感知计算MP:模拟枕叶、颞叶的初级视听皮层的视听层次感觉机制,采用深度学习,在对象时空上下文信息Cst的作用下,训练多模态融合神经网络MN,提取视听与语言文字的属性语义信息TP,即:
MP:<S,Cst>→<TP,MN>;
步骤4、目标知识图谱KG生成和更新:模拟联想长期记忆MAL原理,利用属性语义信息TP和目标语义信息TS,生成和更新目标知识图谱KG,即:
MAL:<TP,TS>→KG
其中,采用历史数据中的目标语义信息和属性语义信息的先验知识预先生成目标知识图谱;然后不断将后期提取的属性语义信息和目标语义信息补充进来实现目标知识图谱的更新;
步骤5、跨媒体集成认知计算CCI:模拟额叶、颞叶的视听联合皮层的思维、预测和推理机制,采用认知计算和贝叶斯推理,在对象时空上下文信息Cst和目标知识图谱KG的先验知识的作用下,实现跨媒体认知的集成学习,提取目标语义信息TS,并更新对象时空上下文信息Cst'和目标知识图谱KG',即:
CCI:<TP,TS,KG>→<TS,KG',Cst'>
其中,采用贝叶斯加权集成思想,获得目标语义信息TS,即:
H(TP)=TSj
Figure FDA0002532441200000021
其中,ω是不同的分类器h的权重,N为分类器的数量;
步骤6、对象时空上下文信息生成TGst:模拟海马体的短期分布式记忆的原理,根据情感强化学习结果RP、属性语义信息TP和目标语义信息TS,生成和更新目标的对象时空上下文信息Cst,即:
TGst:<TS,TP,RP>→Cst;
步骤7、情感强化学习ERL:模拟边缘***的情感状态转换和奖惩机制RP,实现目标语义信息TS的情感计算和强化学习,并进一步反馈控制目标的显著性计算SC和对象时空上下文信息Cst,即:
ERL:<TS,RP>→<SC,Cst>
其中情感强化学习求解显著性计算SC和对象时空上下文信息Cst与目标真实语义信息
Figure FDA0002532441200000022
误差的最小范式:
Figure FDA0002532441200000023
2.根据权利要求1所述的方法,其特征在于,所述多模态融合神经网络包括图像处理的深度卷积网络、语音处理的深度卷积网络、语言文字处理的循环神经网络和多模态融合的深度神经网络。
3.根据权利要求1所述的方法,其特征在于,所述目标知识图谱包括目标语义信息与属性语义信息之间的共现概率。
4.根据权利要求1所述的方法,其特征在于,所述对象时空上下文信息包括属性语义信息出现的时间上下文信息和空间上下文信息,以及目标语义信息出现的时间上下文信息和空间上下文信息。
CN201811046842.5A 2018-09-08 2018-09-08 面向无人自主***的基于类脑跨媒体智能的目标识别方法 Active CN109241912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811046842.5A CN109241912B (zh) 2018-09-08 2018-09-08 面向无人自主***的基于类脑跨媒体智能的目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811046842.5A CN109241912B (zh) 2018-09-08 2018-09-08 面向无人自主***的基于类脑跨媒体智能的目标识别方法

Publications (2)

Publication Number Publication Date
CN109241912A CN109241912A (zh) 2019-01-18
CN109241912B true CN109241912B (zh) 2020-08-07

Family

ID=65067473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811046842.5A Active CN109241912B (zh) 2018-09-08 2018-09-08 面向无人自主***的基于类脑跨媒体智能的目标识别方法

Country Status (1)

Country Link
CN (1) CN109241912B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210387B (zh) * 2019-05-31 2021-08-31 华北电力大学(保定) 基于知识图谱的绝缘子目标检测方法、***、装置
CN110673600B (zh) * 2019-10-18 2021-05-28 武汉理工大学 面向无人船舶的自动驾驶集成***
CN110889505B (zh) * 2019-11-18 2023-05-02 北京大学 一种图文序列匹配的跨媒体综合推理方法和***
CN111428044B (zh) * 2020-03-06 2024-04-05 中国平安人寿保险股份有限公司 多模态获取监管识别结果的方法、装置、设备及存储介质
CN111462733B (zh) * 2020-03-31 2024-04-16 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN111645073B (zh) * 2020-05-29 2022-04-19 武汉理工大学 一种机器人视觉语义导航方法、装置及***
CN111767432B (zh) * 2020-06-30 2024-04-02 北京百度网讯科技有限公司 共现对象的查找方法和装置
CN112381462B (zh) * 2020-12-07 2024-07-16 军事科学院***工程研究院网络信息研究所 一种类人体神经***的智能网络***的数据处理方法
CN112949684B (zh) * 2021-01-28 2022-07-29 天津大学 一种基于强化学习框架的多模态检测对话情感信息的方法
CN113220894B (zh) * 2021-02-07 2023-08-18 国家卫星气象中心(国家空间天气监测预警中心) 一种基于感知计算的卫星遥感数据智能获取方法
CN112966736B (zh) * 2021-03-03 2022-11-11 北京航空航天大学 一种基于多视角匹配与局部特征融合的车辆再识别方法
CN117008464B (zh) * 2023-10-07 2023-12-15 广东海洋大学 一种基于姿态控制的无人船导航方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503646A (zh) * 2016-10-19 2017-03-15 竹间智能科技(上海)有限公司 多模态情感辨识***及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503646A (zh) * 2016-10-19 2017-03-15 竹间智能科技(上海)有限公司 多模态情感辨识***及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Cross-media analysis and reasoning: advances and directions》;Peng Yu-xin等;《Frontiers of Information Technology & Electronic Engineering》;20170101;全文 *
《什么是自注意力机制》;机器之心;《https://zhuanlan.zhihu.com/p/42425945》;20180819;第1-11页 *
《基于相关性分析的跨媒体检索》;王述;《中国优秀硕士学位论文全文数据库 信息科技辑》;20171015;第1-71页 *
《基于语义空间统一表征的视频多模态内容分析技术》;张德等;《电视技术》;20170817;第41卷(第7期);第131-133页 *

Also Published As

Publication number Publication date
CN109241912A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109241912B (zh) 面向无人自主***的基于类脑跨媒体智能的目标识别方法
Dumoulin et al. Feature-wise transformations
US9630318B2 (en) Feature detection apparatus and methods for training of robotic navigation
KR102137151B1 (ko) 노이즈 캔슬링 장치 및 그 방법
KR20190113119A (ko) 합성곱 신경망을 위한 주의집중 값 계산 방법
Lee et al. SubFlow: A dynamic induced-subgraph strategy toward real-time DNN inference and training
KR20200028330A (ko) 네트워크 연산 에지 전반에 걸쳐 연속적으로 애플리케이션을 작동하는 딥 러닝과 인공 지능에서 지속적인 메모리 기반 학습을 가능하게 하는 시스템 및 방법
US20200372370A1 (en) Large scale generative neural network model with inference for representation learning using adversial training
Zhang et al. Compacting deep neural networks for Internet of Things: Methods and applications
EP3120300A2 (en) Methods and apparatus for autonomous robotic control
KR20200078214A (ko) 스타일 변환을 위한 영상 처리 장치 및 방법
CN115082885A (zh) 点云目标的检测方法、装置、设备及存储介质
Birk A survey of underwater human-robot interaction (U-HRI)
CN112115744B (zh) 点云数据的处理方法及装置、计算机存储介质、电子设备
EP4361564A1 (en) Training a path distribution estimation model
US20230419721A1 (en) Electronic device for improving quality of image and method for improving quality of image by using same
US20230351203A1 (en) Method for knowledge distillation and model genertation
US20220383073A1 (en) Domain adaptation using domain-adversarial learning in synthetic data systems and applications
EP3923199A1 (en) Method and system for compressing a neural network
Lee et al. Facial pose estimation using modified synergetic computer
US11869149B2 (en) Computer-based techniques for learning compositional representations of 3D point clouds
US20230368032A1 (en) Computer-based techniques for learning compositional representations of 3d point clouds
Fernandes et al. HARM-The Human Action Recognition Module
KR102640791B1 (ko) 선내 음성 디지털화 시스템
CN115982395B (zh) 一种基于量子的媒体信息的情感预测方法、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant