CN116301389B - 一种基于深度学习的多模态智能家具控制方法 - Google Patents

一种基于深度学习的多模态智能家具控制方法 Download PDF

Info

Publication number
CN116301389B
CN116301389B CN202310551358.2A CN202310551358A CN116301389B CN 116301389 B CN116301389 B CN 116301389B CN 202310551358 A CN202310551358 A CN 202310551358A CN 116301389 B CN116301389 B CN 116301389B
Authority
CN
China
Prior art keywords
prediction
action
prediction probability
weight
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310551358.2A
Other languages
English (en)
Other versions
CN116301389A (zh
Inventor
马礼斌
胡展坤
刘建圻
施浩湧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Piano Customized Furniture Co ltd
Original Assignee
Guangdong Piano Customized Furniture Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Piano Customized Furniture Co ltd filed Critical Guangdong Piano Customized Furniture Co ltd
Priority to CN202310551358.2A priority Critical patent/CN116301389B/zh
Publication of CN116301389A publication Critical patent/CN116301389A/zh
Application granted granted Critical
Publication of CN116301389B publication Critical patent/CN116301389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的多模态智能家具控制方法,本发明属于智能家具的控制领域,包括:获取动作视频图像,基于所述动作视频图像,得到多模态序列数据;基于深度学习,构建若干个预测模型;将所述多模态序列数据分别输入所述预测模型中,得到若干个预测概率矩阵和预测权重;对所述预测概率矩阵和预测权重进行加权计算,得到预测概率值和动作指令,基于所述预测概率值和动作指令,控制智能家居运动。本发明通过多模态序列数据对智能家具进行控制,同时发出控制指令,提高了控制精度。

Description

一种基于深度学习的多模态智能家具控制方法
技术领域
本发明属于智能家具的控制技术领域,尤其涉及一种基于深度学习的多模态智能家具控制方法。
背景技术
智能家具控制就是运用传感器感知技术,物联网通信技术,智能控制算法以及智能机械来实现家具的升、降、开、合,平移,从而为用户提供人性化服务,这也是家具行业今后发展的趋势与潮流。一般情况下,使用者都会以按键等形式发出控制指令使家具机械装置完成相关控制动作。
近年来,语音识别技术日趋成熟,以语音为载体的家具控制***也渐渐走进民众家中。然而存在相当数量语言障碍人群或老人这类陌生普通话人群很难通过当前市面上主流语音交互功能感受到智能家具的便利。而且在深夜家庭等这类需要保持沉默的地方,也不便用语音来进行家具交互。此外,单一的控制方法并不足以满足众多用户群体的需求,而多种方法相结合的控制方式可以让智能家具为用户生活提供更多便捷。
发明内容
本发明提出了一种基于深度学习的多模态智能家具控制方法,以解决上述现有技术中存在的技术问题。
为实现上述目的,本发明提供了一种基于深度学习的多模态智能家具控制方法,包括:
获取动作视频图像,基于所述动作视频图像,得到多模态序列数据;
基于深度学习,构建若干个预测模型;将所述多模态序列数据分别输入所述预测模型中,得到若干个预测概率矩阵和预测权重;
对所述预测概率矩阵和预测权重进行加权计算,得到预测概率值和动作指令,基于所述预测概率值和动作指令,控制智能家居运动。
优选地,所述多模态序列数据包括:第一动作序列数据和第二动作序列数据。
优选地,得到多模态序列数据的过程包括:
对动作视频图像进行切帧处理,得到若干张动作图片,通过YOLO模型对所述动作图片进行动作检测,得到第一动作序列帧和第二动作序列帧;
分别对所述第一动作序列帧和第二动作序列帧进行预处理,得到第一动作序列数据和第二动作序列数据。
优选地,预测模型包括:ResNet模型、ViT模型和融合模型;
预测概率矩阵包括:第一预测概率矩阵、第二预测概率矩阵和融合预测概率矩阵;
预测权重包括:第一预测权重、第二预测权重和融合预测权重;
其中所述第一预测权重为所述第一预测概率矩阵的权重,所述第二预测权重为所述第二预测概率矩阵的权重,所述融合预测权重为所述融合预测概率矩阵的权重。
优选地,得到第一预测概率矩阵和第一预测权重的过程包括:
构建ResNet模型,将所述第一动作序列数据输入所述ResNet模型,得到第一动作潜在向量和第一预测权重,再将所述第一动作潜在向量输入至ResNet模型分类头,得到第一预测概率矩阵。
优选地,得到第二预测概率矩阵和第二预测权重的过程包括:
构建ViT模型,将所述第二动作序列数据输入所述ViT模型,得到第二动作潜在向量和第二预测权重,再将所述第二动作潜在向量输入至ViT模型分类头,得到第二预测概率矩阵。
优选地,得到融合预测概率矩阵和融合预测权重的过程包括:
构建融合模型,将所述第一动作潜在向量和所述第二动作潜在向量分别输入至融合模型中,得到融合预测概率矩阵和融合预测权重。
优选地,得到预测概率值和动作指令的过程包括:
将第一预测概率矩阵和第一预测权重进行乘积计算,得到第一动作预测概率值;
将第二预测概率矩阵和第二预测权重进行乘积计算,得到第二动作预测概率值;
将融合预测概率矩阵和融合预测权重进行乘积计算,得到融合预测概率值;
将所述第一动作预测概率值、第二动作预测概率值和融合预测概率值进行比较,最终选取最大预测概率值对应的动作指令。
优选地,还包括:
基于动作视频图像,得到单模态序列数据,构建预测模型,将所述单模态序列数据输入所述预测模型中,得到单预测概率矩阵;基于所述单预测概率矩阵对应的动作指令,控制智能家居运动。
与现有技术相比,本发明具有如下优点和技术效果:
本发明提供了一种基于深度学习的多模态智能家具控制方法,基于动作视频图像,得到多模态序列数据;基于深度学习,构建若干个预测模型;将多模态序列数据分别输入所述预测模型中,得到若干个预测概率矩阵和预测权重;对所述预测概率矩阵和预测权重进行加权计算,得到预测概率值和动作指令,基于所述预测概率值和动作指令,控制智能家居运动。本发明通过多模态序列数据对智能家具进行控制,同时发出控制指令,提高了控制精度;也可以通过单模态序列数据发出控制指令,对智能家具进行控制。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的方法流程图;
图2为本发明实施例的数据预处理流程图;
图3为本发明实施例的HLFM体系结构图;
图4为本发明实施例的ResNet深度神经网络的体系结构图;
图5为本发明实施例的ViT的体系结构图;
图6为本发明实施例的Multimodal Fusion Module的体系结构图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1所示,本实施例中提供一种基于深度学习的多模态智能家具控制方法,包括:
S1:使用摄像头捕捉录制用户动作视频,包括手势动作和口型动作;
S2:视频预处理,得到手势和口型的动作序列数据;
S3:将手势和口型的动作序列特征输入HLFM(Hand-Lip fusion model),生成用户的动作概率矩阵;
S4:计算用户动作概率矩阵权重,获得相应家具控制动作的预测结果。
如图2所示,S2的具体过程:
S2-1:视频预处理:首先对用户动作视频进行切帧处理,在一秒视频流中平均截取30帧完整图像,再利用YOLO模型对所有图像帧分别处理获得手势动作序帧图片和口型动作序列帧图片;
S2-2:动作序列数据的形成:分别将手势动作序列帧图片和口型动作序列帧图片缩放为长为224,宽为224的图片,再将全部图片都转化为灰度图后进行归一化,得到手势和口型的动作序列特征数据。
S3的具体过程:
A1:对手势动作序列特征数据进行计算输入ResNet模型,获得手势动作潜在向量、单路手势预测动作概率矩阵和自适应的手势预测权重,如图4所示。
ResNet网络的原理:
ResNet网络是参考了VGG19网络,在其基础上进行了修改,并通过短路机制加入了残差单元,如图4所示。ResNet使用stride=2的卷积做下采样,并且用global average pool层替换了全连接层。ResNet的一个重要设计原则是:当feature map大小降低一半时,feature map的数量增加一倍,这保持了网络层的复杂度。ResNet相比普通网络每两层间增加了短路机制,这就形成了残差学习。从而就能通过构建更加深层次的卷积网络模型来获得更好的效果。
A1中使用ResNet模型的具体步骤如下:
A1-1:在进行预测之前,需要先用分类及图像数据集对ResNet模型进行多轮训练,获得预训练ResNet模型;
A1-2:使用手势识别数据集对预训练ResNet模型进行微调,得到微调好的预训练ResNet模型;
A1-3:在获得手势潜在向量的预测中,首先使用预训练的ResNet模型除分类头之外的部分,获得手势动作潜在向量和自适应的手势预测权重。如果用户没有进行手势动作,微调好的预训练ResNet模型会输出值为0的手势动作潜在向量和手势预测权重,使手势动作不会参与之后的计算。接着再将手势动作潜在向量输入预训练ResNet模型分类头获得单路手势预测动作概率矩阵。
A2:将口型动作序列特征数据输入ViT,获得中间的潜在向量,获得口型动作潜在向量、单路口型预测动作概率矩阵和自适应的口型预测权重,如图5所示。
ViT网络原理:
口型模型部分采用视觉transfomer(ViT),将处理好的口型序列特征数据分成多个patch,将每个patch展平之后,再进行一次线性变换,加入可学习的位置编码后输入网络,将输入特征数据进行Normalization后进入Multi-Head Self-attention Module,self-attention Module通过Wq,Wk,Wv三个权重参数获取Q,K,V矩阵,通过QK矩阵获取attention score后再分配特征。Multi-Head使用多个Wq,Wk,Wv组,将结果拼接后进行Linear,最后进入MLP进行分类。
A2中使用模型的具体步骤如下:
A2-1:在进行预测之前,需要先用分类及图像数据集对ViT模型进行多轮训练,获得预训练ViT模型;
A2-2:使用口型数据集对预训练ViT模型进行微调,得到微调好的预训练ViT模型;
A2-3:在获得口型潜在向量的预测中,首先使用预训练的ViT模型除分类头之外的部分,获得口型潜在向量和自适应的口型预测权重。如果用户唇部没有运动,微调好的预训练ViT模型会输出值为0的口型潜在向量和口型预测权重,使口型部分不会参与之后的计算。接着再将clstoken输入预训练ViT模型分类头获得单路口型预测动作概率矩阵。
A3:如图6所示,将手势动作潜在向量和口型动作潜在向量输入多模态融合模块,获得多模态融合预测动作概率矩阵和自适应的融合权重。
经过上述步骤,已经获取单路手势动作潜在向量和口型潜在向量,在两路潜在向量中间加入少量mid fusion tokens(用于存放两路潜在向量的融合信息),将潜在向量分别与fusion tokens连接后输入MHSA,分别获取HLFAM(Hand-Lip Fusion Attention Map)和LHFAM(Hand-Lip Fusion Attention Map),求取HLFAM与LHFAM的余弦距离矩阵Wc,根据Wc矩阵的结果,选取距离最近的一组进行特征相加。
S4的具体步骤如下:
S4-1:如图3所示,设单路手势预测动作概率矩阵为,自适应手势预测权重为/>,单路口型预测动作概率矩阵为/>,自适应口型预测权重为/>,多模态融合预测动作概率矩阵为/>,融合权重为/>,使用以下公式获取加权计算结果值:
S4-2:获得的结果值即为动作以及其对应的预测概率值,选择概率值最大的动作作为最后的预测结果。
与现有技术相比,本实施例原理和优点如下:
本实施例对摄像头采集到的用户动作进行预处理后,再利用深度模型结合用户的手势动作和口型动作预测用户所需的家具控制动作。本实施例能够实现用户在不方便使用语音控制智能家具的情况下,通过手势和口型来发出控制指令,且精度准确,同时增强了智能家具智能交互的扩展性,用户也可仅通过手势或者口型任一动作来控制家具,填补了现有方案的不足。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (4)

1.一种基于深度学习的多模态智能家具控制方法,其特征在于,包括以下步骤:
获取动作视频图像,基于所述动作视频图像,得到多模态序列数据;所述多模态序列数据包括:第一动作序列数据和第二动作序列数据;
基于深度学习,构建若干个预测模型;将所述多模态序列数据分别输入所述预测模型中,得到若干个预测概率矩阵和预测权重;
预测模型包括:ResNet模型、ViT模型和融合模型;
预测概率矩阵包括:第一预测概率矩阵、第二预测概率矩阵和融合预测概率矩阵;
预测权重包括:第一预测权重、第二预测权重和融合预测权重;
其中所述第一预测权重为所述第一预测概率矩阵的权重,所述第二预测权重为所述第二预测概率矩阵的权重,所述融合预测权重为所述融合预测概率矩阵的权重;
得到第一预测概率矩阵和第一预测权重的过程包括:
构建ResNet模型,将所述第一动作序列数据输入所述ResNet模型,得到第一动作潜在向量和第一预测权重,再将所述第一动作潜在向量输入至ResNet模型分类头,得到第一预测概率矩阵;
得到第二预测概率矩阵和第二预测权重的过程包括:
构建ViT模型,将所述第二动作序列数据输入所述ViT模型,得到第二动作潜在向量和第二预测权重,再将所述第二动作潜在向量输入至ViT模型分类头,得到第二预测概率矩阵;
得到融合预测概率矩阵和融合预测权重的过程包括:
构建融合模型,将所述第一动作潜在向量和所述第二动作潜在向量分别输入至融合模型中,得到融合预测概率矩阵和融合预测权重;
对所述预测概率矩阵和预测权重进行加权计算,得到预测概率值和动作指令,基于所述预测概率值和动作指令,控制智能家居运动。
2.根据权利要求1所述的基于深度学习的多模态智能家具控制方法,其特征在于,得到多模态序列数据的过程包括:
对动作视频图像进行切帧处理,得到若干张动作图片,通过YOLO模型对所述动作图片进行动作检测,得到第一动作序列帧和第二动作序列帧;
分别对所述第一动作序列帧和第二动作序列帧进行预处理,得到第一动作序列数据和第二动作序列数据。
3.根据权利要求1所述的基于深度学习的多模态智能家具控制方法,其特征在于,得到预测概率值和动作指令的过程包括:
将第一预测概率矩阵和第一预测权重进行乘积计算,得到第一动作预测概率值;
将第二预测概率矩阵和第二预测权重进行乘积计算,得到第二动作预测概率值;
将融合预测概率矩阵和融合预测权重进行乘积计算,得到融合预测概率值;
将所述第一动作预测概率值、第二动作预测概率值和融合预测概率值进行比较,最终选取最大预测概率值对应的动作指令。
4.根据权利要求1所述的基于深度学习的多模态智能家具控制方法,其特征在于,还包括:
基于动作视频图像,得到单模态序列数据,构建预测模型,将所述单模态序列数据输入所述预测模型中,得到单预测概率矩阵;基于所述单预测概率矩阵对应的动作指令,控制智能家居运动。
CN202310551358.2A 2023-05-17 2023-05-17 一种基于深度学习的多模态智能家具控制方法 Active CN116301389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310551358.2A CN116301389B (zh) 2023-05-17 2023-05-17 一种基于深度学习的多模态智能家具控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310551358.2A CN116301389B (zh) 2023-05-17 2023-05-17 一种基于深度学习的多模态智能家具控制方法

Publications (2)

Publication Number Publication Date
CN116301389A CN116301389A (zh) 2023-06-23
CN116301389B true CN116301389B (zh) 2023-09-01

Family

ID=86798106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310551358.2A Active CN116301389B (zh) 2023-05-17 2023-05-17 一种基于深度学习的多模态智能家具控制方法

Country Status (1)

Country Link
CN (1) CN116301389B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932212A (zh) * 2012-10-12 2013-02-13 华南理工大学 一种基于多通道交互方式的智能家居控制***
CN114445909A (zh) * 2021-12-24 2022-05-06 深圳市大数据研究院 线索语自动识别模型训练方法、装置、存储介质及设备
CN115859112A (zh) * 2022-12-15 2023-03-28 微梦创科网络科技(中国)有限公司 模型训练方法、识别方法、装置、处理设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102168802B1 (ko) * 2018-09-20 2020-10-22 한국전자통신연구원 상호 작용 장치 및 방법
CN110164440B (zh) * 2019-06-03 2022-08-09 交互未来(北京)科技有限公司 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932212A (zh) * 2012-10-12 2013-02-13 华南理工大学 一种基于多通道交互方式的智能家居控制***
CN114445909A (zh) * 2021-12-24 2022-05-06 深圳市大数据研究院 线索语自动识别模型训练方法、装置、存储介质及设备
CN115859112A (zh) * 2022-12-15 2023-03-28 微梦创科网络科技(中国)有限公司 模型训练方法、识别方法、装置、处理设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Vision Transformer的中文唇语识别;薛峰等;《模式识别与人工智能》;第1111-1121页 *

Also Published As

Publication number Publication date
CN116301389A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN110781838B (zh) 一种复杂场景下行人的多模态轨迹预测方法
Wulfmeier et al. Incremental adversarial domain adaptation for continually changing environments
JP7194284B2 (ja) 量子化モデルの最適化方法、装置、情報推薦方法、装置、ニューラルネットワークモデルの最適化方法、装置、電子機器及びコンピュータプログラム
CN105787458A (zh) 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法
CN110929092A (zh) 一种基于动态注意力机制的多事件视频描述方法
CN109443382A (zh) 基于特征提取与降维神经网络的视觉slam闭环检测方法
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN113011320B (zh) 视频处理方法、装置、电子设备及存储介质
CN115393948A (zh) 基于改进Transformer模型的手语视频生成方法
CN112633234A (zh) 人脸去眼镜模型训练、应用方法及其装置、设备和介质
CN114639374A (zh) 一种实时语音驱动的照片级真实感人脸肖像视频生成方法
CN116524593A (zh) 一种动态手势识别方法、***、设备及介质
CN114842553A (zh) 基于残差收缩结构和非局部注意力的行为检测方法
CN116863003A (zh) 视频生成方法、训练视频生成模型的方法及装置
CN116301389B (zh) 一种基于深度学习的多模态智能家具控制方法
CN113436224A (zh) 一种基于显式构图规则建模的智能图像裁剪方法及装置
CN116167015A (zh) 一种基于联合交叉注意力机制的维度情感分析方法
CN114821781A (zh) 一种基于红外微光望远镜的多源融合唇语识别方法和***
CN115858726A (zh) 基于互信息方法表示的多阶段多模态情感分析方法
CN115294353A (zh) 基于多层属性引导的人群场景图像字幕描述方法
Wu et al. 3d semantic vslam of dynamic environment based on yolact
CN116185182B (zh) 一种融合眼动注意力的可控图像描述生成***及方法
CN116740795B (zh) 基于注意力机制的表情识别方法、模型及模型训练方法
CN117557782B (zh) 一种多尺度特征融合和边界信息注意的视频显著目标检测方法
KR102417150B1 (ko) 사용자 동작 인식 방법 및 이를 위한 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant