CN110580500B - 一种面向人物交互的网络权重生成少样本图像分类方法 - Google Patents
一种面向人物交互的网络权重生成少样本图像分类方法 Download PDFInfo
- Publication number
- CN110580500B CN110580500B CN201910770529.4A CN201910770529A CN110580500B CN 110580500 B CN110580500 B CN 110580500B CN 201910770529 A CN201910770529 A CN 201910770529A CN 110580500 B CN110580500 B CN 110580500B
- Authority
- CN
- China
- Prior art keywords
- network
- verb
- noun
- visual
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明的一种面向人物交互的网络权重生成少样本图像分类方法,考虑到人物交互图像数据集中的长尾问题,使用元学习框架,采用episodic训练策略,模拟了真实场景下少样本图像数据情况,减小图像数据分布差异,提高泛化能力,有效解决人物交互任务中图像分布不均的问题。引入标签的名词与动词的语义信息,生成任务级的特征提取网络功能参数对视觉特征进行加强。在训练过程中,不断地从获取不同的小样本任务,使用任务包含类别的语义与视觉融合信息将任务数据表示为一个任务特征,基于这个任务特征,通过参数生成器采样出一个针对当前这个任务的目标网络对应层的参数,关注到相关图像中人物的动作和物体区域,能够提高图像分类能力。
Description
技术领域
本发明涉及一种图像分类方法。特别是涉及一种面向人物交互的网络权重生成少样本图像分类方法。
背景技术
深度学习是机器学习中的一个热点领域,具体任务如图像分类、目标检测等。深度学习技术是在大量数据和大规模训练的基础上,模拟或实现人类的学习行为,以获取新的知识或技能。这些数据的采集、标注需要耗费大量的人力成本。在现实中,随着更多应用场景的涌现,我们也将必然面临更多数据不足的问题,然而在标注数据比较少的情况下,神经网络通常容易过拟合,使深度学习的应用和效果都受到了限制。与之相反,人类具有从少量数据中学习的能力,例如给一个小朋友看过几张苹果的图片之后,他就可以很快学会“苹果”这个类别。
因此如何能够让机器像人类一样能够利用学习经验从小样本中进行有效学习,成为了一个重要的研究方向。由该情境提出的少样本学习(Few-shot learning),少样本学习目标是用已知类别训练一个分类模型,使它能够在只有少量数据的未知类别上具有很好的泛化性能。元学习(Meta Learning)也称为学会学习,其思想是利用已有的先验知识能够快速适应新的学习任务。元学习思想的提出为少样本学习提供了新的思路,基于元学习的少样本学习方法引起了广泛关注。
在元学习中,将图像类别分为元训练集(Meta Train Set)和元测试集(Meta TestSet),其类别互不重合。现有元学习的方法大致可分为两种:基于度量的方法和基于梯度的方法。
基于度量的方法旨在最小化类内距离,同时最大化类间距离,经典算法如匹配网络(Matching Network),关系网络(Relation Network)和原型网络(PrototypicalNetwork)。这类方法通常采用Episodic的训练策略,即将训练集分为支持集(Support Set)和查询集(Query Set),对每个类别抽取少量样本,形成一个子任务(episodes),用来模拟训练和测试的过程,再使用子任务来训练模型。
基于梯度的方法旨在训练一个模型仅通过微调可以更好的泛化到新的任务上,经典算法如模型无关的元学习(MAML)。
元学习通过对已有任务的学习,来提升对未见的新任务的分类准确率。通过对支持集和查询集的视觉特征进行匹配,完成分类。元学习在此框架下,学习一种视觉特征与视觉特征的匹配关系,以实现新任务的自动分类。
现在基于元学习的少样本训练主要存在以下问题:
1)目前,人物交互数据集中的存在长尾问题,即存在一些不常见的组合,分布在尾部的类别仅有少量样本,导致类别间的样本极度不均衡,使得训练出来的模型泛化能力差,容易过拟合。如何将头部样本多的类别的知识迁移到尾部样本少的类别,对人物交互任务提出了挑战。
2)现阶段元学***。
发明内容
本发明所要解决的技术问题是,提供一种能够提高图像分类能力的面向人物交互的网络权重生成少样本图像分类方法。
本发明所采用的技术方案是:一种面向人物交互的网络权重生成少样本图像分类方法,其特征在于,包括如下步骤:
1)将图像数据分为元训练集和元测试集;将元训练集和元测试集分别分为支持集和查询集,对支持集中的每个类别抽取设定量样本,形成一小样本任务;
2)设定支持集中含有w个图像类别,每个类别给出由s个四元组定义的数据,其中,s是大于等于0的整数,xi∈Rp是第i个图像视觉特征,是第i个图像视觉特征的类别标签,ni∈Rq是第i个图像视觉特征的类别中名词的文本语义特征,vi∈Rq是第i个图像视觉特征的类别中动词的文本语义特征;p和q分别是视觉和语义空间的维度;训练阶段与支持集相对应类别的查询集给出q个二元组其中,q是大于0的整数,是第j个图像视觉特征,是第j个图像视觉特征的类别标签;
3)从元训练集的支持集中随机取得w个图像类别的支持集的视觉特征,分别记为x1,x2,x3,x4,……,xw,每个类别包含s个样本;
6)从元训练集的支持集得到w个图像类别的名词语义信息和动词语义信息分别记为N={n1,n2,...,nw},V={v1,v2,...,vw},与支持集特征向量x~S共同送入语义元网络gΦ中,得到归一化后的名词区域卷积核权重和归一化后的动词区域卷积核权重
7)将归一化后的名词区域卷积核权重和归一化后的动词区域卷积核权重输入目标网络Tθ,得到名词区域目标网络和动词区域目标网络再依次将支持集特征向量与查询集特征向量送入名词区域目标网络和动词区域目标网络得到名词融合目标特征和动词融合目标特征
9)在训练阶段,不断地从元训练集中获取不同的小样本任务,采用交叉熵损失和函数作为损失函数,通过反向传播,累积不同任务的损失来调整视觉特征提取网络和语义元网络gΦ的参数,采用Adam优化算法对损失函数进行优化,直至损失函数趋于稳定;
10)在测试阶段,将元测试集的支持集与查询集的视觉特征输入训练好的视觉特征提取网络中,将支持集名词语义信息和动词语义信息输入训练好的语义元网络gΦ中,得到特定区域的名词融合目标特征和动词融合目标特征再计算得到查询集图片属于各个类别的概率,将概率最大的那个类别,作为查询集图片所属的类别。
本发明的一种面向人物交互的网络权重生成少样本图像分类方法,考虑到人物交互图像数据集中的长尾问题,使用元学习框架,采用episodic训练策略,模拟了真实场景下少样本图像数据情况,减小图像数据分布差异,提高泛化能力,有效解决人物交互任务中图像分布不均的问题。引入标签的名词与动词的语义信息,生成任务级的特征提取网络功能参数对视觉特征进行加强。在训练过程中,不断地从获取不同的小样本任务,使用任务包含类别的语义与视觉融合信息将任务数据表示为一个任务特征,基于这个任务特征,通过参数生成器采样出一个针对当前这个任务的目标网络对应层的参数,关注到相关图像中人物的动作和物体区域,能够提高图像分类能力。
附图说明
图1为本发明一种面向人物交互的网络权重生成少样本图像分类方法的流程图;
图2为本发明中支持集的语义元网络的流程图;
图3为本发明中目标网络的流程图。
具体实施方式
下面结合实施例和附图对本发明的一种面向人物交互的网络权重生成少样本图像分类方法做出详细说明。
如图1所示,本发明的一种面向人物交互的网络权重生成少样本图像分类方法,包括如下步骤:
1)将图像数据分为元训练集和元测试集;将元训练集和元测试集分别分为支持集和查询集,对支持集中的每个类别抽取设定量样本,形成一小样本任务;
2)设定支持集中含有w个图像类别,每个类别给出由s个四元组定义的数据,其中,s是大于等于0的整数,(图1是以w=5,s=1为例)xi∈Rp是第i个图像视觉特征,是第i个图像视觉特征的类别标签,ni∈Rq是第i个图像视觉特征的类别中名词的文本语义特征,vi∈Rq是第i个图像视觉特征的类别中动词的文本语义特征;p和q分别是视觉和语义空间的维度;训练阶段与支持集相对应类别的查询集给出q个二元组其中,q是大于0的整数,是第j个图像视觉特征,是第j个图像视觉特征的类别标签;
3)从元训练集的支持集中随机取得w个图像类别的支持集的视觉特征,分别记为x1,x2,x3,x4,……,xw,每个类别包含s个样本;
6)从元训练集的支持集得到w个图像类别的名词语义信息和动词语义信息分别记为N={n1,n2,...,nw},V={v1,v2,...,vw},与支持集特征向量共同送入语义元网络gΦ中,得到归一化后的名词区域卷积核权重和归一化后的动词区域卷积核权重如图2所示,所述的语义元网络gΦ包括编码网络、语义融合网络和参数生成器,其中,
Ln=E1(ni) (1)
Lv=E1(vi) (2)
所述的语义融合网络分为名词部分和动词部分,名词部分将支持集视觉编码特征Ls和名词语义编码特征Ln输入第一融合网络C1,动词部分将支持集视觉编码特征Ls和动词语义编码特征Lv输入第一融合网络C1,得到语义与视觉融合的任务特征:
7)如图3所示,将归一化后的名词区域卷积核权重和归一化后的动词区域卷积核权重输入目标网络Tθ,所述的目标网络Tθ是两层卷积网络,得到名词区域目标网络和动词区域目标网络再依次将支持集特征向量与查询集特征向量送入名词区域目标网络和动词区域目标网络得到名词融合目标特征和动词融合目标特征包括:
将归一化后的名词区域卷积核权重和归一化后的动词区域卷积核权重输入目标网络Tθ,得到名词区域目标网络和动词区域目标网络并分别向名词区域目标网络和动词区域目标网络输入支持集特征向量和查询集特征向量得到名词区域的目标特征向量和动词区域的目标特征向量:
9)在训练阶段,不断地从元训练集中获取不同的小样本任务,采用交叉熵损失和函数作为损失函数,通过反向传播,累积不同任务的损失来调整视觉特征提取网络和语义元网络gΦ的参数,采用Adam优化算法对损失函数进行优化,直至损失函数趋于稳定;
10)在测试阶段,将元测试集的支持集与查询集的视觉特征输入训练好的视觉特征提取网络中,将支持集名词语义信息和动词语义信息输入训练好的语义元网络gΦ中,得到特定区域的名词融合目标特征和动词融合目标特征再计算得到查询集图片属于各个类别的概率,将概率最大的那个类别,作为查询集图片所属的类别。
步骤8)和步骤10)是采用如下公式计算得到查询集图片属于各个类别的概率:
Claims (4)
1.一种面向人物交互的网络权重生成少样本图像分类方法,其特征在于,包括如下步骤:
1)将图像数据分为元训练集和元测试集;将元训练集和元测试集分别分为支持集和查询集,对支持集中的每个类别抽取设定量样本,形成一小样本任务;
2)设定支持集中含有w个图像类别,每个类别给出由s个四元组定义的数据,其中,s是大于等于0的整数,xi∈Rp是第i个图像视觉特征,是第i个图像视觉特征的类别标签,ni∈Rq是第i个图像视觉特征的类别中名词的文本语义特征,vi∈Rq是第i个图像视觉特征的类别中动词的文本语义特征;p和q分别是视觉和语义空间的维度;训练阶段与支持集相对应类别的查询集给出q个二元组其中,q是大于0的整数,是第j个图像视觉特征,是第j个图像视觉特征的类别标签;
3)从元训练集的支持集中随机取得w个图像类别的支持集的视觉特征,分别记为x1,x2,x3,x4,……,xw,每个类别包含s个样本;
6)从元训练集的支持集得到w个图像类别的名词语义信息和动词语义信息分别记为N={n1,n2,...,nw},V={v1,v2,...,vw},与支持集特征向量共同送入语义元网络gΦ中,得到归一化后的名词区域卷积核权重和归一化后的动词区域卷积核权重
所述的语义元网络gΦ包括编码网络、语义融合网络和参数生成器,其中,
Ln=E1(ni) (1)
Lv=E1(vi) (2)
所述的语义融合网络分为名词部分和动词部分,名词部分将支持集视觉编码特征Ls和名词语义编码特征Ln输入第一融合网络C1,动词部分将支持集视觉编码特征Ls和动词语义编码特征Lv输入第一融合网络C1,得到语义与视觉融合的任务特征:
7)将归一化后的名词区域卷积核权重和归一化后的动词区域卷积核权重输入目标网络Tθ,得到名词区域目标网络和动词区域目标网络再依次将支持集特征向量与查询集特征向量送入名词区域目标网络和动词区域目标网络得到名词融合目标特征和动词融合目标特征
9)在训练阶段,不断地从元训练集中获取不同的小样本任务,采用交叉熵损失和函数作为损失函数,通过反向传播,累积不同任务的损失来调整视觉特征提取网络和语义元网络gΦ的参数,采用Adam优化算法对损失函数进行优化,直至损失函数趋于稳定;
2.根据权利要求1所述的一种面向人物交互的网络权重生成少样本图像分类方法,其特征在于,步骤7)所述的目标网络Tθ是两层卷积网络。
3.根据权利要求1所述的一种面向人物交互的网络权重生成少样本图像分类方法,其特征在于,步骤7)包括:将归一化后的名词区域卷积核权重和归一化后的动词区域卷积核权重输入目标网络Tθ,得到名词区域目标网络和动词区域目标网络并分别向名词区域目标网络和动词区域目标网络输入支持集特征向量和查询集特征向量得到名词区域的目标特征向量和动词区域的目标特征向量:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910770529.4A CN110580500B (zh) | 2019-08-20 | 2019-08-20 | 一种面向人物交互的网络权重生成少样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910770529.4A CN110580500B (zh) | 2019-08-20 | 2019-08-20 | 一种面向人物交互的网络权重生成少样本图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110580500A CN110580500A (zh) | 2019-12-17 |
CN110580500B true CN110580500B (zh) | 2023-04-18 |
Family
ID=68811202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910770529.4A Active CN110580500B (zh) | 2019-08-20 | 2019-08-20 | 一种面向人物交互的网络权重生成少样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110580500B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539448B (zh) * | 2020-03-17 | 2023-04-07 | 广东省智能制造研究所 | 一种基于元学习的少样本图像分类方法 |
CN111503990B (zh) * | 2020-04-10 | 2021-06-01 | 海信集团有限公司 | 一种冰箱及食材识别方法 |
CN111582337A (zh) * | 2020-04-24 | 2020-08-25 | 东南大学 | 基于小样本细粒度图像分析的草莓畸形状态检测方法 |
CN111291841B (zh) * | 2020-05-13 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置、计算机设备和存储介质 |
CN111738301B (zh) * | 2020-05-28 | 2023-06-20 | 华南理工大学 | 一种基于双通道学习的长尾分布图像数据识别方法 |
CN111882000A (zh) * | 2020-08-04 | 2020-11-03 | 天津大学 | 一种应用于小样本细粒度学习的网络结构及方法 |
CN112613556B (zh) * | 2020-09-01 | 2022-04-19 | 电子科技大学 | 基于元学习的少样本图像情感分类方法 |
CN112215280B (zh) * | 2020-10-12 | 2022-03-15 | 西安交通大学 | 一种基于元骨干网络的小样本图像分类方法 |
CN112364870B (zh) * | 2020-10-22 | 2021-10-15 | 中国科学院大学 | 一种基于特征和谐激活的小样本语义分割方法 |
CN112434721B (zh) * | 2020-10-23 | 2023-09-01 | 特斯联科技集团有限公司 | 一种基于小样本学习的图像分类方法、***、存储介质及终端 |
CN112597278B (zh) * | 2020-12-25 | 2024-06-14 | 北京知因智慧科技有限公司 | 一种语义信息融合方法、装置、电子设备及存储介质 |
CN112949730B (zh) * | 2021-03-11 | 2024-04-09 | 无锡禹空间智能科技有限公司 | 少样本的目标检测方法、装置、存储介质及设备 |
CN112949740B (zh) * | 2021-03-17 | 2022-11-25 | 重庆邮电大学 | 一种基于多级度量的小样本图像分类方法 |
CN113377990B (zh) * | 2021-06-09 | 2022-06-14 | 电子科技大学 | 基于元自步学习的视频/图片-文本跨模态匹配训练方法 |
CN113420642A (zh) * | 2021-06-21 | 2021-09-21 | 西安电子科技大学 | 一种基于类别语义特征重加权的小样本目标检测方法及*** |
CN114005177B (zh) * | 2021-10-29 | 2023-09-19 | 北京百度网讯科技有限公司 | 人物交互检测方法、神经网络及其训练方法、设备和介质 |
CN114092742B (zh) * | 2021-11-19 | 2024-02-06 | 西安交通大学 | 一种基于多角度的小样本图像分类装置和方法 |
CN117095187B (zh) * | 2023-10-16 | 2023-12-19 | 四川大学 | 元学习视觉语言理解与定位方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220506A (zh) * | 2017-06-05 | 2017-09-29 | 东华大学 | 基于深度卷积神经网络的乳腺癌风险评估分析*** |
CN107239801A (zh) * | 2017-06-28 | 2017-10-10 | 安徽大学 | 视频属性表示学习方法及视频文字描述自动生成方法 |
CN109961089A (zh) * | 2019-02-26 | 2019-07-02 | 中山大学 | 基于度量学习和元学习的小样本和零样本图像分类方法 |
JP2019128804A (ja) * | 2018-01-24 | 2019-08-01 | 株式会社日立製作所 | 特定システムおよび特定方法 |
CN110097094A (zh) * | 2019-04-15 | 2019-08-06 | 天津大学 | 一种面向人物交互的多重语义融合少样本分类方法 |
CN110136693A (zh) * | 2018-02-09 | 2019-08-16 | 百度(美国)有限责任公司 | 用于使用少量样本进行神经话音克隆的***和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019099305A1 (en) * | 2017-11-14 | 2019-05-23 | Magic Leap, Inc. | Meta-learning for multi-task learning for neural networks |
-
2019
- 2019-08-20 CN CN201910770529.4A patent/CN110580500B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220506A (zh) * | 2017-06-05 | 2017-09-29 | 东华大学 | 基于深度卷积神经网络的乳腺癌风险评估分析*** |
CN107239801A (zh) * | 2017-06-28 | 2017-10-10 | 安徽大学 | 视频属性表示学习方法及视频文字描述自动生成方法 |
JP2019128804A (ja) * | 2018-01-24 | 2019-08-01 | 株式会社日立製作所 | 特定システムおよび特定方法 |
CN110136693A (zh) * | 2018-02-09 | 2019-08-16 | 百度(美国)有限责任公司 | 用于使用少量样本进行神经话音克隆的***和方法 |
CN109961089A (zh) * | 2019-02-26 | 2019-07-02 | 中山大学 | 基于度量学习和元学习的小样本和零样本图像分类方法 |
CN110097094A (zh) * | 2019-04-15 | 2019-08-06 | 天津大学 | 一种面向人物交互的多重语义融合少样本分类方法 |
Non-Patent Citations (3)
Title |
---|
Generating Classification Weights with GNN Denoising Autoencoders for Few-Shot Learning;Spyros Gidaris等;《arxiv.org》;20190603;全文 * |
Meta-Transfer Learning for Few-Shot Learning;Qianru Sun等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20190615;全文 * |
基于句式元学习的Twitter分类;闫雷鸣等;《北京大学学报(自然科学版)》;20190131;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110580500A (zh) | 2019-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110580500B (zh) | 一种面向人物交互的网络权重生成少样本图像分类方法 | |
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN110569886B (zh) | 一种双向通道注意力元学习的图像分类方法 | |
US11409791B2 (en) | Joint heterogeneous language-vision embeddings for video tagging and search | |
CN107688821B (zh) | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 | |
CN106649542B (zh) | 用于视觉问答的***和方法 | |
CN110309514A (zh) | 一种语义识别方法及装置 | |
CN111737552A (zh) | 训练信息抽取模型和获取知识图谱的方法、装置和设备 | |
CN106973244A (zh) | 使用弱监督为图像配字幕 | |
CN113536922A (zh) | 一种加权融合多种图像任务的视频行为识别方法 | |
CN111241291A (zh) | 利用对抗生成网络生成对抗样本的方法及装置 | |
CN111143617A (zh) | 一种图片或视频文本描述自动生成方法及*** | |
CN110070140B (zh) | 基于多类别信息的用户相似性确定方法及装置 | |
CN110929640B (zh) | 一种基于目标检测的宽幅遥感描述生成方法 | |
CN113821668A (zh) | 数据分类识别方法、装置、设备及可读存储介质 | |
CN113515669A (zh) | 基于人工智能的数据处理方法和相关设备 | |
CN112131430A (zh) | 视频聚类方法、装置、存储介质和电子设备 | |
CN111639186A (zh) | 动态嵌入投影门控的多类别多标签文本分类模型及装置 | |
CN116935170B (zh) | 视频处理模型的处理方法、装置、计算机设备和存储介质 | |
CN113239159A (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN112131345A (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN113657473A (zh) | 一种基于迁移学习的Web服务分类方法 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
Yang et al. | Student Classroom Behavior Detection Based on YOLOv7+ BRA and Multi-model Fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |