CN114648535A - 一种基于动态transformer的食品图像分割方法及*** - Google Patents

一种基于动态transformer的食品图像分割方法及*** Download PDF

Info

Publication number
CN114648535A
CN114648535A CN202210278127.4A CN202210278127A CN114648535A CN 114648535 A CN114648535 A CN 114648535A CN 202210278127 A CN202210278127 A CN 202210278127A CN 114648535 A CN114648535 A CN 114648535A
Authority
CN
China
Prior art keywords
image
feature
fusion
food
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210278127.4A
Other languages
English (en)
Inventor
李海生
董笑笑
王薇
王晓川
李楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN202210278127.4A priority Critical patent/CN114648535A/zh
Publication of CN114648535A publication Critical patent/CN114648535A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30128Food products

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于动态transformer的食品图像分割方法及***,其方法包括S1:将输入的食品图像划分为不同大小的一系列图像块,输入到多个不同尺寸的动态视觉的transformer编码器网络;输出多层不同尺度的图像特征向量;S2:提取预设层的图像特征向量进行融合,得到融合后的图像特征向量;S3:构建多级特征聚合网络,将融合后的图像特征向量进行自顶向下的特征融合,构建特征金字塔,得到多尺度特征融合向量;S4:构建分割解码器,针对特征金字塔融合的多尺度特征进行卷积和上采样操作,最终生成具有食物类别边界分割精确的分割结果。本发明提供的方法能够自适应不同图片尺度,并提高图片语义信息提取的丰富性和整体性,使得食品分割模型更具有泛化性和鲁棒性。

Description

一种基于动态transformer的食品图像分割方法及***
技术领域
本发明涉及计算机视觉和食品计算领域,具体涉及一种基于动态transformer的食品图像分割方法及***。
背景技术
计算机视觉正在成为一种获取和分析真实场景图像的新兴技术,它帮助智能***从图像和多维数据中感知世界。计算机视觉的核心技术一直与图像分析和处理有关,它可以对图像中的一些具体对象进行分类、检测和分割。图像语义分割对一组对象类别进行像素级预测;与预测整个图像标签的图像分类相比,分割通常是一项要求更高的任务。从最早的传统方法,如阈值、k均值聚类、区域生长,到一些已经获得了很好效果的深度学***移不变性和局部性特点获取图像语义细节信息。
近年来,随着自然语言处理(NLP)的巨大成功,人们逐渐对将注意机制和Transformer引入视觉任务产生了强烈的兴趣。例如双注意网络(DANet),利用自注意机制来捕获丰富的上下文依赖性。将transformer用于图像分类的开山之作ViT,根据NLP中transformer的设计,作者将图像分割成多个线性patch embedding,并添加位置信息,在ImageNet上取得了高效的性能。在语义分割方面,第一篇利用transformer用于图像语义分割的论文:SETR,证明了其在语义分割中的可行性。
随着生活水平的改善,成人肥胖率在逐渐增加,人们更加重视健康饮食和食品安全,并考虑到准确跟踪食物摄入量的意义。因此,食品计算的概念被提出,并越来越引起了公众的关注,因为它涵盖了一个全面的技术和方向总结,用于食品和健康领域的研究和运用。食物计算的一个关键目标是自动识别不同类型的食物,而食物分割是开发与健康直接相关的应用方面是必要和不可或缺的技术,如估计食物热量或营养和食物分量评估。在计算机视觉中,相关工作从食物分类、菜谱检索到食品溯源等方面。食品计算中定义了食品分类,和食品分割。与食品分类相比,食品分割更为复杂,因为其目标是对每个像素进行分类,并识别饮食图像中的每个成分类别及其像素级区域。与一般数据集上的语义分割不同,由于食物外观的巨大多样性和成分分布的不平衡,食品分割是一项更具挑战性的任务。有两个主要原因,用不同方式烹饪的同一食物在视觉上有很大不同,不同成分的外观可能看起来非常相似。另一方面,食品数据集的分布通常是不平衡的,存在长尾分布问题。因此,如何准确地识别和定位不同的食物成分成为一个亟待解决的问题。
发明内容
为了解决上述技术问题,本发明提供一种基于动态transformer的食品图像分割方法及***。
本发明技术解决方案为:一种基于动态transformer的食品图像分割方法,包括:
步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列所述图像块进行特征编码;并利用多头自注意力机制,对所述图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;
步骤S2:提取预设层的所述图像特征向量进行融合,得到融合后的图像特征向量;
步骤S3:构建多级特征聚合网络,将所述融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度特征融合向量;
步骤S4:基于所述多层特征金字塔,构建分割解码器,对所述融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。
本发明与现有技术相比,具有以下优点:
本发明公开了一种基于动态transformer的食品图像分割方法,设计利用不同图像块大小的transformer编码器进行食品图片线性划分,使得能够自适应不同图片尺度,提取多个不同分辨率的图像特征;构建特征金字塔,以此提高图片语义信息提取的丰富性和整体性,使得食品分割模型更具有泛化性和鲁棒性,极大缓解了食品分割模型不具有针对性的问题,提高了食品图像分割的精度和准确率。
附图说明
图1为本发明实施例中一种基于动态transformer的食品图像分割方法的流程图;
图2为本发明实施例中动态视觉的transformer编码器网络结构示意图;
图3为本发明实施例中transformer编码器的结构示意图;
图4为本发明实施例中一种基于动态transformer的食品图像分割***的结构框图。
具体实施方式
本发明提供了一种基于动态transformer的食品图像分割方法,利用不同图像块大小的transformer编码器进行食品图片线性划分,使得能够自适应不同图片尺度,提取多个不同分辨率的图像特征;构建特征金字塔,以此提高图片语义信息提取的丰富性和整体性,使得食品分割模型更具有泛化性和鲁棒性。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本发明进一步详细说明。
实施例一
如图1所示,本发明实施例提供的一种基于动态transformer的食品图像分割方法,包括下述步骤:
步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列图像块进行特征编码;并利用多头自注意力机制,对图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;
步骤S2:提取预设层的图像特征向量进行融合,得到融合后的图像特征向量;
步骤S3:构建多级特征聚合网络,将融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度特征融合向量;
步骤S4:基于多层特征金字塔,构建分割解码器,对每层融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。
在一个实施例中,上述步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列图像块进行特征编码;并利用多头自注意力机制,对图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量,具体包括:
步骤S11:将食品图像按切割成不同尺寸的图像块,将图像块按照预设的顺序进行排序,得到长度为Li的序列,其中,Li是根据第i个尺度划分的食品图像尺寸与图像块尺寸的比值;
本发明实施例针对食品图像尺度大小分布不一致问题,分别对同一张食品图片进行不同尺度的线性划分,以适应不同图片的实际尺寸,如图2所示,本发明实施例对输入的食品图片分别进行4x4,8x8,16x16,32x32的划分,得到不同尺度的图像块。
然后,将按照不同划分尺度的图像块分别进行序列化排列,获得四个尺度不同的图像块序列,长度分别为L1,L2,L3,L4,Li表示输入图片大小与图像块大小的比值。
由于对输入的食品图片按照四种不同比例划分为图像块后,各图像块之间没有信息交互,因此通过下述步骤利用绝对位置编码添加位置信息。
步骤S12:利用绝对位置编码技术对每一个图像块添加位置信息,建立图像块之间的关联关系,如公式(1)所示;
Figure BDA0003556668540000041
其中,pos表示位置,dmodel表示维度信息,PE代表每个图像块的位置信息;
步骤S13:将对添加位置信息后的一系列图像块,利用三种权重矩阵WQ,WK,WV进行加权映射到不同的空间Q,K,V,利用公式(2),计算注意力机制的权重:
Figure BDA0003556668540000042
其中,Attention表示注意力机制的输出,dk为空间K的维度;
步骤S14:将编码器的每一层利用归一化和多层感知机进行残差连接,如公式(3)所示:
Figure BDA0003556668540000043
其中,fl-1为上一层编码器所输出的图像特征作为当前层的输入,
Figure BDA0003556668540000044
表示fl-1在第l层编码器的中间特征变量,fl为当前层编码器的输出特征,ln表示层归一化操作,msa表示多头注意力机制,mlp表示多层感知机。如图3所示,transformer编码器的整体结构,由多头自注意力机制和多层感知机组成。
在一个实施例中,上述S2:提取预设层的图像特征向量进行融合,得到融合后的图像特征向量,具体包括:
根据需求,提取不同的预设层的编码器的输出图像特征向量,对提取的每一层的图像特征向量首先进行1x1的卷积操作,然后进行特征融合;最终获得的融合后的图像特征向量。
本发明实施例经过步骤S1对四种不同尺寸的图像块,分别构建4个编码器,每个编码器包含L层transformer层,分别从中提取第5层,第7层,第9层和第11层的四种不同尺度的食品图像视觉特征,一共提取16中不同尺度特征向量,然后将16种不同尺度的图像特征进行融合,其中,分别对于四种不同尺度的l5,l7,l9和l11层特征进行特征融合,首先由于每个特征的尺度大小都不一致,因此利用1x1卷积进行维度对齐操作,利用双线性内插对图像特征进行上采样,实现不同特征的尺度对齐。以此进行特征融合后获得四种图像特征,分别为f5,f7,f9和f11,如图2所示。
在一个实施例中,上述步骤S3:构建多级特征聚合网络,将融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度融合特征向量,具体包括:
将融合后的图像特征向量,通过特征尺度对齐和维度对齐操作,分别利用上采样和1x1卷积,自顶向下实现进行聚合操作,构建多层特征金字塔,得到不同尺度和维度的多尺度融合特征向量。
如图2中多级特征聚合模块所示,将f11作为特征金字塔顶层,f11和f9使进行特征聚合变为第二层特征,利用上一层的特征和f7进行特征聚合作为第三层特征,利用第三层特征和f5进行特征聚合作为最底层特征,最终构建一个四层特征金字塔。
在一个实施例中,上述步骤S4:基于多层特征金字塔,构建分割解码器,对每层融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果,具体包括:
基于多层特征金字塔,构建分割解码器,对每层融合特征向量利用大小为1x1卷积核进行卷积操作后进行特征融合,得到多尺度特征向量,并利用上采样进行尺度变化,使得多尺度特征向量与输入的食品图像的尺度保持一致;同时,使用交叉熵损失函数优化网络参数,直至损失函数收敛,得到具有食物类别边界分割精确的分割结果。
利用步骤S3得到的四层特征金字塔,构建分割解码器,将特征金字塔的四种不同尺度不同维度融合特征进行融合,通过利用卷积核大小为1x1的卷积进行维度的变换,和双线性内插的上采样进行尺度变化,使得四种特征能够融合,此特征不仅适用于不同大小的原始图片数据,同样包含食物图片的局部细节信息和全局语义信息,使得图像内部不同成分食物的文本信息和边界信息都能很好的保留并强化。对多尺度特征信息进行上采样操作,使得特征尺度大小和输入图像大小保持一致,利用二元交叉熵损失函数计算预测值和真实值之间的误差,应用Adam梯度下降算法,优化图像编码器中的参数,直到损失函数收敛或循环达到最大迭代次数,得到最终训练模型的参数,生成具有食物类别边界分割精确的最优分割结果。
本发明公开了一种基于动态transformer的食品图像分割方法,设计利用不同图像块大小的transformer编码器进行食品图片线性划分,使得能够自适应不同图片尺度,提取多个不同分辨率的图像特征,构建特征金字塔,以此提高图片语义信息提取的丰富性和整体性,使得食品分割模型更具有泛化性和鲁棒性,极大缓解了食品分割模型不具有针对性的问题,提高了食品图像分割的精度和准确率。
实施例二
如图4所示,本发明实施例提供了一种基于动态transformer的食品图像分割***,包括下述模块:
获取图像特征向量模块51,用于将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列图像块进行特征编码;并利用多头自注意力机制,对图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;
融合图像特征向量模块52,用于提取预设层的图像特征向量进行融合,得到融合后的图像特征向量;
构建多层特征金字塔模块53,用于构建多级特征聚合网络,将融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度特征融合向量;
获取分割结果模块54,用于基于多层特征金字塔,构建分割解码器,对每层融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (6)

1.一种基于动态transformer的食品图像分割方法,其特征在于,包括:
步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列所述图像块进行特征编码;并利用多头自注意力机制,对所述图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;
步骤S2:提取预设层的所述图像特征向量进行融合,得到融合后的图像特征向量;
步骤S3:构建多级特征聚合网络,将所述融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度特征融合向量;
步骤S4:基于所述多层特征金字塔,构建分割解码器,对所述融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。
2.根据权利要求1所述的基于动态transformer的食品图像分割方法,其特征在于,所述步骤S1:将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列所述图像块进行特征编码;并利用多头自注意力机制,对所述图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量,具体包括:
步骤S11:将所述食品图像按切割成不同尺寸的图像块,将所述图像块按照预设的顺序进行排序,得到长度为Li的序列,其中,Li是根据第i个尺度划分的食品图像尺寸与所述图像块尺寸的比值;
步骤S12:利用绝对位置编码技术对不同划分尺度的一系列图像块添加位置信息,建立所述图像块之间的关联关系,如公式(1)所示;
Figure FDA0003556668530000011
其中,pos表示位置,dmodel表示维度信息,PE代表每个所述图像块的位置信息;
步骤S13:将对添加位置信息后的一系列图像块,利用三种权重矩阵WQ,WK,WV进行加权映射到不同的空间Q,K,V,利用公式(2),计算注意力机制的权重:
Figure FDA0003556668530000021
其中,Attention表示注意力机制的输出,dk为空间K的维度;
步骤S14:将所述编码器的每一层利用归一化和多层感知机进行残差连接,如公式(3)所示:
Figure FDA0003556668530000022
其中,fl-1为上一层所述编码器所输出的图像特征作为当前层的输入,
Figure FDA0003556668530000023
表示fl-1在第l层编码器的中间特征变量,fl为当前层编码器的输出特征,ln表示层归一化操作,msa表示多头注意力机制,mlp表示多层感知机。
3.根据权利要求1所述的基于动态transformer的食品图像分割方法,其特征在于,所述步骤S2:提取预设层的所述图像特征向量进行融合,得到融合后的图像特征向量,具体包括:
根据需求,提取不同的预设层的所述编码器的输出图像特征向量,对提取的每一层的所述图像特征向量首先进行1x1的卷积操作,然后进行特征融合;最终获得的融合后的图像特征向量。
4.根据权利要求1所述的基于动态transformer的食品图像分割方法,其特征在于,所述步骤S3:构建多级特征聚合网络,将所述融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度融合特征向量,具体包括:
将所述融合后的图像特征向量,通过特征尺度对齐和维度对齐操作,分别利用上采样和1x1卷积,自顶向下实现进行聚合操作,构建多层特征金字塔,得到不同尺度和维度的多尺度融合特征向量。
5.根据权利要求1所述的基于动态transformer的食品图像分割方法,其特征在于,所述步骤S4:基于所述多层特征金字塔,构建分割解码器,对每层所述融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果,具体包括:
基于所述多层特征金字塔,构建分割解码器,对每层所述融合特征向量利用大小为1x1卷积核进行卷积操作后进行特征融合,得到多尺度特征向量,并利用上采样进行尺度变化,使得所述多尺度特征向量与输入的所述食品图像的尺度保持一致;同时,使用交叉熵损失函数优化网络参数,直至所述损失函数收敛,得到具有食物类别边界分割精确的分割结果。
6.一种基于动态transformer的食品图像分割***,其特征在于,包括下述模块:
获取图像特征向量模块,用于将输入的食品图像按照预设尺寸划分为不同大小的一系列图像块,构建多个不同尺寸的动态视觉的transformer编码器网络,实现对不同划分尺度的一系列所述图像块进行特征编码;并利用多头自注意力机制,对所述图像块的不同尺度特征进行加权计算;输出多层不同尺度的图像特征向量;
融合图像特征向量模块,用于提取预设层的所述图像特征向量进行融合,得到融合后的图像特征向量;
构建多层特征金字塔模块,用于构建多级特征聚合网络,将所述融合后的图像特征向量进行自顶向下的特征融合,构建多层特征金字塔,得到多尺度特征融合向量;
获取分割结果模块,用于基于所述多层特征金字塔,构建分割解码器,对每层所述融合特征向量进行卷积操作,以及特征融合得到多尺度特征向量,最后进行上采样操作;同时,使用交叉熵损失函数优化网络参数,最终生成具有食物类别边界分割精确的分割结果。
CN202210278127.4A 2022-03-21 2022-03-21 一种基于动态transformer的食品图像分割方法及*** Withdrawn CN114648535A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210278127.4A CN114648535A (zh) 2022-03-21 2022-03-21 一种基于动态transformer的食品图像分割方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210278127.4A CN114648535A (zh) 2022-03-21 2022-03-21 一种基于动态transformer的食品图像分割方法及***

Publications (1)

Publication Number Publication Date
CN114648535A true CN114648535A (zh) 2022-06-21

Family

ID=81995902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210278127.4A Withdrawn CN114648535A (zh) 2022-03-21 2022-03-21 一种基于动态transformer的食品图像分割方法及***

Country Status (1)

Country Link
CN (1) CN114648535A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115471765A (zh) * 2022-11-02 2022-12-13 广东工业大学 一种航拍图像的语义分割方法、装置、设备及存储介质
CN116993756A (zh) * 2023-07-05 2023-11-03 石河子大学 一种大田棉花黄萎病病斑分割方法
CN117542045A (zh) * 2024-01-10 2024-02-09 济南大学 一种基于空间引导自注意力的食品识别方法及***
CN117911795A (zh) * 2024-03-18 2024-04-19 杭州食方科技有限公司 食品图像识别方法、装置、电子设备和计算机可读介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115471765A (zh) * 2022-11-02 2022-12-13 广东工业大学 一种航拍图像的语义分割方法、装置、设备及存储介质
CN115471765B (zh) * 2022-11-02 2023-04-07 广东工业大学 一种航拍图像的语义分割方法、装置、设备及存储介质
CN116993756A (zh) * 2023-07-05 2023-11-03 石河子大学 一种大田棉花黄萎病病斑分割方法
CN117542045A (zh) * 2024-01-10 2024-02-09 济南大学 一种基于空间引导自注意力的食品识别方法及***
CN117542045B (zh) * 2024-01-10 2024-05-10 山东记食信息科技有限公司 一种基于空间引导自注意力的食品识别方法及***
CN117911795A (zh) * 2024-03-18 2024-04-19 杭州食方科技有限公司 食品图像识别方法、装置、电子设备和计算机可读介质
CN117911795B (zh) * 2024-03-18 2024-06-11 杭州食方科技有限公司 食品图像识别方法、装置、电子设备和计算机可读介质

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和***
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN114648535A (zh) 一种基于动态transformer的食品图像分割方法及***
US20200410733A1 (en) Method for skinning character model, device for skinning character model, storage medium and electronic device
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及***
CN110647632B (zh) 基于机器学习的图像与文本映射技术
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
US20230162477A1 (en) Method for training model based on knowledge distillation, and electronic device
CN115858847B (zh) 基于跨模态注意力保留的组合式查询图像检索方法
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN112686830B (zh) 基于图像分解的单一深度图的超分辨率方法
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN113807340A (zh) 一种基于注意力机制的不规则自然场景文本识别方法
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN114676776A (zh) 一种基于Transformer的细粒度图像分类方法
CN113436224B (zh) 一种基于显式构图规则建模的智能图像裁剪方法及装置
CN114581918A (zh) 一种文本识别模型训练方法及装置
CN117409431B (zh) 一种多模态大型语言模型训练方法、电子设备及存储介质
CN113159053A (zh) 图像识别方法、装置及计算设备
CN115546236B (zh) 基于小波变换的图像分割方法及装置
CN116543338A (zh) 一种基于注视目标估计的学生课堂行为检测方法
CN116977668A (zh) 图像识别方法、装置、计算机设备及计算机存储介质
CN113255824B (zh) 训练分类模型和数据分类的方法和装置
CN112990336B (zh) 基于竞争注意力融合的深度三维点云分类网络构建方法
CN111583352B (zh) 一种用于移动终端的风格化图标智能生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220621

WW01 Invention patent application withdrawn after publication