CN116128894A - 图像分割方法、装置及电子设备 - Google Patents

图像分割方法、装置及电子设备 Download PDF

Info

Publication number
CN116128894A
CN116128894A CN202310082959.3A CN202310082959A CN116128894A CN 116128894 A CN116128894 A CN 116128894A CN 202310082959 A CN202310082959 A CN 202310082959A CN 116128894 A CN116128894 A CN 116128894A
Authority
CN
China
Prior art keywords
image
text
features
decoding
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310082959.3A
Other languages
English (en)
Inventor
陈文俊
蒋宁
夏粉
肖冰
李宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Consumer Finance Co Ltd
Original Assignee
Mashang Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Consumer Finance Co Ltd filed Critical Mashang Consumer Finance Co Ltd
Priority to CN202310082959.3A priority Critical patent/CN116128894A/zh
Publication of CN116128894A publication Critical patent/CN116128894A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Character Input (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本申请实施例公开了一种图像分割方法、装置及电子设备,该方法包括:获取待分割图像和所述待分割图像中待分割的目标对象对应的提示文本,所述提示文本用于对所述目标对象进行第一描述;将所述提示文本输入文本编码器进行编码处理,得到所述提示文本对应的文本特征;将所述待分割图像输入图像处理模型进行特征提取,得到所述待分割图像的图像特征,所述图像特征包括与所述目标对象对应的目标图像特征;将所述文本特征和所述图像特征输入图像解码器进行解码处理,得到所述目标图像特征对应的解码特征以及与所述解码特征对应的目标对象。

Description

图像分割方法、装置及电子设备
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像分割方法、装置及电子设备。
背景技术
图像分割是将一张完整的图像分割成若干个特定的、具有独特性质的区域,并提出感兴趣目标的技术和过程,图像分割有助于确定目标之间的关系以及目标在图像中的上下文。
在一些场景下,采用基于深度学习的图像分割技术对图像进行分割,其具体实现过程是:对图像数据集进行标注,得到图像及标签,生成训练集,然后将训练集送入深度学习模型进行训练,得到优化后的模型,最后将待分割图像送入优化后的模型,得到分割结果。但是,采用这种方法其依赖于大量的人工标注数据,人工成本较高,且基于深度学习的图像分割技术只能分割已标注类别的图像,对于未标注类别的图像的分割性能较差。
发明内容
本申请提供一种图像分割方法、装置及电子设备,以提高图像的分割性能。
第一方面,本申请提供一种图像分割方法,包括:获取待分割图像和所述待分割图像中待分割的目标对象对应的提示文本,所述提示文本用于对所述目标对象进行第一描述;将所述提示文本输入文本编码器进行编码处理,得到所述提示文本对应的文本特征;将所述待分割图像输入图像处理模型进行特征提取,得到所述待分割图像的图像特征,所述图像特征包括与所述目标对象对应的目标图像特征;将所述文本特征和所述图像特征输入图像解码器进行解码处理,得到所述目标图像特征对应的解码特征以及与所述解码特征对应的目标对象。
第二方面,本申请提供一种图像分割装置,包括:获取模块,用于获取待分割图像和所述待分割图像中待分割的目标对象对应的提示文本,所述提示文本用于对所述目标对象进行第一描述;处理模块,用于将所述提示文本输入文本编码器进行编码处理,得到所述提示文本对应的文本特征;提取模块,用于将所述待分割图像输入图像处理模型进行特征提取,得到所述待分割图像的图像特征,所述图像特征包括与所述目标对象对应的目标图像特征;所述处理模块,还用于将所述文本特征和所述图像特征输入图像解码器进行解码处理,得到所述目标图像特征对应的解码特征以及与所述解码特征对应的目标对象。
第三方面,本申请提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法。
第四方面,本申请提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的方法。
可以看出,在本申请实施例,通过获取待分割图像和所述待分割图像中待分割的目标对象对应的提示文本,提示文本用于对目标对象进行第一描述,将提示文本输入文本编码器进行编码处理,得到提示文本对应的文本特征,能够引入提示文本对待分割图像中的待分割的目标对象进行描述,即对待分割的目标对象进行文本描述,在引入提示文本之后,再将待分割图像输入图像处理模型进行特征提取,得到待分割图像的图像特征,图像特征包括与目标对象对应的目标图像特征,最后将文本特征和图像特征输入图像解码器进行解码处理,得到目标图像特征对应的解码特征,并输出与解码特征对应的目标对象,如此根据引入的提示文本对目标对象进行描述,按照引入的提示文本中的提示和图像处理模块进行特征提取得到的目标图像特征对待分割图像中的目标对象进行分割,无需依赖于大量的人工标注样本数据训练图像分割模型,降低了人工标注成本,且对于未标注类别的图像,也能够按照提示文本的指示准确的进行图像分割,提高了图像分割的性能,减小了图像分割的局限性。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本申请实施例提供的一种图像分割方法的流程示意图;
图2为本申请实施例提供的图像处理模型和图像解码器的具体实现示意图;
图3为本申请实施例提供的图像处理模型和图像解码器以及特征融合过程的具体实现示意图;
图4为本申请实施例提供的一种具体的应用场景示意图;
图5为本申请实施例提供的一种图像分割装置的结构示意图;
图6为本说明书的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书以及权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
如上所述的,采用基于深度学习的图像分割技术对图像进行分割,其具体实现过程是:对图像数据集进行标注,得到图像及标签,生成训练集,然后将训练集送入深度学习模型进行训练,得到优化后的模型,最后将待分割图像送入优化后的模型,得到分割结果。但是,采用这种方法其依赖于大量的人工标注数据,人工成本较高,且基于深度学习的图像分割技术只能分割已标注类别的图像,对于未标注类别的图像的分割性能较差。
为了解决上述的技术问题,本申请实施例提供了一种图像分割方法,包括:获取待分割图像和待分割图像中获取待分割图像和所述待分割图像中待分割的目标对象对应的提示文本,所述提示文本用于对所述目标对象进行第一描述;将所述提示文本输入文本编码器进行编码处理,得到所述提示文本对应的文本特征;将所述待分割图像输入图像处理模型进行特征提取,得到所述待分割图像的图像特征,所述图像特征包括与所述目标对象对应的目标图像特征;将所述文本特征和所述图像特征输入图像解码器进行解码处理,得到所述目标图像特征对应的解码特征以及与所述解码特征对应的目标对象。
通过本申请实施例公开的技术方案,通过获取待分割图像和所述待分割图像中待分割的目标对象对应的提示文本,提示文本用于对目标对象进行第一描述,将提示文本输入文本编码器进行编码处理,得到提示文本对应的文本特征,能够引入提示文本对待分割图像中的待分割的目标对象进行描述,即对待分割的目标对象进行文本描述,在引入提示文本之后,再将待分割图像输入图像处理模型进行特征提取,得到待分割图像的图像特征,图像特征包括与目标对象对应的目标图像特征,最后将文本特征和图像特征输入图像解码器进行解码处理,得到目标图像特征对应的解码特征,并输出与解码特征对应的目标对象,如此根据引入的提示文本对目标对象进行描述,按照引入的提示文本中的提示和图像处理模块进行特征提取得到的目标图像特征对待分割图像中的目标对象进行分割,无需依赖于大量的人工标注样本数据训练图像分割模型,降低了人工标注成本,且对于未标注类别的图像,也能够按照提示文本的指示准确的进行图像分割,提高了图像分割的性能,减小了图像分割的局限性。
应理解,本申请实施例提供的图像分割方法均可以由电子设备执行或安装在电子设备中的软件执行,具体可以由终端设备或服务端设备执行。其中,文本处理方法可以由同一电子设备执行,或者也可以由不同的电子设备执行。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
请参考图1,为本说明书的一个实施例提供的一种图像分割方法的流程示意图,应用于电子设备,该方法可以包括:
步骤S101,获取待分割图像和待分割图像中待分割的目标对象对应的提示文本。
提示文本用于对目标对象进行第一描述。
具体来讲,待分割图像指的是需要从图像中分割出包含目标对象的区域的图像,待分割图像中包括目标对象以及其他的内容,目标对象指的是待分割图像中需要被单独分割出的内容。例如,待分割图像中包括一辆蓝色的小车以及一些景物,其中,需要从待分割图像中单独分割出蓝色的小车,则待分割图像中蓝色的小车这一局部图像则作为目标对象。
提示文本可以是基于提示学习的文本提示学习模板,在该文本提示学习模板中进行关键词的嵌入,具体是获取与目标对象对应的文本提示学习模板,根据目标对象在文本提示学习模板中进行关键词嵌入,得到提示文本。例如,文本提示学习模板为“一辆___的__”,则根据目标对象所展示的图像,在空格处填入蓝色和小车,从而得到提示文本,该提示文本是用于对目标对象进行简单的文字描述,例如待分割图像中的目标对象为局部区域的蓝色的小车图像,提示文本则是对蓝色的小车这一局部图像进行文字描述(第一描述):如一辆蓝色的小车。
步骤S103,将提示文本输入文本编码器进行编码处理,得到提示文本对应的文本特征。
具体来讲,提示文本对应的文本特征指的是将提示文本经过文本编码器进行编码得到的特征,该文本特征可以以向量的形式表示,文本编码器可以是预训练的texttransformer模型。例如,上述示例中的提示文本“一辆蓝色的小车”经过文本编码器编码得到的文本特征可以是768维的向量。
进一步的,为了提高对待分割图像中目标对象的描述的精准度,从而提高对目标对象进行分割的准确度,在一种可能的实现方式中,在将提示文本输入文本编码器进行编码处理,得到提示文本对应的文本特征之前,还包括:将提示文本转换为文本嵌入向量,获取与目标对象对应的可学习提示向量,可学习提示向量用于对目标对象进行第二描述,第一描述中的部分描述和第二描述中的部分描述不同,将文本嵌入向量和可学习提示向量进行合并,得到合并文本向量,将提示文本输入文本编码器进行编码处理,得到提示文本对应的文本特征包括:将提示文本输入文本编码器进行编码处理,得到提示文本对应的文本特征包括:将合并文本向量输入文本编码器进行编码处理,得到与合并文本向量对应的文本特征。
具体来讲,文本嵌入向量指的是文本embedding向量,具体是将提示文本进行词嵌入,得到文本嵌入向量。可学习提示向量指的是学习与待分割图像中目标对象相关的描述文本信息,可学习提示向量是一组可学习的参数,通过自定义设定,将目标对象的提示文本的描述信息和蓝色小车对应的标签输入到模型中进行学习,从而得到对蓝色小车进行进一步的描述的可学习提示向量。其中,提示文本和可学习提示向量都是用于对目标对象进行描述的,提示文本对目标对象中的描述以及可学习提示向量对目标对象中的描述部分不同,例如,提示文本的描述为“一辆蓝色的小车”,可学习提示向量的描述为“蓝色的小车,小车具有4个轮子”,可学习提示向量对目标对象的描述可以比提示文本更加丰富。
将文本嵌入向量和可学习提示向量进行合并具体是将文本嵌入向量和可学习提示向量前后拼接,举个例子,一辆蓝色的小车对应的文本嵌入向量为V1V2…VN,可学习提示向量为L1L2L3L4,将文本嵌入向量和可学习提示向量进行合并后,得到的合并文本向量可以为V1V2…VN L1L2L3L4。
步骤S105,将待分割图像输入图像处理模型进行特征提取,得到待分割图像的图像特征。
图像特征包括与目标对象对应的目标图像特征。
具体来讲,图像处理模块用于对待分割图像中的图像特征进行提取,图像特征包括但不限于待分割图像的纹理特征、颜色特征、形状特征以及空间特征等,目标图像特征指的是待分割图像中目标对象的图像特征。举个例子,待分割的图像中的目标对象是一辆蓝色的小车,蓝色的小车的目标图像特征包括但不限于蓝色的小车的纹理特征、颜色特征、形状特征以及空间特征等。其中,图像处理模型可以为预训练visual transformer模型。
步骤S107,将文本特征和图像特征输入图像解码器进行解码处理,得到目标图像特征对应的解码特征以及与解码特征对应的目标对象。
具体来讲,可以将文本特征和图像特征相加后输入到图像解码器进行解码处理,图像解码器包括transformer decoder和一个线性输出层,线性输出层可以是一个卷积层,解码特征是图像解码器对目标图像特征进行解码后得到的解码后的文本特征和图像特征,线性输出层对解码后的文本特征和图像特征转换为图像,即转换为目标对象。例如,一辆蓝色的小车,图像解码器将文本特征和图像特征输入图像解码器进行解码处理后,得到蓝色的小车的图像。
通过本申请实施例公开的技术方案,通过获取待分割图像和所述待分割图像中待分割的目标对象对应的提示文本,提示文本用于对目标对象进行第一描述,将提示文本输入文本编码器进行编码处理,得到提示文本对应的文本特征,能够引入提示文本对待分割图像中的待分割的目标对象进行描述,即对待分割的目标对象进行文本描述,在引入提示文本之后,再将待分割图像输入图像处理模型进行特征提取,得到待分割图像的图像特征,图像特征包括与目标对象对应的目标图像特征,最后将文本特征和图像特征输入图像解码器进行解码处理,得到目标图像特征对应的解码特征,并输出与解码特征对应的目标对象,如此根据引入的提示文本对目标对象进行描述,按照引入的提示文本中的提示和图像处理模块进行特征提取得到的目标图像特征对待分割图像中的目标对象进行分割,无需依赖于大量的人工标注样本数据训练图像分割模型,降低了人工标注成本,且对于未标注类别的图像,也能够按照提示文本的指示准确的进行图像分割,提高了图像分割的性能,减小了图像分割的局限性。
在一种可能的实现方式中,在将提示文本输入文本编码器进行编码处理,得到提示文本对应的文本特征之后,该方法还包括:
通过线性映射层对文本特征进行映射得到映射特征,线性映射层用于修改文本特征的维度,映射特征的特征维度与图像特征的特征维度相同,将文本特征和图像特征输入图像解码器进行解码处理包括:将图像特征和映射特征输入图像解码器,通过图像解码器根据映射特征对图像特征中的目标图像特征进行解码。
具体来讲,线性映射层可以是一个卷积层,通过该卷积层对文本特征进行映射,得到的映射特征可以进一步的优化文本特征以及学习到关于类别的通用信息,另外线性映射层还可以修改文本特征的维度,使得文本特征的维度与图像特征的维度一致。因此,在文本特征后引入线性映射层,再将通过线性映射层映射得到的映射特征和图像特征都输入到图像解码器进行解码处理,可以防止提示文本过度引导模型,减少模型过拟合,提升模型的泛化性能。
在一种可能的实现方式中,图像处理模型包括N个编码模块,特征提取的具体实现方式有:依次通过N个编码模块对待分割图像进行特征提取,其中,第i个编码模块的输出结果是第i+1个编码模块的输入。图像解码器包括N个解码模块,解码处理的具体实现方式有:依次通过N个解码模块根据文本特征对图像特征中的目标图像特征进行解码,其中,第i个解码模块的输出结果是第i+1个解码模块的输入。
下面以图2为例,对本申请实施例提供的图像处理模型和图像解码器的具体实现过程进行详细说明,其中,图像处理模型可以为预训练的visual transformer模型,图像解码器可以包括transformer decoder和一个线性输出层,待分割图像为包含蓝色的小车和外景的图片。图2中,图像处理模型包括N个编码模块,N个编码模块,将包含蓝色的小车的待分割图像输入到图像处理模型中,依次通过N个编码模块(block模块)对待分割图像进行特征提取,其中,前一个编码模块的输出是后一个编码模块的输入,最终通过第N个编码模块提取出待分割图像中的图像特征。将提示文本的文本特征经过线性映射层的映射之后,得到映射特征,将映射特征和图像特征都送入到图像解码器transformer decoder中,映射特征和图像特征结合后生成约束向量,将约束向量依次通过图像解码器transformerdecoder中的block1至blockN中进行解码处理,其中,前一个解码模块(block模块)的输出作为下一个解码模块的输出,通过第N个解码模块进行解码处理后的解码特征再通过线性输出层输出得到蓝色的小车的图像。如此,将文本特征和图像特征相结合,得到约束向量,可以进一步的引导模型进行分割,提升了模型在零样本下的分割性能。
在一种可能的实现方式中,将文本特征和图像特征输入图像解码器进行解码处理包括:依次对图像处理模型的N-1个编码模块的输出结果进行线性映射,N-1个编码模块的输出结果是对待分割图像进行特征提取的结果,线性映射用于将图像处理模型中的第N-1个编码模块的输出结果对应到图像解码器的第N-2个解码模块的解码结果,N为不小于2的整数。将N-1个编码模块的输出结果和图像解码器的第N-2个解码模块的解码结果进行特征融合,得到第一融合特征,第N-2个解码模块的解码结果为第N-2个解码模块根据文本特征和图像特征中的目标图像特征进行解码的结果,将第一融合特征作为图像解码器的第N-1个解码模块的输入,通过图像解码器的第N-1个解码模块对第一融合特征进行解码,得到所述第N-1个解码模块输出的解码结果;将所述第N-1个解码模块输出的解码结果和所述图像处理模型中的第一个编码模块的输出结果进行特征融合,得到第二融合特征,所述第N-1个解码模块的解码结果为所述第N-1个解码模块根据所述文本特征对所述图像特征中的所述目标图像特征进行解码的结果;将所述第二融合特征输入至所述图像解码器的第N个解码模块进行解码处理。
下面以图3为例,对本申请实施例提供的图像处理模型和图像解码器以及特征融合的具体实现过程进行详细说明,其中,图像处理模型可以为预训练的visualtransformer模型,图像解码器可以包括transformer decoder和一个线性输出层,待分割图像为包含蓝色的小车和外景的图片。图3中,图像处理模型包括N个编码模块,N个编码模块,将包含蓝色的小车的待分割图像输入到图像处理模型中,依次通过N个编码模块(block模块)对待分割图像进行特征提取,其中,前一个编码模块的输出是后一个编码模块的输入,最终通过第N个编码模块提取出待分割图像中完整的图像特征,将提示文本的文本特征经过线性映射层的映射之后,得到映射特征,将映射特征和图像特征都送入到图像解码器transformer decoder中,映射特征和图像特征结合后生成约束向量,将约束向量依次通过图像解码器transformer decoder中的block1至blockN中进行解码处理,其中,前一个解码模块(block模块)的输出作为下一个解码模块的输入,通过第N个解码模块进行解码处理后的解码特征再通过线性输出层输出得到蓝色的小车的图像。
为了进一步融合图像处理模型和图像解码器中的特征,并通过线性映射的方式将图像处理模型中提取出来的图像特征映射到图像解码器对应的解码模块的输出结果中,从而提升图像的分割性能。具体如图3所示,线性映射将图像处理模型中的第1个解码模块(block1)的输出结果线性映射到图像解码器的第N-1个解码模块(blockN-1),将图像处理模型的第2个解码模块(block2)的输出结果映射到图像解码器的第1个解码模块(block1)进行特征融合,依次类推,直至将图像处理模型的第N-1个编码模块的输出结果和图像解码器的第N-2个解码模块的解码结果进行特征融合,得到第一融合特征,再将第一融合特征作为图像解码器的第N-1个解码模块的输入,通过图像解码器的第N-1个解码模块对第一融合特征进行解码,图像解码器的第N-1个解码模块对第一融合特征进行解码后的解码结果和图像处理模型中的第一个编码模块的输出结果进行特征融合,得到第二融合特征,将第二融合特征再输入到图像解码器的第N个解码模块进行解码处理,得到第N个解码模块输出的解码特征再通过线性输出层得到蓝色的小车的图像。
下面结合具体应用场景对本申请实施例提供的图像分割方法进行进一步的说明,其中,待分割图像为包含蓝色的小车的图像,目标对象为蓝色的小车,如图4所示的,提示文本为一辆蓝色的小车,将提示文本进行词嵌入后转换为文本嵌入向量V1V2V3…VN,获取目标对象的可学习提示向量L1L2L3L4,将可学习提示向量和文本嵌入向量进行合并,得到合并文本向量V1V2V3…VN L1L2L3L4,将合并文本向量送入到文本编码器,如预训练的texttransformer,通过文本编码器对合并文本向量进行编码处理,得到文本特征,将文本特征经过线性映射层映射,得到映射特征;将待分割图像送入到图像处理模型,如预训练的visual transformer模型,通过该visual transformer模型对待分割图像进行特征提取处理,得到图像特征,将图像特征和映射特征相加后得到约束向量,将约束向量融入到图像解码器,如transformer decoder中,再将visual transformer模型中的各个编码模块的输出结果与transformer decoder中的各个解码模块的输出结果进行特征融合后进行解码处理,得到解码特征,最后通过线性输出层将解码特征输出为蓝色的小车的图像。
此外,与上述图1所示的图像分割方法相对应地,本申请实施例还提供一种图像分割装置。图5是本申请实施例提供的一种图像分割装置500的结构示意图,包括:获取模块501,用于获取待分割图像和所述待分割图像中待分割的目标对象对应的提示文本,所述提示文本用于对所述目标对象进行第一描述;处理模块502,用于将所述提示文本输入文本编码器进行编码处理,得到所述提示文本对应的文本特征;提取模块503,用于将所述待分割图像输入图像处理模型进行特征提取,得到所述待分割图像的图像特征,所述图像特征包括与所述目标对象对应的目标图像特征;所述处理模块502,还用于将所述文本特征和所述图像特征输入图像解码器进行解码处理,得到所述目标图像特征对应的解码特征以及与所述解码特征对应的目标对象。
通过本申请实施例公开的技术方案,通过获取待分割图像和所述待分割图像中待分割的目标对象对应的提示文本,提示文本用于对目标对象进行第一描述,将提示文本输入文本编码器进行编码处理,得到提示文本对应的文本特征,能够引入提示文本对待分割图像中的待分割的目标对象进行描述,即对待分割的目标对象进行文本描述,在引入提示文本之后,再将待分割图像输入图像处理模型进行特征提取,得到待分割图像的图像特征,图像特征包括与目标对象对应的目标图像特征,最后将文本特征和图像特征输入图像解码器进行解码处理,得到目标图像特征对应的解码特征,并输出与解码特征对应的目标对象,如此根据引入的提示文本对目标对象进行描述,按照引入的提示文本中的提示和图像处理模块进行特征提取得到的目标图像特征对待分割图像中的目标对象进行分割,无需依赖于大量的人工标注样本数据训练图像分割模型,降低了人工标注成本,且对于未标注类别的图像,也能够按照提示文本的指示准确的进行图像分割,提高了图像分割的性能,减小了图像分割的局限性。
在一种可能的实现方式中,还包括:转换模块,用于将所述提示文本转换为文本嵌入向量;获取模块501,还用于获取与所述目标对象对应的可学习提示向量,所述可学习提示向量用于对所述目标对象进行第二描述,所述第一描述中的部分描述和所述第二描述中的部分描述不同;合并模块,用于将所述文本嵌入向量和所述可学习提示向量进行合并,得到合并文本向量;所述处理模块502,还用于将所述提示文本输入文本编码器进行编码处理,得到所述提示文本对应的文本特征包括:将所述合并文本向量输入所述文本编码器进行编码处理,得到与所述合并文本向量对应的文本特征。
在一种可能的实现方式中,还包括:映射模块,用于通过线性映射层对所述文本特征进行映射得到映射特征,所述线性映射层用于修改所述文本特征的特征维度,所述映射特征的特征维度与所述图像特征的特征维度相同;处理模块502,还用于将所述图像特征和所述映射特征输入所述图像解码器,通过所述图像解码器根据所述映射特征对所述图像特征中的所述目标图像特征进行解码。
在一种可能的实现方式中,图像处理模型包括N个编码模块,所述特征提取的具体实现方式有:依次通过所述N个编码模块对所述待分割图像进行特征提取;其中,第i个编码模块的输出结果是第i+1个编码模块的输入。
在一种可能的实现方式中,图像解码器包括N个解码模块,所述解码处理的具体实现方式有:依次通过所述N个解码模块根据所述文本特征对所述图像特征中的所述目标图像特征进行解码;其中,第i个解码模块的输出结果是第i+1个解码模块的输入。
在一种可能的实现方式中,处理模块502,还用于依次对所述图像处理模型的N-1个编码模块的输出结果进行线性映射,所述N-1个编码模块的输出结果是对所述待分割图像进行特征提取的结果,所述线性映射用于将所述图像处理模型中的第N-1个编码模块的输出结果对应到所述图像解码器的第N-2个解码模块的解码结果,所述N为不小于2的整数;将所述第N-1个编码模块的输出结果和所述图像解码器的第N-2个解码模块的解码结果进行特征融合,得到第一融合特征,所述第N-2个解码模块的解码结果为所述第N-2个解码模块根据所述文本特征对所述图像特征中的所述目标图像特征进行解码的结果;将所述第一融合特征作为所述图像解码器的第N-1个解码模块的输入,通过所述图像解码器的第N-1个解码模块对所述第一融合特征进行解码,得到所述第N-1个解码模块输出的解码结果;将所述第N-1个解码模块输出的解码结果和所述图像处理模型中的第一个编码模块的输出结果进行特征融合,得到第二融合特征,所述第N-1个解码模块的解码结果为所述第N-1个解码模块根据所述文本特征对所述图像特征中的所述目标图像特征进行解码的结果;将所述第二融合特征输入至所述图像解码器的第N个解码模块进行解码处理。
在一种可能的实现方式中,获取模块501,还用于获取与所述目标对象对应的文本提示学习模板;根据所述目标对象在所述文本提示学习模板中进行关键词嵌入,得到所述提示文本。
显然,本申请实施例公开的图像分割装置可以作为上述实施例所示的图像分割方法的执行主体,因此能够实现图像分割方法在上述实施例所实现的功能。由于原理相同,在此不再赘述。
图6是本说明书的一个实施例电子设备的结构示意图。请参考图6,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成图像分割装置。处理器,执行存储器所存放的程序,并具体用于执行上述任一方法实施例中提到的图像分割方法。
上述如本说明书图1所示实施例揭示的图像分割装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
应理解,本申请实施例的电子设备可以实现图像分割装置在图1所示实施例的功能。由于原理相同,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行上述任一实施例的图像分割方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
总之,以上仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种图像分割方法,其特征在于,包括:
获取待分割图像和所述待分割图像中待分割的目标对象对应的提示文本,所述提示文本用于对所述目标对象进行第一描述;
将所述提示文本输入文本编码器进行编码处理,得到所述提示文本对应的文本特征;
将所述待分割图像输入图像处理模型进行特征提取,得到所述待分割图像的图像特征,所述图像特征包括与所述目标对象对应的目标图像特征;
将所述文本特征和所述图像特征输入图像解码器进行解码处理,得到所述目标图像特征对应的解码特征以及与所述解码特征对应的目标对象。
2.根据权利要求1所述的图像分割方法,其特征在于,在所述将所述提示文本输入文本编码器进行编码处理,得到所述提示文本对应的文本特征之前,所述方法还包括:
将所述提示文本转换为文本嵌入向量;
获取与所述目标对象对应的可学习提示向量,所述可学习提示向量用于对所述目标对象进行第二描述,所述第一描述中的部分描述和所述第二描述中的部分描述不同;
将所述文本嵌入向量和所述可学习提示向量进行合并,得到合并文本向量;
所述将所述提示文本输入文本编码器进行编码处理,得到所述提示文本对应的文本特征包括:将所述合并文本向量输入所述文本编码器进行编码处理,得到与所述合并文本向量对应的文本特征。
3.根据权利要求1或2所述的图像分割方法,其特征在于,在所述将所述提示文本输入文本编码器进行编码处理,得到所述提示文本对应的文本特征之后,所述方法还包括:
通过线性映射层对所述文本特征进行映射得到映射特征,所述线性映射层用于修改所述文本特征的特征维度,所述映射特征的特征维度与所述图像特征的特征维度相同;
所述将所述文本特征和所述图像特征输入图像解码器进行解码处理包括:将所述图像特征和所述映射特征输入所述图像解码器,通过所述图像解码器根据所述映射特征对所述图像特征中的所述目标图像特征进行解码。
4.根据权利要求1所述的图像分割方法,其特征在于,所述图像处理模型包括N个编码模块,所述特征提取的具体实现方式有:依次通过所述N个编码模块对所述待分割图像进行特征提取;其中,第i个编码模块的输出结果是第i+1个编码模块的输入。
5.根据权利要求1所述的图像分割方法,其特征在于,所述图像解码器包括N个解码模块,所述解码处理的具体实现方式有:依次通过所述N个解码模块根据所述文本特征对所述图像特征中的所述目标图像特征进行解码;其中,第i个解码模块的输出结果是第i+1个解码模块的输入。
6.根据权利要求1-5任意一项所述的图像分割方法,其特征在于,所述将所述文本特征和所述图像特征输入图像解码器进行解码处理包括:
依次对所述图像处理模型的N-1个编码模块的输出结果进行线性映射,所述N-1个编码模块的输出结果是对所述待分割图像进行特征提取的结果,所述线性映射用于将所述图像处理模型中的第N-1个编码模块的输出结果对应到所述图像解码器的第N-2个解码模块的解码结果,所述N为不小于2的整数;
将所述第N-1个编码模块的输出结果和所述图像解码器的第N-2个解码模块的解码结果进行特征融合,得到第一融合特征,所述第N-2个解码模块的解码结果为所述第N-2个解码模块根据所述文本特征对所述图像特征中的所述目标图像特征进行解码的结果;
将所述第一融合特征作为所述图像解码器的第N-1个解码模块的输入,通过所述图像解码器的第N-1个解码模块对所述第一融合特征进行解码,得到所述第N-1个解码模块输出的解码结果;
将所述第N-1个解码模块输出的解码结果和所述图像处理模型中的第一个编码模块的输出结果进行特征融合,得到第二融合特征,所述第N-1个解码模块的解码结果为所述第N-1个解码模块根据所述文本特征对所述图像特征中的所述目标图像特征进行解码的结果;
将所述第二融合特征输入至所述图像解码器的第N个解码模块进行解码处理。
7.根据权利要求1所述的图像分割方法,其特征在于,获取所述待分割图像中待分割的目标对象对应的提示文本包括:
获取与所述目标对象对应的文本提示学习模板;
根据所述目标对象在所述文本提示学习模板中进行关键词嵌入,得到所述提示文本。
8.一种图像分割装置,其特征在于,包括:
获取模块,用于获取待分割图像和所述待分割图像中待分割的目标对象对应的提示文本,所述提示文本用于对所述目标对象进行第一描述;
处理模块,用于将所述提示文本输入文本编码器进行编码处理,得到所述提示文本对应的文本特征;
提取模块,用于将所述待分割图像输入图像处理模型进行特征提取,得到所述待分割图像的图像特征,所述图像特征包括与所述目标对象对应的目标图像特征;
所述处理模块,还用于将所述文本特征和所述图像特征输入图像解码器进行解码处理,得到所述目标图像特征对应的解码特征以及与所述解码特征对应的目标对象。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的图像分割方法。
10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的图像分割方法。
CN202310082959.3A 2023-01-31 2023-01-31 图像分割方法、装置及电子设备 Pending CN116128894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310082959.3A CN116128894A (zh) 2023-01-31 2023-01-31 图像分割方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310082959.3A CN116128894A (zh) 2023-01-31 2023-01-31 图像分割方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN116128894A true CN116128894A (zh) 2023-05-16

Family

ID=86295268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310082959.3A Pending CN116128894A (zh) 2023-01-31 2023-01-31 图像分割方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN116128894A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761222A (zh) * 2022-09-27 2023-03-07 阿里巴巴(中国)有限公司 图像分割方法、遥感图像分割方法以及装置
CN117292384A (zh) * 2023-08-30 2023-12-26 北京瑞莱智慧科技有限公司 文字识别方法、相关装置及存储介质
CN117351196A (zh) * 2023-12-04 2024-01-05 北京联影智能影像技术研究院 图像分割方法、装置、计算机设备和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761222A (zh) * 2022-09-27 2023-03-07 阿里巴巴(中国)有限公司 图像分割方法、遥感图像分割方法以及装置
CN115761222B (zh) * 2022-09-27 2023-11-03 阿里巴巴(中国)有限公司 图像分割方法、遥感图像分割方法以及装置
CN117292384A (zh) * 2023-08-30 2023-12-26 北京瑞莱智慧科技有限公司 文字识别方法、相关装置及存储介质
CN117351196A (zh) * 2023-12-04 2024-01-05 北京联影智能影像技术研究院 图像分割方法、装置、计算机设备和存储介质
CN117351196B (zh) * 2023-12-04 2024-02-20 北京联影智能影像技术研究院 图像分割方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN116128894A (zh) 图像分割方法、装置及电子设备
CN112016475B (zh) 一种人体检测识别方法和装置
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
US20210158087A1 (en) Object detection based on deep neural network
CN114529574B (zh) 基于图像分割的图像抠图方法、装置、计算机设备及介质
CN112132834B (zh) 一种心室图像分割方法、***、装置及存储介质
CN116884391B (zh) 基于扩散模型的多模态融合音频生成方法及装置
CN114708436B (zh) 语义分割模型的训练方法、语义分割方法、装置和介质
CN111507726B (zh) 一种报文生成方法、装置及设备
CN113780326A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN111048065B (zh) 文本纠错数据生成方法及相关装置
CN116630480A (zh) 一种交互式文本驱动图像编辑的方法、装置和电子设备
CN115018059B (zh) 数据处理方法及装置、神经网络模型、设备、介质
CN116403142A (zh) 视频处理方法、装置、电子设备及介质
CN116433686A (zh) 基于Transformer上下文信息融合的医学图像分割方法及相关设备
CN114564606A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN115204366A (zh) 模型生成方法、装置、计算机设备和存储介质
CN114612970A (zh) 一种基于位置序列的人脸图像的识别方法、装置以及设备
CN110135464B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN116452600B (zh) 实例分割方法、***、模型训练方法、介质及电子设备
CN117593619B (zh) 图像处理方法、装置、电子设备及存储介质
CN118096924B (zh) 图像处理方法、装置、设备及存储介质
CN114495111B (zh) 文本识别方法、装置、可读介质及电子设备
CN112580658B (zh) 图像语义描述方法、装置、计算设备及计算机存储介质
US20230298326A1 (en) Image augmentation method, electronic device and readable storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination