CN117576388A - 一种图像处理方法、装置、存储介质及电子设备 - Google Patents

一种图像处理方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117576388A
CN117576388A CN202311467579.8A CN202311467579A CN117576388A CN 117576388 A CN117576388 A CN 117576388A CN 202311467579 A CN202311467579 A CN 202311467579A CN 117576388 A CN117576388 A CN 117576388A
Authority
CN
China
Prior art keywords
semantic
category
information
class
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311467579.8A
Other languages
English (en)
Inventor
张严浩
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202311467579.8A priority Critical patent/CN117576388A/zh
Publication of CN117576388A publication Critical patent/CN117576388A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种图像处理方法、装置、存储介质及电子设备,其中,方法包括:获取预设的图像语义类别信息和目标图像,所述图像语义类别信息包括前景语义类别信息和背景语义类别信息,基于所述前景语义类别信息确定目标图像对应的前景物体框体信息,基于所述前景物体框体信息构建前景物体类别提示信息,基于所述背景语义类别信息确定背景区域掩膜和背景区域热图,基于所述背景区域掩膜和所述背景区域热图构建背景区域类别提示信息,基于所述前景物体类别提示信息和所述背景区域类别提示信息采用图像分割模型对所述目标图像进行类别图像分割标注处理,得到标注类别物体掩膜。

Description

一种图像处理方法、装置、存储介质及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像处理方法、装置、存储介质及电子设备。
背景技术
在图像分割任务中,数据标注是一个关键的过程,它涉及为图像中的每个像素分配正确的标签,以指示其所属的语义类别或区域。数据标注在图像分割任务中的重要性不可低估,准确的数据标注是训练准确机器学习模型的基础。
发明内容
本申请实施例提供了一种图像处理方法、装置、存储介质及电子设备,所述技术方案如下:
第一方面,本申请实施例提供了一种图像处理方法,所述方法包括:
获取预设的图像语义类别信息和目标图像,所述图像语义类别信息包括前景语义类别信息和背景语义类别信息;
基于所述前景语义类别信息确定目标图像对应的前景物体框体信息,基于所述前景物体框体信息构建前景物体类别提示信息;
基于所述背景语义类别信息确定背景区域掩膜和背景区域热图,基于所述背景区域掩膜和所述背景区域热图构建背景区域类别提示信息;
基于所述前景物体类别提示信息和所述背景区域类别提示信息采用图像分割模型对所述目标图像进行类别图像分割标注处理,得到标注类别物体掩膜。
第二方面,本申请实施例提供了一种图像处理装置,所述装置包括:
信息获取模块,用于获取预设的图像语义类别信息,所述图像语义类别信息包括前景语义类别信息和背景语义类别信息;
前景处理模块,用于基于所述前景语义类别信息确定目标图像对应的前景物体框体信息,基于所述前景物体框体信息构建前景物体类别提示信息;
背景处理模块,用于基于所述背景语义类别信息确定背景区域掩膜和背景区域热图,基于所述背景区域掩膜和所述背景区域热图构建背景区域类别提示信息;
掩膜处理模块,用于基于所述前景物体类别提示信息和所述背景区域类别提示信息采用图像分割模型对所述目标图像进行类别图像分割标注处理,得到标注类别物体掩膜。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
在本说明书一个或多个实施例中,电子设备通过获取预设的图像语义类别信息和目标图像,基于前景语义类别信息确定目标图像对应的前景物体框体信息并构建前景物体类别提示信息,基于背景语义类别信息确定背景区域掩膜和背景区域热图并基于背景区域掩膜和背景区域热图构建背景区域类别提示信息,基于前景物体类别提示信息和背景区域类别提示信息采用图像分割模型对目标图像进行类别图像分割标注处理,就可以得到标注类别物体掩膜,整个图像处理过程实现了基于预设图像语义类别信息自动化的图像标注,可以批量产出分割的标注类别物体掩膜,不需要人工手动介入到图像标注环节,提高了图像处理效率,保证了图像标注的质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像处理方法的流程示意图;
图2是本申请实施例提供的一种图像处理方法的流程示意图;
图3是本申请实施例提供的一种前景图像处理的示意图;
图4是本申请实施例提供的一种图像处理场景的示意图;
图5是本申请实施例提供的一种图像处理的效果展示图;
图6是本申请实施例提供的一种图像处理方法的效果验证示意图;
图7是本申请实施例提供的一种语义类别信息确定方法的流程示意图;
图8是本申请实施例提供的一种图像处理装置的装置结构示意图;
图9是本申请实施例提供的一种电子设备的结构示意图;
图10是本申请实施例提供的操作***和用户空间的结构示意图;
图11是图10中安卓操作***的架构图;
图12是图10中IOS操作***的架构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本申请的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在当前的图像分割网络研究和应用中,网络性能通常要求大量训练数据和长时间的迭代训练。然而,在实际应用场景中,获取足够数量和质量的训练数据往往具有挑战性。因此,数据工程在实现高质量训练数据方面扮演着至关重要的角色。数据工程涉及数据的收集、清理、标注和预处理过程,旨在提供准确、丰富和代表性的训练样本。这包括从多个来源收集数据、进行质量验证和筛选,以及生成准确标签的数据标注等任务。实际应用中需要解决数据不平衡、噪声和标注错误等常见问题,以确保训练数据的质量和可靠性。
在图像分割任务中,数据标注是一个关键的过程,它涉及为图像中的每个像素分配正确的标签,以指示其所属的语义类别或区域。数据标注在图像分割任务中的重要性不可低估。准确的数据标注是训练准确模型的基础。通过为每个像素分配正确的标签,可以建立起输入图像和对应输出标签之间的映射关系,从而让机器学习模型能够学习到语义类别或区域的边界和特征。图像标注质量的高低直接影响到训练出的模型性能的准确性和鲁棒性。因此,进行仔细、准确和一致的数据标注是确保图像分割模型具有良好性能的关键步骤。然而,对于图像中每一个像素或图像区域的标注过程目前常常需要耗费大量的时间和精力,增加了数据准备的成本。
下面结合具体的实施例对本申请进行详细说明。
在一个实施例中,如图1所示,特提出了一种图像处理方法,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的图像处理装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。所述图像处理装置可以为电子设备,包括但不限于:服务器、个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、5G网络或未来演进网络中的电子设备等。
具体的,该图像处理方法包括:
S102:获取预设的图像语义类别信息和目标图像,所述图像语义类别信息包括前景语义类别信息和背景语义类别信息;
图像语义类别信息由多个语义类别对象(或物体)对应的语义类别数据组成,预先可针对至少一个图像类别对象(或物体)定义文本语义类别数据,也即以文本语义的形式指引或表征该图像类别对象(或物体)。例如,图像类别对象(或物体)可以是“dog狗类别、stick棍棒类别、sky天空类别、ground地类别...”文本语义类别数据也即描述、指引、表征“dog狗类别、stick棍棒类别、sky天空类别、ground地类别...”等文本语义类别的数据,比如说将描述、指引、表征“dog狗类别、stick棍棒类别、sky天空类别、ground地类别...”等文本语义类别的语义名称作为文本语义类别数据,如将“dog狗类别”的语义名称“dog狗”作为文本语义类别数据。
多个语义类别对象(或物体)对应的语义类别数据的集合也即图像语义类别信息;
进一步的,从图像前背景来划分,图像类别对象(或物体)可划分为前景图像类别对象(或物体)、背景图像类别对象(或物体),基于此,图像语义类别信息可划分为前景图像类别对象(或物体)对应的前景语义类别信息、背景图像类别对象(或物体)对应的背景语义类别信息。
示例性的,预先针对一组图像类别对象(或物体),为图像类别对象(或物体)定义语义类别数据,并组成图像语义类别信息,图像语义类别信息可视作一组类别集合,图像语义类别信息对于任意待标注图像类别的图像而言属于通用图像语义类别,也就是说图像语义类别信息中的所有图像类别对象(或物体)并非需要在所有图像中出现,后续可基于图像分割模型自动忽略不出现在当前目标图像中的语义类别,自动标注出当前目标图像中相应图像类别所对应的“标注类别物体掩膜”,完成图像标注。基于此,可不需要针对每张图选择类别。这一步可以减少人工标注的成本。
S104:基于所述前景语义类别信息确定目标图像对应的前景物体框体信息,基于所述前景物体框体信息构建前景物体类别提示信息;
对于通用图像分割模型而言,实际应用中常广泛应用在不同的下游数据上并同时和其他图像处理任务进行结合,但在数据标注场景下,存在以下数据标注现象:
1、图像分割模型由于其训练过程受到分割图像块的监督,但是分割图像块的监督过程不含有类别信息。因此图像分割模型无法读取图片的语义信息并进行语义分割。这种限制使其无法在下游基于不同类别的图像分割标注中直接应用;
2、图像分割模型无法直接接受文本引导。在数据标注场景下时,依然需要大量人工对目标物体进行指定,增加了标注流程的成本;
3、图像分割模型的训练数据是由不同细粒度的大量图像分割块组成,因此分割结果的粒度需要额外约束信息。在下游标注场景中需要多次人工干预和优化获取目标结果。
为改善乃至解决上述数据标注现象,可以执行本说明书一个或多个实施例的图像处理方法,实现基于通用图像分割模型在数据标注场景下的自动化对图像中不同语义类别的对象进行图像类别标注。
为了使得图像分割模型可以实际应用到数据标注链路中,使得图像分割模型可以接受文本语义引导以分割目标前景类别对比,本说明书可以结合前景语义类别信息确定目标图像对应的前景物体框体信息,实现将前景语义类别信息转换为目标图像对应的前景物体框体信息,前景物体框体信息可作为一种类别提示信息prompt指引图像分割模型进行相应语义类别对象的图像分割标注过程。
在本说明书中,可以使用图像框体标注技术,基于前景语义类别信息中的至少一个文本语义类别对象确定目标图像对应的前景物体框体信息,也即通过文本生成框体标注形式的“前景物体框体信息”,然后将“前景物体框体信息”构建为前景物体类别提示信息prompt;
在推理阶段,其通过一种称为prompt类型的物体类别提示信息,可以指导图像分割模型进行推理,这里的prompt指用于在目标图像上确定目标物体的指引信息,例如在图像上的相应语义类别对象的框体可以构建为前景物体类别提示信息prompt;
S106:基于所述背景语义类别信息确定背景区域掩膜和背景区域热图,基于所述背景区域掩膜和所述背景区域热图构建背景区域类别提示信息;
为了使得图像分割模型可以实际应用到数据标注链路中,使得图像分割模型可以接受文本语义引导以分割目标背景类别;
背景非物体类别对象(例如天空)无法通过框体表示,为了在标注流程中能够同时对背景非物体对象区域进行分割,本说明书可以结合背景语义类别信息确定目标图像对应的背景区域掩膜和背景区域热图,基于背景区域掩膜和背景区域热图构建背景区域类别提示信息;实现将背景区域掩膜和背景区域热图转换为目标图像对应的背景区域类别提示信息,背景区域掩膜和背景区域热图可作为一种类别提示信息prompt指引图像分割模型进行相应语义类别对象的图像分割标注过程。
在本说明书中,可以是根据背景区域掩膜确定机制和背景区域热图确定机制实现的上述过程。背景区域掩膜确定机制可以是采用Panoptic SegFormer(全景分割模型)其是一个全景图像分割基模型,其可以生成目标背景区域对掩膜。背景区域热图确定机制可以是一种CAM(类激活图)类激活机制,其应用在图像分类网络中可以定位到目标类别对应的区域。将Panoptic SegFormer(全景分割模型)和CAM(类激活图)的输出进行结合可以获得大致的目标背景区域,所获区域作为掩膜prompts输入SAM(分割一切模型)以获得精确的背景区域分割结果。
在本说明书中,可以使用图像框体标注技术,基于背景语义类别信息中的至少一个文本语义类别对象确定目标图像对应的图像掩膜,也即通过文本生成框体标注形式的“背景物体框体信息”,然后将“背景物体框体信息”构建为背景物体类别提示信息(前景prompts);
在推理阶段,其通过一种称为prompt类型的物体类别提示信息,可以指导图像分割模型进行推理,这里的prompt指用于在目标图像上确定目标物体的指引信息,例如在图像上的相应语义类别对象的图像掩膜可以构建为背景物体类别提示信息(背景prompts);
S108:基于所述前景物体类别提示信息和所述背景区域类别提示信息采用图像分割模型对所述目标图像进行类别图像分割标注处理,得到标注类别物体掩膜。
图像分割模型可以是具备图像分割能力的通用机器学习模型,使用通用图像分割模型可以将其迁移应用至本说明书所涉及的图像分割标注场景中,由于图像分割模型无法直接接受文本引导、无法读取图片的语义信息并进行语义分割,本说明书进行了图像处理改进,将文本语义类别这类信息转换为了前景物体类别提示信息(前景prompts)和背景区域类别提示信息(背景prompts),在图像分割标注阶段,通过prompt形式的指导进行推理,这里的prompt指用于确定目标物体的指引信息,例如在图像上的点击或者框体等prompt形式数据。
示例性的,图像分割模型可以采用通用的分割一切模型(Segment AnythingModel,SAM),该图像分割模型包括三个主要模块:一个图像特征提取器,一个prompt特征提取器和一个预测器,将前景物体类别提示信息和背景区域类别提示信息以及目标图像输入图像分割模型,前景物体类别提示信息(前景prompts)和背景区域类别提示信息(背景prompts)通过prompt提取器生成前景prompts特征和背景prompts特征,prompts特征和目标图像的图像特征进行融合后得到融合特征,融合特征被送入预测器生成相关语义类别的类别图像分割标注结果,类别图像分割标注结果通常是各语义类别在目标图像上的图像掩膜,可称之为标注类别物体掩膜。
在本说明书一个或多个实施例中,电子设备通过获取预设的图像语义类别信息和目标图像,基于前景语义类别信息确定目标图像对应的前景物体框体信息并构建前景物体类别提示信息,基于背景语义类别信息确定背景区域掩膜和背景区域热图并基于背景区域掩膜和背景区域热图构建背景区域类别提示信息,基于前景物体类别提示信息和背景区域类别提示信息采用图像分割模型对目标图像进行类别图像分割标注处理,就可以得到标注类别物体掩膜,整个图像处理过程实现了基于预设图像语义类别信息自动化的图像标注,可以批量产出分割的标注类别物体掩膜,不需要人工手动介入到图像标注环节,提高了图像处理效率,保证了图像标注的质量。
请参见图2,图2是本申请提出的一种图像处理方法的流程示意图。具体的:
S202:获取所述前景语义类别信息中至少一个前景语义类别对象对应的前景语义类别文本提示;
前景语义类别信息可由多个前景语义类别对象(或物体)对应的前景语义类别文本提示组成;
前景语义类别对象(或物体)对应的前景语义类别文本提示可以是多个;
示例性的,如图3所示,图3是一种前景图像处理的示意图,在图3中,示意出了针对前景语义类别信息中的任意前景语义类别对象i,前景语义类别对象i可以由多个前景语义类别文本提示组成,例如图3中前景语义类别对象i对应4个前景语义类别文本提示:prompt1、prompt2、prompt3以及prompt4。
例如,假设前景语义类别对象i为“person”,则前景语义类别文本提示可以是前景语义类别文本提示“a picture of person”、前景语义类别文本提示‘a piturecontaining person’、前景语义类别文本提示“human”、前景语义类别文本提示“people”;
进一步的,假设前景语义类别对象i为“person”,则前景语义类别文本提示可以是多个子类语义类别文本提示:语义类别文本提示‘head’,语义类别文本提示‘leg’,语义类别文本提示‘man’,语义类别文本提示‘woman’等等。
S204:将每个所述前景语义类别对象对应的前景语义类别文本提示输入物体检测模型,通过所述物体检测模型对目标图像进行前景检测得到前景物体框体信息;
具体的,可以获取预先基于机器学习模型所训练的物体检测模型,物体检测模型的输入至少为每个前景语义类别对象对应的前景语义类别文本提示prompt,物体检测模型会自动基于前景语义类别文本提示prompt对目标图像进行前景检测处理得到前景物体框体信息(也即图3中的输出框体结果),也即物体检测模型的输出为一个或多个前景语义类别文本提示prompt分别对应的前景物体框体;
可以理解的,当物体检测模型未检测前景语义类别文本提示prompt对应的对象时,其输出结果前景物体框体为空,前景语义类别对象i下所有的前景物体框体构成了“某前景语义类别对象i”的前景物体框体信息。
在一种具体的实施场景中,可参考如下方式:
A2:确定同一前景语义类别对象对应的多个参考前景语义类别文本提示;
前景语义类别信息中的前景语义类别对象可能存在多个,以上述前景语义类别对象i为例,同一前景语义类别对象i所对应的参考前景语义类别文本提示也即如图3中前景语义类别对象i对应4个前景语义类别文本提示:prompt1、prompt2、prompt3以及prompt4。
图像处理过程中,针对一个前景语义类别对象维护一组prompts即可在广泛的数据上实现高质量的数据标注,考虑到了同一前景语义类别对象在实际图像中的多种视觉表征形式prompt,详细的视觉表征形式prompt可辅助物体检测模型尽可能的检测出相应前景语义类别对象在目标图像中的框***置,从而可实现高质量的框体检测效果。
A4:分别将所述参考多个前景语义类别文本提示输入物体检测模型,通过所述物体检测模型基于每个所述前景语义类别文本提示对目标图像进行前景检测得到所述前景语义类别文本提示对应的参考前景物体框体;
可选的,物体检测模型可以选用通用的具有基于文本提示进行图像中物体检测功能的机器学习模型。
示例性的,物体检测模型可以是Grounding DINO物体检测模型,Grounding DINO模型通过类别标注可实现检测任意物体。Ground DINO是一个多模态基模型,其使用了大量文本图片配对进行了多模态预训练使得文本和视觉信息得到了有效链接。因此GroundingDINO(物体检测模型)拥有open-set开放的物体定位能力,即可以通过任意文本指引生成目标物体的框体。
在本说明书中可以引入通用物体检测模型,分别将参考多个前景语义类别文本提示输入物体检测模型,通过物体检测模型基于每个前景语义类别文本提示对目标图像进行前景检测可以得到前景语义类别文本提示对应的参考前景物体框体,如图3中可以得到prompt1对应的(物体检测)框体1、prompt2对应的(物体检测)框体2、prompt3对应的(物体检测)框体3、prompt4对应的(物体检测)框体4;
A6:基于同一所述语义类别对象的所有所述前景语义类别文本提示对应的参考前景物体框体生成前景物体框体信息。
示例性的,电子设备执行所述基于同一所述语义类别对象的所有所述前景语义类别文本提示对应的参考前景物体框体生成前景物体框体信息,可以采用如下方式:
先确定同一语义类别对象的所有所述前景语义类别文本提示对应的参考前景物体框体,将同一语义类别对象的所有参考前景物体框体进行框体集成处理,得到前景物体框体信息。
可选的,一种框体集成处理的方式:可以是同一语义类别对象的所有参考前景物体框体确定框体交集区域,将框体交集区域作为前景物体框体信息;
可选的,一种框体集成处理的方式:可以是同一语义类别对象的所有参考前景物体框体确定框体并集区域,将框体并集区域作为前景物体框体信息;
可选的,可以获取物体检测模型针对每个参考前景物体框体的参考置信度,基于参考置信度进行框体筛选处理得到前景物体框体信息,如取参考置信度大于目标阈值的参考前景物体框体作为前景物体框体信息;
S206:获取所述背景语义类别信息中至少一个背景语义类别对象对应的背景语义类别文本提示;
背景语义类别信息可由多个背景语义类别对象(或物体)对应的背景语义类别文本提示组成;
背景语义类别对象(或物体)对应的背景语义类别文本提示可以是多个;
示例性的,针对背景语义类别信息中的任意背景语义类别对象i,背景语义类别对象i可以由多个背景语义类别文本提示组成,例背景语义类别对象i对应的n个背景语义类别文本提示:prompt1、prompt2、...、prompt n。
例如,假设背景语义类别对象i为“天空”,则背景语义类别文本提示可以是背景语义类别文本提示“阴沉的天空”、背景语义类别文本提示‘万里无云的天空’;
进一步的,假设背景语义类别对象i为“天空”,则背景语义类别文本提示可以是多个子类语义类别文本提示:语义类别文本提示‘蓝天’,语义类别文本提示‘白云’,语义类别文本提示‘闪电’,语义类别文本提示‘火烧云’等等。
S208:基于所述每个所述背景语义类别对象对应的背景语义类别文本提示采用全景分割模型对目标图像进行背景识别得到背景区域掩膜;
S210:基于所述每个所述背景语义类别对象对应的背景语义类别文本提示采用分类网络模型对目标图像进行背景识别得到背景区域热图。
其中,S208与S210的步骤执行顺序不分先后,此处不做限定;
根据一些实施例中,背景非物体类别对象(例如天空)无法通过框体表示,为了在标注流程中能够同时对背景非物体对象区域进行分割,如图4所示,图4是一种图像处理场景的示意图,在图4中,通过获取图像语义类别信息中背景语义类别信所包含的至少一个背景语义类别对象对应的背景语义类别文本提示(图4中以背景类别框表示),然后将每个所述背景语义类别对象对应的背景语义类别文本提示至少输入全景分割模型(还可以将目标图像同时输入,或基于全景分割模型主动调用目标图像),全景分割模型基于背景语义类别文本提示对目标图像进行背景识别得到背景区域掩膜;以及,将每个所述背景语义类别对象对应的背景语义类别文本提示至少输入分类网络模型(还可以将目标图像同时输入,或基于分类网络模型主动调用目标图像),分类网络模型基于背景语义类别文本提示对目标图像进行背景识别得到背景区域热图;
本说明书可以结合背景语义类别信息采用全景分割模型确定目标图像对应的背景区域掩膜和采用分类网络确定背景区域热图,基于背景区域掩膜和背景区域热图构建背景区域类别提示信息;实现将背景区域掩膜和背景区域热图转换为目标图像对应的背景区域类别提示信息,背景区域掩膜和背景区域热图可作为一种类别提示信息prompt指引图像分割模型进行相应语义类别对象的图像分割标注过程。
在一种可行的实施方式中,可参考如下实施步骤:
B2:获取所述背景语义类别信息中至少一个背景语义类别对象对应的背景语义类别文本提示;
B4:基于所述每个所述背景语义类别对象对应的背景语义类别文本提示采用全景分割模型对目标图像进行背景识别得到背景区域掩膜;
B6:基于所述每个所述背景语义类别对象对应的背景语义类别文本提示采用分类网络模型对目标图像进行背景识别得到背景区域热图。
背景区域热图也可称之为类激活图(CAM图);
在本说明书中,可以是根据背景区域掩膜确定机制和背景区域热图确定机制实现的上述过程。背景区域掩膜确定机制可以是采用Panoptic SegFormer(全景分割模型)其是一个全景图像分割基模型,全景图像分割基模型的输入至少是每个所述背景语义类别对象对应的背景语义类别文本提示,全景图像分割基模型其可以根据背景语义类别对象对应的背景语义类别文本提示prompt生成目标背景区域对掩膜。背景区域热图确定机制可以是一种类激活机制,类激活机制可视作一种分类网络模型,其类激活机制应用在分类网络模型中可以定位到背景语义类别文本提示prompt指示的目标类别所处的区域。将PanopticSegFormer(全景分割模型)和分类网络模型的输出进行结合可以获得大致的目标背景区域,所获区域作为掩膜prompts输入SAM(分割一切模型)以获得精确的背景区域分割结果。
S212:基于所述背景语义类别信息确定背景区域掩膜和背景区域热图,基于所述背景区域掩膜和所述背景区域热图构建背景区域类别提示信息。
可选的,一种构建的方式:可以是同一语义类别对象的所有背景区域掩膜和背景区域热图确定掩膜交集区域,将掩膜交集区域作为语义类别对象的背景区域类别提示promp,将所有语义类别对象的背景区域类别提示promp的集合作为背景区域类别提示信息;
可选的,一种构建的方式:可以是同一语义类别对象的所有参考前景物体框体确定掩膜并集区域,将掩膜并集区域作为前景物体框体信息,语义类别对象的背景区域类别提示promp,将所有语义类别对象的背景区域类别提示promp的集合作为背景区域类别提示信息;
在一种可行的实施方式中,可以基于区域像素置信度来进行构建处理,如下:
C2:获取所述背景区域掩膜的第一区域像素置信度信息,获取所述背景区域热图的第二区域像素置信度信息;
可选的,可以获取全景分割模型针对每个语义类别对象对应背景区域掩膜的掩膜区域像素置信度,所有语义类别对象的背景区域掩膜的掩膜区域像素置信度也即第一区域像素置信度信息;
可选的,可以获取分类网络模型针对每个语义类别对象对应背景区域热图的掩膜热图区域像素置信度,所有语义类别对象的背景区域掩膜的掩膜热图区域像素置信度也即第二区域像素置信度信息;
C4:基于所述第一区域像素置信度信息和所述第二区域像素置信度信息和置信度阈值进行背景类别区域定位处理,得到目标背景类别区域,基于所述目标背景类别区域构建背景区域类别提示信息。
可选的,针对区域像素置信度设置了像素置信度阈值,从第一区域像素置信度信息中确定掩膜区域像素置信度大于像素置信度阈值的第一像素点,所有第一像素点集合为第一像素点区域;从第二区域像素置信度信息中确定掩膜热图区域像素置信度大于像素置信度阈值的第二像素点,所有第二像素点集合为第二像素点区域;基于第一像素点区域和第二像素点区域进行区域综合处理确定目标背景类别区域,然后基于所述目标背景类别区域构建每个语义类别对象对应的背景区域类别提示promp,所有语义类别对象对应的背景区域类别提示promp就组成了背景区域类别提示信息。
S214:基于所述前景物体类别提示信息和所述背景区域类别提示信息采用图像分割模型对所述目标图像进行类别图像分割标注处理,得到标注类别物体掩膜。
可以理解的,步骤“基于前景物体类别提示信息采用图像分割模型对所述目标图像进行类别图像分割标注处理”和步骤“基于背景区域类别提示信息采用图像分割模型对所述目标图像进行类别图像分割标注处理”的执行顺序不分先后,可以是并行执行也可以是串行执行,此处不做具体限定。
在一种可行的实施方式中,基于所述前景物体类别提示信息采用图像分割模型对所述目标图像进行类别图像分割标注处理,得到标注类别物体掩膜。
基于上述方式得到了包含多个框体的前景物体框体信息,多个框体的前景物体框体信息再作为prompts输入诸如SAM模型等图像分割模型中产生针对此类别的多个分割标注,分割标注是以图像掩膜的形式进行分割标注的,图像分割模型所输出的分割标注结果经标注结果整合后,也可称之为标注类别物体掩膜。
图像分割模型输出的每个prompts中prompt的分割标注结果(分割标注结果以图像掩膜的形式表征)后,采用对分割标注结果集成的方式将多个分割标注集成得到最终标注可称之为(前景)标注类别物体掩膜,因为诸如Grounding DINO等物体检测模型)和诸如SAM模型等图像分割模型都支持并行输入,因此多个输入不会显著降低标注速度。
在本说明书一个或多个实施例中,通过将标注类别物体掩膜反馈给后端设备,后端设备可以基于专家端服务可以对(前景/背景)语义类别文本提示prompt的设计进行调整,也即,电子设备将标注类别物体掩膜反馈给后端设备,可以接收针对标注类别物体掩膜的文本提示调整指令,响应于文本提示调整指令对目标语义类别文本提示进行文本提示调整,得到文本提示调整后的所述目标语义类别文本提示。
进一步的,进行文本提示调整可以是对语义类别文本提示prompt进行增加提示处理、删除提示处理和修改提示处理等等。
在一种可行的实施方式中,基于所述背景物体类别提示信息采用图像分割模型对所述目标图像进行类别图像分割标注处理,得到标注类别物体掩膜。
基于上述方式得到了包含多个框体的背景物体框体信息,多个框体的背景物体框体信息再作为prompts输入诸如SAM模型等图像分割模型中产生针对此类别的多个分割标注,分割标注是以图像掩膜的形式进行分割标注的,图像分割模型所输出的分割标注结果经标注结果整合后,也可称之为标注类别物体掩膜。
图像分割模型输出的每个prompts中prompt的分割标注结果(分割标注结果以图像掩膜的形式表征)后,采用对分割标注结果集成的方式将多个分割标注集成得到最终标注可称之为(背景)标注类别物体掩膜,在本说明书一个或多个实施例中,通过将标注类别物体掩膜反馈给后端设备,后端设备可以基于专家端服务可以对(背景/背景)语义类别文本提示prompt的设计进行调整,也即,电子设备将标注类别物体掩膜反馈给后端设备,可以接收针对标注类别物体掩膜的文本提示调整指令,响应于文本提示调整指令对目标语义类别文本提示进行文本提示调整,得到文本提示调整后的所述目标语义类别文本提示。
进一步的,进行文本提示调整可以是对语义类别文本提示prompt进行增加提示处理、删除提示处理和修改提示处理等等。
示例性的,如图5所示,图5是一种图像处理的效果展示图,以图5中目标图像A为例,对目标图像A执行上述图像处理方法,目标图像A的前景物体和背景分别标注生成掩膜的效果如图5所示,图5中以可视化的形式分别对三个语义类别的标注类别物体掩膜进行了示出,分别为语义类别“sky”对应的标注类别物体掩膜、语义类别“person”对应的标注类别物体掩膜、语义类别“ground”对应的标注类别物体掩膜;又以图5中目标图像B为例,对目标图像B执行上述图像处理方法,目标图像B的前景物体和背景分别标注生成掩膜的效果如图5所示,图5中以可视化的形式分别对三个语义类别的标注类别物体掩膜进行了示出,分别为语义类别“grass”对应的标注类别物体掩膜、语义类别“person”对应的标注类别物体掩膜、语义类别“camera”对应的标注类别物体掩膜;
进一步的,如图6所示,图6是一种图像处理方法的效果验证示意图,我们在针对纯前景物体的PASCAL VOC数据(公开数据集)上通过执行本说明书一个或多个所述图像处理方法验证了方案的有效性,图6中标志“image”列示出了所包含的多个目标图像,标志“Label”列示出了分别针对多个目标图像采用人工标注的方式进行图像标注后的效果图,标志“SAM”列示出了通过执行本说明书一个或多个所述图像处理方法针对每个目标图像得到的标注类别物体掩膜,PASCAL VOC数据(公开数据集)上通过执行本说明书一个或多个所述图像处理方法生成标注结果和人工标注结果对比。在一些场景下我们的图像处理方法能够获得比手工标注更高的质量。
在本说明书一个或多个实施例中,电子设备通过获取预设的图像语义类别信息和目标图像,基于前景语义类别信息采用物体检测模型确定目标图像对应的前景物体框体信息并构建前景物体类别提示信息,基于背景语义类别信息采用全景分割模型和分类网络模型确定背景区域掩膜和背景区域热图并基于背景区域掩膜和背景区域热图构建背景区域类别提示信息,基于前景物体类别提示信息和背景区域类别提示信息采用图像分割模型对目标图像进行类别图像分割标注处理,就可以得到标注类别物体掩膜,整个图像处理过程实现了基于预设图像语义类别信息自动化的图像标注,可以批量产出分割的标注类别物体掩膜,不需要人工手动介入到图像标注环节,提高了图像处理效率,保证了图像标注的质量;以及基于上述方式实现了图像标注的自动化进行,显著降低了标注成本,上述方式并结合了通用的物体检测模型、全景分割模型和分类网络模型等模型能力,实现了低成本、高质量的像素级标注能力。
请参见图7,图7是本申请提出的一种语义类别信息确定方法的流程示意图。具体的:
S402:确定多个预设语义类别对象,针对每个所述预设语义类别对象分别创建语义类别文本提示;
示例性的,预先确定多个预设语义类别对象,针对一组图像类别对象,为图像类别对象(或物体)定义语义类别文本提示,图像语义类别信息包括所有的语义类别文本提示,对于任意待标注图像类别的目标图像而言属于通用图像语义类别,也就是说图像语义类别信息中的所有图像类别对象(或物体)并非需要在所有图像中出现,后续可基于图像分割模型自动忽略不出现在当前目标图像中的语义类别,自动标注出当前目标图像中相应图像类别所对应的“标注类别物体掩膜”,完成图像标注。基于此,可不需要针对每张图选择类别。这一步可以减少人工标注的成本。
例如,图像类别对象(或物体)可以是“dog狗类别、stick棍棒类别、sky天空类别、ground地类别...”,语义类别文本提示在一些实施例中也可称之为文本语义类别数据,语义类别文本提示描述、指引、表征“dog狗类别、stick棍棒类别、sky天空类别、ground地类别...”等文本语义类别的数据,比如说将描述、指引、表征“dog狗类别、stick棍棒类别、sky天空类别、ground地类别...”等文本语义类别的语义名称作为语义类别文本提示,如将“dog狗类别”的语义名称“dog狗”作为语义类别文本提示。
在一种可行的实施方式中,可参考如下方式:
D2:针对每个所述预设语义类别对象分别创建源语义类别文本提示;
源语义类别文本提示可是初始的针对预设语义类别对象构建的语义类别文本提示,后续可以在源语义类别文本提示进行语义提示扩展处理。
如可以将描述、指引、表征“dog狗类别、stick棍棒类别、sky天空类别、ground地类别...”等文本语义类别的语义名称作为源语义类别文本提示;
D4:对所述源语义类别文本提示进行语义提示扩展处理,得到针对所述预设语义类别对象的扩展语义类别文本提示;
进一步的,语义提示扩展处理可以是:对所述源语义类别文本提示进行语义提示句子扩展,得到第一扩展语义类别文本提示;和/或,对所述源语义类别文本提示进行语义提示同义扩展,得到第二扩展语义类别文本提示;和/或,对所述源语义类别文本提示进行语义提示子类扩展,得到第三扩展语义类别文本提示;
针对某一预设语义类别对象的语义提示扩展处理进行多prompts设计的举例:
假设预设语义类别对象‘person’,可以根据语义提示句子扩展,语义提示同义扩展和语义提示子类扩展等进行prompts设计。
语义提示句子扩展如:针对预设语义类别对象‘person’进行句子扩充,得到了第一扩展语义类别文本提示:语义提示‘person’a picture of person’,语义提示‘a piturecontaining person’;
语义提示同义扩展:针对预设语义类别对象‘person’进行同义扩展,得到了第二扩展语义类别文本提示:human、people;
语义提示子类扩展:针对预设语义类别对象‘person’进行子类扩展:‘head’得到了第三扩展语义类别文本提示,‘leg’、‘man’、‘woman’。
针对一个预设语义类别对象对应的类别只需维护一组prompts即可在广泛的数据上进行高质量的数据标注,无需针对每一张图片进行专门标注,极大降低了标注成本。后续,也可以根据输出结果的后端反馈对prompts进行优化。
可以理解的,基于所述第一扩展语义类别文本提示、所述第二扩展语义类别文本提示和所述第三扩展语义类别文本提示中的至少其一,确定针对所述预设语义类别对象的扩展语义类别文本提示。
D6:将所述扩展语义类别文本提示和所述源语义类别文本提示作为所述预设语义类别对象的语义类别文本提示。
S404:将所有语义类别文本提示作为图像语义类别信息。
多个预设语义类别对象分别对应的语义类别文本提示的集合即可作为图像语义类别信息,该图像语义类别信息可以是以语义提示列表、语义提示结构组等形式进行表征。
在本说明书一个或多个实施例中,电子设备通过获取预设的图像语义类别信息和目标图像,基于前景语义类别信息确定目标图像对应的前景物体框体信息并构建前景物体类别提示信息,基于背景语义类别信息确定背景区域掩膜和背景区域热图并基于背景区域掩膜和背景区域热图构建背景区域类别提示信息,基于前景物体类别提示信息和背景区域类别提示信息采用图像分割模型对目标图像进行类别图像分割标注处理,就可以得到标注类别物体掩膜,整个图像处理过程实现了基于预设图像语义类别信息自动化的图像标注,可以批量产出分割的标注类别物体掩膜,不需要人工手动介入到图像标注环节,提高了图像处理效率,保证了图像标注的质量。
下面将结合图8,对本申请实施例提供的图像处理装置进行详细介绍。需要说明的是,图8所示的图像处理装置,用于执行本申请图1~图7所示实施例的方法,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请图1~图7所示的实施例。
请参见图8,其示出本申请实施例的图像处理装置的结构示意图。该图像处理装置1可以通过软件、硬件或者两者的结合实现成为用户终端的全部或一部分。根据一些实施例,该图像处理装置1包括信息获取模块11、前景处理模块12、背景处理模块13和掩膜处理模块14,具体用于:
信息获取模块11,用于获取预设的图像语义类别信息,所述图像语义类别信息包括前景语义类别信息和背景语义类别信息;
前景处理模块12,用于基于所述前景语义类别信息确定目标图像对应的前景物体框体信息,基于所述前景物体框体信息构建前景物体类别提示信息;
背景处理模块13,用于基于所述背景语义类别信息确定背景区域掩膜和背景区域热图,基于所述背景区域掩膜和所述背景区域热图构建背景区域类别提示信息;
掩膜处理模块14,用于基于所述前景物体类别提示信息和所述背景区域类别提示信息采用图像分割模型对所述目标图像进行类别图像分割标注处理,得到标注类别物体掩膜。
可选的,所述前景处理模块12,用于:
获取所述前景语义类别信息中至少一个前景语义类别对象对应的前景语义类别文本提示;
将每个所述前景语义类别对象对应的前景语义类别文本提示输入物体检测模型,通过所述物体检测模型对目标图像进行前景检测得到前景物体框体信息。
可选的,所述前景处理模块12,用于:
确定同一前景语义类别对象对应的多个参考前景语义类别文本提示;
分别将所述参考多个前景语义类别文本提示输入物体检测模型,通过所述物体检测模型基于每个所述前景语义类别文本提示对目标图像进行前景检测得到所述前景语义类别文本提示对应的参考前景物体框体;
基于同一所述前景语义类别对象的所有所述前景语义类别文本提示对应的参考前景物体框体生成前景物体框体信息。
可选的,所述前景处理模块12,用于:
确定同一所述前景语义类别对象的所有所述前景语义类别文本提示对应的参考前景物体框体;
将同一所述前景语义类别对象的所有参考前景物体框体进行框体集成处理,得到前景物体框体信息。
可选的,所述背景处理模块13,用于:
获取所述背景语义类别信息中至少一个背景语义类别对象对应的背景语义类别文本提示;
基于所述每个所述背景语义类别对象对应的背景语义类别文本提示采用全景分割模型对目标图像进行背景识别得到背景区域掩膜;
基于所述每个所述背景语义类别对象对应的背景语义类别文本提示采用分类网络模型对目标图像进行背景识别得到背景区域热图。
可选的,所述背景处理模块13,用于:获取所述背景区域掩膜的第一区域像素置信度信息,获取所述背景区域热图的第二区域像素置信度信息;
基于所述第一区域像素置信度信息和所述第二区域像素置信度信息和置信度阈值进行背景类别区域定位处理,得到目标背景类别区域,基于所述目标背景类别区域构建背景区域类别提示信息。
可选的,所述装置1,用于:确定多个预设语义类别对象,针对每个所述预设语义类别对象分别创建语义类别文本提示;
将所有所述语义类别文本提示作为图像语义类别信息。
可选的,所述装置1,用于:针对每个所述预设语义类别对象分别创建源语义类别文本提示;
对所述源语义类别文本提示进行语义提示扩展处理,得到针对所述预设语义类别对象的扩展语义类别文本提示;
将所述扩展语义类别文本提示和所述源语义类别文本提示作为所述预设语义类别对象的语义类别文本提示。
可选的,所述背景处理模块13,用于:对所述源语义类别文本提示进行语义提示句子扩展,得到第一扩展语义类别文本提示;和/或,对所述源语义类别文本提示进行语义提示同义扩展,得到第二扩展语义类别文本提示;和/或,对所述源语义类别文本提示进行语义提示子类扩展,得到第三扩展语义类别文本提示;
基于所述第一扩展语义类别文本提示、所述第二扩展语义类别文本提示和所述第三扩展语义类别文本提示中的至少其一,确定针对所述预设语义类别对象的扩展语义类别文本提示。
可选的,所述装置1,用于:接收针对标注类别物体掩膜的文本提示调整指令,响应于所述文本提示调整指令对目标语义类别文本提示进行文本提示调整,得到文本提示调整后的所述目标语义类别文本提示。
需要说明的是,上述实施例提供的图像处理装置在执行图像处理方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1~图7所示实施例的所述图像处理方法,具体执行过程可以参见图1~图7所示实施例的具体说明,在此不进行赘述。
本申请还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1~图7所示实施例的所述图像处理方法,具体执行过程可以参见图1~图7所示实施例的具体说明,在此不进行赘述。
请参考图9,其示出了本申请一个示例性实施例提供的电子设备的结构方框图。本申请中的电子设备可以包括一个或多个如下部件:处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。
处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digital signal processing,DSP)、现场可编程门阵列(field-programmable gate array,FPGA)、可编程逻辑阵列(programmable logicArray,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(centralprocessing unit,CPU)、图像处理器(graphics processing unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(random Access Memory,RAM),也可以包括只读存储器(read-only memory,ROM)。可选地,该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等,该操作***可以是安卓(Android)***,包括基于Android***深度开发的***、苹果公司开发的IOS***,包括基于IOS***深度开发的***或其它***。存储数据区还可以存储电子设备在使用中所创建的数据比如电话本、音视频数据、聊天记录数据,等。
参见图10所示,存储器120可分为操作***空间和用户空间,操作***即运行于操作***空间,原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果,操作***针对不同第三方应用程序为其分配相应的***资源。然而,同一第三方应用程序中不同应用场景对***资源的需求也存在差异,比如,在本地资源加载场景下,第三方应用程序对磁盘读取速度的要求较高;在动画渲染场景下,第三方应用程序则对GPU性能的要求较高。而操作***与第三方应用程序之间相互独立,操作***往往不能及时感知第三方应用程序当前的应用场景,导致操作***无法根据第三方应用程序的具体应用场景进行针对性的***资源适配。
为了使操作***能够区分第三方应用程序的具体应用场景,需要打通第三方应用程序与操作***之间的数据通信,使得操作***能够随时获取第三方应用程序当前的场景信息,进而基于当前场景进行针对性的***资源适配。
以操作***为Android***为例,存储器120中存储的程序和数据如图11所示,存储器120中可存储有Linux内核层320、***运行时库层340、应用框架层360和应用层380,其中,Linux内核层320、***运行库层340和应用框架层360属于操作***空间,应用层380属于用户空间。Linux内核层320为电子设备的各种硬件提供了底层的驱动,如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。***运行库层340通过一些C/C++库来为Android***提供了主要的特性支持。如SQLite库提供了数据库的支持,OpenGL/ES库提供了3D绘图的支持,Webkit库提供了浏览器内核的支持等。在***运行时库层340中还提供有安卓运行时库(Android runtime),它主要提供了一些核心库,能够允许开发者使用Java语言来编写Android应用。应用框架层360提供了构建应用程序时可能用到的各种API,开发者也可以通过使用这些API来构建自己的应用程序,比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序,这些应用程序可以是操作***自带的原生应用程序,比如联系人程序、短信程序、时钟程序、相机应用等;也可以是第三方开发者所开发的第三方应用程序,比如游戏类应用程序、即时通信程序、相片美化程序等。
以操作***为IOS***为例,存储器120中存储的程序和数据如图12所示,IOS***包括:核心操作***层420(Core OS layer)、核心服务层440(Core Services layer)、媒体层460(Media layer)、可触摸层480(Cocoa Touch Layer)。核心操作***层420包括了操作***内核、驱动程序以及底层程序框架,这些底层程序框架提供更接近硬件的功能,以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的***服务和/或程序框架,比如基础(Foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口,如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(AirPlay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架,可触摸层480负责用户在电子设备上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(User Interface,UI)框架、用户界面UIKit框架、地图框架等等。
在图12所示出的框架中,与大部分应用程序有关的框架包括但不限于:核心服务层440中的基础框架和可触摸层480中的UIKit框架。基础框架提供许多基本的对象类和数据类型,为所有应用程序提供最基本的***服务,和UI无关。而UIKit框架提供的类是基础的UI类库,用于创建基于触摸的用户界面,iOS应用程序可以基于UIKit框架来提供UI,所以它提供了应用程序的基础架构,用于构建用户界面,绘图、处理和用户交互事件,响应手势等等。
其中,在IOS***中实现第三方应用程序与操作***数据通信的方式以及原理可参考Android***,本申请在此不再赘述。
其中,输入装置130用于接收输入的指令或数据,输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据,输出装置140包括但不限于显示设备和扬声器等。在一个示例中,输入装置130和输出装置140可以合设,输入装置130和输出装置140为触摸显示屏,该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作,以及显示各个应用程序的用户界面。触摸显示屏通常设置在电子设备的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合,异型屏与曲面屏的结合,本申请实施例对此不加以限定。
除此之外,本领域技术人员可以理解,上述附图所示出的电子设备的结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity,WiFi)模块、电源、蓝牙模块等部件,在此不再赘述。
在本申请实施例中,各步骤的执行主体可以是上文介绍的电子设备。可选地,各步骤的执行主体为电子设备的操作***。操作***可以是安卓***,也可以是IOS***,或者其它操作***,本申请实施例对此不作限定。
本申请实施例的电子设备,其上还可以安装有显示设备,显示设备可以是各种能实现显示功能的设备,例如:阴极射线管显示器(cathode ray tubedisplay,简称CR)、发光二极管显示器(light-emitting diode display,简称LED)、电子墨水屏、液晶显示屏(liquid crystal display,简称LCD)、等离子显示面板(plasma display panel,简称PDP)等。用户可以利用电子设备101上的显示设备,来查看显示的文字、图像、视频等信息。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(Augmented Reality,增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。
在图9所示的电子设备中,其中电子设备可以是一种电子设备,处理器110可以用于调用存储器120中存储的应用程序,并具体执行以下操作:
获取预设的图像语义类别信息和目标图像,所述图像语义类别信息包括前景语义类别信息和背景语义类别信息;
基于所述前景语义类别信息确定目标图像对应的前景物体框体信息,基于所述前景物体框体信息构建前景物体类别提示信息;
基于所述背景语义类别信息确定背景区域掩膜和背景区域热图,基于所述背景区域掩膜和所述背景区域热图构建背景区域类别提示信息;
基于所述前景物体类别提示信息和所述背景区域类别提示信息采用图像分割模型对所述目标图像进行类别图像分割标注处理,得到标注类别物体掩膜。
在一个实施例中,所述处理器110在执行所述基于所述前景语义类别信息确定目标图像对应的前景物体框体信息,执行以下操作:
获取所述前景语义类别信息中至少一个前景语义类别对象对应的前景语义类别文本提示;
将每个所述前景语义类别对象对应的前景语义类别文本提示输入物体检测模型,通过所述物体检测模型对目标图像进行前景检测得到前景物体框体信息。
在一个实施例中,所述处理器110在执行所述将每个所述前景语义类别对象对应的前景语义类别文本提示输入物体检测模型,通过所述物体检测模型对目标图像进行前景检测得到前景物体框体信息,执行以下操作:
确定同一前景语义类别对象对应的多个参考前景语义类别文本提示;
分别将所述参考多个前景语义类别文本提示输入物体检测模型,通过所述物体检测模型基于每个所述前景语义类别文本提示对目标图像进行前景检测得到所述前景语义类别文本提示对应的参考前景物体框体;
基于同一所述前景语义类别对象的所有所述前景语义类别文本提示对应的参考前景物体框体生成前景物体框体信息。
在一个实施例中,所述处理器110在执行所述基于同一所述前景语义类别对象的所有所述前景语义类别文本提示对应的参考前景物体框体生成前景物体框体信息,执行以下步骤:
确定同一所述前景语义类别对象的所有所述前景语义类别文本提示对应的参考前景物体框体;
将同一所述前景语义类别对象的所有参考前景物体框体进行框体集成处理,得到前景物体框体信息。
在一个实施例中,所述处理器110在执行所述基于所述背景语义类别信息确定背景区域掩膜和背景区域热图,执行以下步骤:
获取所述背景语义类别信息中至少一个背景语义类别对象对应的背景语义类别文本提示;
基于所述每个所述背景语义类别对象对应的背景语义类别文本提示采用全景分割模型对目标图像进行背景识别得到背景区域掩膜;
基于所述每个所述背景语义类别对象对应的背景语义类别文本提示采用分类网络模型对目标图像进行背景识别得到背景区域热图。
在一个实施例中,所述处理器110在执行所述基于所述背景区域掩膜和所述背景区域热图构建背景区域类别提示信息,执行以下步骤:
获取所述背景区域掩膜的第一区域像素置信度信息,获取所述背景区域热图的第二区域像素置信度信息;
基于所述第一区域像素置信度信息和所述第二区域像素置信度信息和置信度阈值进行背景类别区域定位处理,得到目标背景类别区域,基于所述目标背景类别区域构建背景区域类别提示信息。
在一个实施例中,所述处理器110在执行所述获取预设的图像语义类别信息之前,还执行以下步骤:
确定多个预设语义类别对象,针对每个所述预设语义类别对象分别创建语义类别文本提示;
将所有所述语义类别文本提示作为图像语义类别信息。
在一个实施例中,所述处理器110在执行所述针对每个所述预设语义类别对象分别创建语义类别文本提示,执行以下步骤:
针对每个所述预设语义类别对象分别创建源语义类别文本提示;
对所述源语义类别文本提示进行语义提示扩展处理,得到针对所述预设语义类别对象的扩展语义类别文本提示;
将所述扩展语义类别文本提示和所述源语义类别文本提示作为所述预设语义类别对象的语义类别文本提示。
在一个实施例中,所述处理器110在执行所述对所述源语义类别文本提示进行语义提示扩展处理,得到针对所述预设语义类别对象的扩展语义类别文本提示,执行以下步骤:
对所述源语义类别文本提示进行语义提示句子扩展,得到第一扩展语义类别文本提示;和/或,对所述源语义类别文本提示进行语义提示同义扩展,得到第二扩展语义类别文本提示;和/或,对所述源语义类别文本提示进行语义提示子类扩展,得到第三扩展语义类别文本提示;
基于所述第一扩展语义类别文本提示、所述第二扩展语义类别文本提示和所述第三扩展语义类别文本提示中的至少其一,确定针对所述预设语义类别对象的扩展语义类别文本提示。
在一个实施例中,所述处理器110在执行所述图像处理方法还执行以下步骤:
接收针对标注类别物体掩膜的文本提示调整指令,响应于所述文本提示调整指令对目标语义类别文本提示进行文本提示调整,得到文本提示调整后的所述目标语义类别文本提示。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (13)

1.一种图像处理方法,其特征在于,所述方法包括:
获取预设的图像语义类别信息和目标图像,所述图像语义类别信息包括前景语义类别信息和背景语义类别信息;
基于所述前景语义类别信息确定目标图像对应的前景物体框体信息,基于所述前景物体框体信息构建前景物体类别提示信息;
基于所述背景语义类别信息确定背景区域掩膜和背景区域热图,基于所述背景区域掩膜和所述背景区域热图构建背景区域类别提示信息;
基于所述前景物体类别提示信息和所述背景区域类别提示信息采用图像分割模型对所述目标图像进行类别图像分割标注处理,得到标注类别物体掩膜。
2.根据权利要求1所述的方法,其特征在于,所述基于所述前景语义类别信息确定目标图像对应的前景物体框体信息,包括:
获取所述前景语义类别信息中至少一个前景语义类别对象对应的前景语义类别文本提示;
将每个所述前景语义类别对象对应的前景语义类别文本提示输入物体检测模型,通过所述物体检测模型对目标图像进行前景检测得到前景物体框体信息。
3.根据权利要求2所述的方法,其特征在于,所述将每个所述前景语义类别对象对应的前景语义类别文本提示输入物体检测模型,通过所述物体检测模型对目标图像进行前景检测得到前景物体框体信息,包括:
确定同一前景语义类别对象对应的多个参考前景语义类别文本提示;
分别将所述参考多个前景语义类别文本提示输入物体检测模型,通过所述物体检测模型基于每个所述前景语义类别文本提示对目标图像进行前景检测得到所述前景语义类别文本提示对应的参考前景物体框体;
基于同一所述前景语义类别对象的所有所述前景语义类别文本提示对应的参考前景物体框体生成前景物体框体信息。
4.根据权利要求3所述的方法,其特征在于,所述基于同一所述前景语义类别对象的所有所述前景语义类别文本提示对应的参考前景物体框体生成前景物体框体信息,包括:
确定同一所述前景语义类别对象的所有所述前景语义类别文本提示对应的参考前景物体框体;
将同一所述前景语义类别对象的所有参考前景物体框体进行框体集成处理,得到前景物体框体信息。
5.根据权利要求1所述的方法,其特征在于,所述基于所述背景语义类别信息确定背景区域掩膜和背景区域热图,包括:
获取所述背景语义类别信息中至少一个背景语义类别对象对应的背景语义类别文本提示;
基于所述每个所述背景语义类别对象对应的背景语义类别文本提示采用全景分割模型对目标图像进行背景识别得到背景区域掩膜;
基于所述每个所述背景语义类别对象对应的背景语义类别文本提示采用分类网络模型对目标图像进行背景识别得到背景区域热图。
6.根据权利要求1所述的方法,其特征在于,所述基于所述背景区域掩膜和所述背景区域热图构建背景区域类别提示信息,包括:
获取所述背景区域掩膜的第一区域像素置信度信息,获取所述背景区域热图的第二区域像素置信度信息;
基于所述第一区域像素置信度信息和所述第二区域像素置信度信息和置信度阈值进行背景类别区域定位处理,得到目标背景类别区域,基于所述目标背景类别区域构建背景区域类别提示信息。
7.根据权利要求1所述的方法,其特征在于,所述获取预设的图像语义类别信息之前,还包括:
确定多个预设语义类别对象,针对每个所述预设语义类别对象分别创建语义类别文本提示;
将所有所述语义类别文本提示作为图像语义类别信息。
8.根据权利要求7所述的方法,其特征在于,所述针对每个所述预设语义类别对象分别创建语义类别文本提示,包括:
针对每个所述预设语义类别对象分别创建源语义类别文本提示;
对所述源语义类别文本提示进行语义提示扩展处理,得到针对所述预设语义类别对象的扩展语义类别文本提示;
将所述扩展语义类别文本提示和所述源语义类别文本提示作为所述预设语义类别对象的语义类别文本提示。
9.根据权利要求8所述的方法,其特征在于,所述对所述源语义类别文本提示进行语义提示扩展处理,得到针对所述预设语义类别对象的扩展语义类别文本提示,包括:
对所述源语义类别文本提示进行语义提示句子扩展,得到第一扩展语义类别文本提示;和/或,对所述源语义类别文本提示进行语义提示同义扩展,得到第二扩展语义类别文本提示;和/或,对所述源语义类别文本提示进行语义提示子类扩展,得到第三扩展语义类别文本提示;
基于所述第一扩展语义类别文本提示、所述第二扩展语义类别文本提示和所述第三扩展语义类别文本提示中的至少其一,确定针对所述预设语义类别对象的扩展语义类别文本提示。
10.根据权利要求7所述的方法,其特征在于,所述方法还包括:
接收针对标注类别物体掩膜的文本提示调整指令,响应于所述文本提示调整指令对目标语义类别文本提示进行文本提示调整,得到文本提示调整后的所述目标语义类别文本提示。
11.一种图像处理装置,其特征在于,所述装置包括:
信息获取模块,用于获取预设的图像语义类别信息,所述图像语义类别信息包括前景语义类别信息和背景语义类别信息;
前景处理模块,用于基于所述前景语义类别信息确定目标图像对应的前景物体框体信息,基于所述前景物体框体信息构建前景物体类别提示信息;
背景处理模块,用于基于所述背景语义类别信息确定背景区域掩膜和背景区域热图,基于所述背景区域掩膜和所述背景区域热图构建背景区域类别提示信息;
掩膜处理模块,用于基于所述前景物体类别提示信息和所述背景区域类别提示信息采用图像分割模型对所述目标图像进行类别图像分割标注处理,得到标注类别物体掩膜。
12.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~10任意一项的方法步骤。
13.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~10任意一项的方法步骤。
CN202311467579.8A 2023-11-06 2023-11-06 一种图像处理方法、装置、存储介质及电子设备 Pending CN117576388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311467579.8A CN117576388A (zh) 2023-11-06 2023-11-06 一种图像处理方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311467579.8A CN117576388A (zh) 2023-11-06 2023-11-06 一种图像处理方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN117576388A true CN117576388A (zh) 2024-02-20

Family

ID=89859822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311467579.8A Pending CN117576388A (zh) 2023-11-06 2023-11-06 一种图像处理方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117576388A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118038216A (zh) * 2024-04-10 2024-05-14 广州英码信息科技有限公司 一种边缘设备目标检测算法的自动升级方法及***
CN118038216B (zh) * 2024-04-10 2024-08-02 广州英码信息科技有限公司 一种边缘设备目标检测算法的自动升级方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118038216A (zh) * 2024-04-10 2024-05-14 广州英码信息科技有限公司 一种边缘设备目标检测算法的自动升级方法及***
CN118038216B (zh) * 2024-04-10 2024-08-02 广州英码信息科技有限公司 一种边缘设备目标检测算法的自动升级方法及***

Similar Documents

Publication Publication Date Title
CN109688463B (zh) 一种剪辑视频生成方法、装置、终端设备及存储介质
US20230035047A1 (en) Remote assistance method, device, storage medium, and terminal
CN112839223B (zh) 图像压缩方法、装置、存储介质及电子设备
CN111767554B (zh) 屏幕分享方法、装置、存储介质及电子设备
CN111399729A (zh) 图像的绘制方法、装置、可读介质和电子设备
CN111783508A (zh) 用于处理图像的方法和装置
CN113778419B (zh) 多媒体数据的生成方法、装置、可读介质及电子设备
CN110413347A (zh) 应用程序中广告的处理方法、装置、存储介质及终端
CN110930220A (zh) 一种显示方法、装置、终端设备及介质
WO2017000898A1 (zh) 软件图标显示方法和装置
CN111127469A (zh) 缩略图显示方法、装置、存储介质以及终端
CN111866372A (zh) 自拍方法、装置、存储介质以及终端
CN117555459A (zh) 一种应用组处理方法、装置、存储介质及电子设备
CN113378895B (zh) 一种分类模型生成方法、装置、存储介质及电子设备
CN113126859A (zh) 情景模式的控制方法、装置、存储介质以及终端
CN114489910B (zh) 一种视频会议数据显示方法、装置、设备及介质
CN111107264A (zh) 图像处理方法、装置、存储介质以及终端
CN113450762B (zh) 文字朗读方法、装置、终端及存储介质
CN112328339B (zh) 通知消息的显示方法、装置、存储介质及电子设备
CN115619904A (zh) 图像处理方法、装置及设备
CN117576388A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN114786069A (zh) 视频生成方法、装置、介质及电子设备
CN107800618B (zh) 图片推荐方法、装置、终端及计算机可读存储介质
CN113778386B (zh) 组件生成方法、装置、存储介质及电子设备
CN111562864B (zh) 显示图片方法、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination