CN116109732A - 图像标注方法、装置、处理设备及存储介质 - Google Patents
图像标注方法、装置、处理设备及存储介质 Download PDFInfo
- Publication number
- CN116109732A CN116109732A CN202310085834.6A CN202310085834A CN116109732A CN 116109732 A CN116109732 A CN 116109732A CN 202310085834 A CN202310085834 A CN 202310085834A CN 116109732 A CN116109732 A CN 116109732A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- preset
- features
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种图像标注方法、装置、处理设备及存储介质,涉及计算机技术领域。包括:采用预设图像编码模型,对待标注图像进行特征提取,得到待标注图像的图像特征;根据待标注图像的图像特征,从多个预设文本特征中确定图像特征匹配的目标文本特征,多个预设文本特征是采用预设文本编码模型对多个预设文本进行特征提取得到的,预设图像编码模型和预设文本编码模型是根据多个样本图文对数据共同训练得到的;根据目标文本特征对应的目标文本,对待标注图像进行标注。基于待标注图像的图像特征确定出相匹配的目标文本特征,继而基于目标文本特征对应的目标文本便可对待标注图像进行标注,即实现了对于美术资源的直接标注,提升了用户体验。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种图像标注方法、装置、处理设备及存储介质。
背景技术
随着互联网技术的快速发展,电子设备上各种各样的美术资源也越来越多,各种各样的美术资源可以保存在美术资源及协作管理***,为了实现美术资源的有效管理,对于美术资源的标注也成为研究的热点。
相关技术中,美术资源中的图像类型丰富,可以包括游戏中的模型图像、原画、视频等图像资源,对美术资源进行标注时,获取用于描述美术资源的文本数据以及文本数据对应的标签集合,采用训练好的模型根据文本数据以及对应的标签集合确定文本数据对应的标签,对美术资源的文本数据进行标注。
但是,相关技术中,采用训练好的模型仅可基于美术资源的文本数据进行标注,无法直接对美术资源进行标注,降低了用户体验。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种图像标注方法、装置、处理设备及存储介质,以便解决相关技术中需要工作人员人工进行标注,标注效率较低,还浪费了不必要的人力资源的问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种图像标注方法,包括:
采用预设图像编码模型,对待标注图像进行特征提取,得到所述待标注图像的图像特征;
根据所述待标注图像的图像特征,从多个预设文本特征中确定所述图像特征匹配的目标文本特征,所述多个预设文本特征是采用预设文本编码模型对多个预设文本进行特征提取得到的,所述预设图像编码模型和所述预设文本编码模型是根据多个样本图文对数据共同训练得到的;
根据所述目标文本特征对应的目标文本,对所述待标注图像进行标注。
第二方面,本申请实施例还提供了一种图像标注装置,包括:
特征提取模块,用于采用预设图像编码模型,对待标注图像进行特征提取,得到所述待标注图像的图像特征;
确定模块,用于根据所述待标注图像的图像特征,从多个预设文本特征中确定所述图像特征匹配的目标文本特征,所述多个预设文本特征是采用预设文本编码模型对多个预设文本进行特征提取得到的,所述预设图像编码模型和所述预设文本编码模型是根据多个样本图文对数据共同训练得到的;
标注模块,用于根据所述目标文本特征对应的目标文本,对所述待标注图像进行标注。
第三方面,本申请实施例还提供了一种处理设备,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的图像标注方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述第一方面任一项所述的图像标注方法。
本申请的有益效果是:本申请实施例提供一种图像标注方法,包括:采用预设图像编码模型,对待标注图像进行特征提取,得到待标注图像的图像特征;根据待标注图像的图像特征,从多个预设文本特征中确定图像特征匹配的目标文本特征,多个预设文本特征是采用预设文本编码模型对多个预设文本进行特征提取得到的,预设图像编码模型和预设文本编码模型是根据多个样本图文对数据共同训练得到的;根据目标文本特征对应的目标文本,对待标注图像进行标注。预设图像编码模型和预设文本编码模型是根据多个样本图文对数据是共同训练得到的,使得预设图像编码模型对待标注图像提取的图像特征,和预设文本编码模型对多个预设文本提取的多个预设文本特征之间可以进行匹配;基于待标注图像的图像特征从多个预设文本特征中确定出相匹配的目标文本特征,继而基于目标文本特征对应的目标文本便可对待标注图像进行标注,整个过程无需依赖待标注图像的文本描述数据,基于图像特征确定出目标文本特征实现标注,实现了对直接美术资源进行直接标注,提升了用户体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种图像标注方法的流程示意图;
图2为本申请实施例提供的一种图像标注方法的流程示意图;
图3为本申请实施例提供的一种图像标注方法的流程示意图;
图4为本申请实施例提供的一种图像标注方法的流程示意图;
图5为本申请实施例提供的一种图像标注方法的流程示意图;
图6为本申请实施例提供的一种图像标注方法的流程示意图;
图7为本申请实施例提供的一种图像标注方法的流程示意图;
图8为本申请实施例提供的一种图像标注装置的结构示意图;
图9为本申请实施例提供的一种处理设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要说明的是,若出现术语“上”、“下”、等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
相关技术中,美术资源中的图像类型丰富,可以包括游戏中的模型图像、原画、视频等图像资源,对美术资源进行标注时,获取用于描述美术资源的文本数据以及文本数据对应的标签集合,采用训练好的模型根据文本数据以及对应的标签集合确定文本数据对应的标签,对美术资源的文本数据进行标注。但是,相关技术中,采用训练好的模型仅可基于美术资源的文本数据进行标注,无法直接对美术资源进行标注,降低了用户体验。
针对相关技术中所存在的上述技术问题,本申请实施例提供一种图像标注方法,预设图像编码模型和预设文本编码模型是根据多个样本图文对数据是共同训练得到的,使得预设图像编码模型对待标注图像提取的图像特征,和预设文本编码模型对多个预设文本提取的多个预设文本特征之间可以进行匹配,基于待标注图像的图像特征从多个预设文本特征中确定出相匹配的目标文本特征,继而基于目标文本特征对应的目标文本便可对待标注图像进行标注,整个过程无需依赖待标注图像的文本描述数据,基于图像特征确定出目标文本特征实现标注,即实现了对于美术资源的直接标注,提升了用户体验。
以下对本申请实施例提供的一种图像标注方法进行解释说明。本申请实施例提供的一种图像标注方法,应用于处理设备,该处理设备可以为终端或者服务器,若处理设备为终端,则该终端可以为下述中的任一项:台式电脑、笔记本电脑、平板电脑、智能手机等等。
图1为本申请实施例提供的一种图像标注方法的流程示意图,如图1所示,该方法可以包括:
S101、采用预设图像编码模型,对待标注图像进行特征提取,得到待标注图像的图像特征。
其中,待标注图像数量可以为至少一个,若待标注图像的数量为多个,则通过预设图像编码模型,采用依次提取的方式或者同时提取的方式,对多个待标注图像进行特征提取,得到每个待标注图像的图像特征。
需要说明的是,待标注图像可以为游戏中的模型图像,也可以为原画,还可以为其它类型的美术资源,本申请实施例对此不进行具体限制。
另外,待标注图像可以理解为需要进行标注的图像,为待标注图像进行标注,使得待标注图像可以具有对应的文本解释,示例的,具有天空的图像,对应的标注可以为“天空”。
S102、根据待标注图像的图像特征,从多个预设文本特征中确定图像特征匹配的目标文本特征。
其中,多个预设文本特征是采用预设文本编码模型对多个预设文本进行特征提取得到的,预设图像编码模型和预设文本编码模型是根据多个样本图文对数据共同训练得到的。
在一些实施方式中,对据待标注图像的图像特征和多个预设文本特征中的每个预设文本特征分别进行相似度计算,将相似度较高的预设文本特征作为目标文本特征。
需要说明的是,样本图文对中包括:多个样本图像以及每个样本图像对应的样本文本。样本文本用于表征对应的样本图像含义,预设图像编码模型和预设文本编码模型是根据多个样本图文对数据共同训练得到的,所以,预设图像编码模型和预设文本编码模型均可以学习到图像与文本之间的关联关系。
另外,由于预设图像编码模型和预设文本编码模型均可以学习到图像与文本之间的关联关系,因此,可以对预设图像编码模型所提取的图像特征,和预设文本编码模型所提取的预设文本特征之间进行匹配,从多个预设文本特征中确定出图像特征匹配的目标文本特征。
S103、根据目标文本特征对应的目标文本,对待标注图像进行标注。
其中,目标文本特征,是由预设文本编码模型对目标文本进行特征提取得到的。
在本申请实施例中,确定目标文本特征对应的目标文本,将目标文本特征对应的目标文本,作为待标注图像的标注信息,实现对于待标注图像进行标注。
需要说明的是,目标文本可以为汉字字符,也可以为英文字符,还可以其他类型的字符,本申请实施例对此不进行具体限制。
综上所述,本申请实施例提供一种图像标注方法,包括:采用预设图像编码模型,对待标注图像进行特征提取,得到待标注图像的图像特征;根据待标注图像的图像特征,从多个预设文本特征中确定图像特征匹配的目标文本特征,多个预设文本特征是采用预设文本编码模型对多个预设文本进行特征提取得到的,预设图像编码模型和预设文本编码模型是根据多个样本图文对数据共同训练得到的;根据目标文本特征对应的目标文本,对待标注图像进行标注。预设图像编码模型和预设文本编码模型是根据多个样本图文对数据是共同训练得到的,使得预设图像编码模型对待标注图像提取的图像特征,和预设文本编码模型对多个预设文本提取的多个预设文本特征之间可以进行匹配,基于待标注图像的图像特征从多个预设文本特征中确定出相匹配的目标文本特征,继而基于目标文本特征对应的目标文本便可对待标注图像进行标注,整个过程无需依赖待标注图像的文本描述数据,基于图像特征确定出目标文本特征实现标注,即实现了对于美术资源的直接标注,提升了用户体验。
可选的,图2为本申请实施例提供的一种图像标注方法的流程示意图,如图2所示,上述S102中在根据待标注图像的图像特征,从多个预设文本特征中确定与图像特征匹配的目标文本特征的过程之前,该方法可以包括:
S201、获取多个初始文本。
其中,多个初始文本可以为多个句子。
在实际应用中,可以从互联网上下载多个初始文本,也可以从预设数据库中获取多个初始文本,还可以采用其它方式获取多个初始文本,本申请实施例对此不进行具体限制。
S202、对多个初始文本进行分析统计,得到多个预设文本。
在本申请实施例中,可以对多个初始文本同时进行分析和统计,得到多个预设文本,可以提高获取多个预设文本的效率,其中,多个预设文本均可以为词。当然,还可以根据实际需求,依次多个预设文本依次进行分析统计,本申请实施例对此不进行具体限制。
S203、采用预设文本编码模型,分别对多个预设文本进行特征提取处理,得到每个预设文本对应的预设文本特征。
其中,多个预设文本中包括:目标文本。
需要说明的是,可以将多个预设文本输入预设文本编码模型中,预设文本编码模型可以分别对多个预设文本进行特征提取处理,预设文本编码模型可以输出每个预设文本对应的预设文本特征。
可选的,图3为本申请实施例提供的一种图像标注方法的流程示意图,如图3所示,上述S202中对多个初始文本进行分析统计,得到多个预设文本的过程,可以包括:
S301、对多个初始文本进行分词处理,并对语义相近的词进行合并,得到多个合并后的词。
S302、根据每个合并后的词的词频,对多个合并后的词进行排序,得到排序结果。
在一些实施方式中,多个初始文本为多个句子,多个句子进行分词处理,将多个句子分成多个带有词性的词;对每个词进行词频统计,得到每个词出现的频率;对每个词进行词性分析,识别出每个词的词性,示例的,可以识别出名词或者动词;对语义的词进行合并,得到合并后的词。
在对语义相近的词进行合并时,示例的,可以对“夜晚”和“晚上”合并,对“早晨”和“早上”合并,对“水杯”和“杯子”合并等等。
S303、根据排序结果,从多个合并后的词中确定多个预设文本。
其中,每个预设文本为一个名词。
在本申请实施例中,根据每个合并后的词的词频,对多个合并后的词中的名词进行排序,得到排序结果,根据排序结果,从多个合并后的词中的名词中,选择第一预设数量个高词频的名词,作为多个预设文本。
另外,多个预设文本可以存储在标签库中,可选的,标签库中预设文本的数量可以为十万个。
可选的,上述S201中获取多个初始文本的过程,可以包括:
将样本图文对数据中的样本文本,作为多个初始文本。
其中,样本图文对数据包括:多个样本图像以及每个样本图像对应的样本文本。对样本图文对数据中的样本文本进行提取,并将样本文本作为多个初始文本。
可选的,图4为本申请实施例提供的一种图像标注方法的流程示意图,如图4所示,本申请实施例中的预设图像编码模型和预设文本编码模型通过如下方式得到:
S401、获取样本图文对数据。
其中,样本图文对数据可以包括:多个样本图像以及每个样本图像对应的样本文本。
需要说明的是,样本文本是对对应的样本图像的文字说明,示例的,样本图像a中包括彩虹,则该样本图像a对应的样本文本a可以为“彩虹”;样本图像b中包括虚拟武器,则该样本图像b对应的样本文本b可以为“虚拟武器”。
在本申请实施例中,可以从互联网上下载样本图文对数据,也可以从预设数据库中获取样本图文对数据,还可以采用其它方式获取样本图文对数据,本申请实施例对此不进行具体限制。
S402、根据样本图文对数据对初始图像编码模型以及初始文本编码模型进行训练,得到预设图像编码模型和预设文本编码模型。
其中,初始图像编码模型以及初始文本编码模型可以为双塔结构的模型。根据样本图文对数据对初始图像编码模型以及初始文本编码模型进行共同训练,得到预设图像编码模型和预设文本编码模型,使得预设图像编码模型和预设文本编码模型均可以学习到图像和文本之间的关联关系。
可选的,初始图像编码模型可以为VIT(Vision Transformer,视觉自注意力)模型,初始文本编码模型可以为单向的gpt2(Generative Pre-Training,生成性预训练)模型。
可选的,图5为本申请实施例提供的一种图像标注方法的流程示意图,如图5所示,上述S402中根据样本图文对数据对初始图像编码模型以及初始文本编码模型进行训练,得到预设图像编码模型和预设文本编码模型的过程,可以包括:
S501、采用初始图像编码模型中的视觉编码网络,对样本图文对数据中的多个样本图像进行特征提取处理,得到多个样本图像的样本图像特征。
其中,将多个样本图像中输入初始图像编码模型中的视觉编码网络,初始图像编码模型中的视觉编码网络可以对多个样本图像进行特征提取处理,初始图像编码模型中的视觉编码网络可以输出多个样本图像的样本图像特征。
S502、采用初始文本编码模型中的文本编码网络,对样本图文对数据中每个样本图像对应的样本文本进行特征提取处理,得到多个样本文本的样本文本特征。
其中,将每个样本图像对应的样本文本即多个样本文本,输入初始文本编码模型中的文本编码网络,初始文本编码模型中的文本编码网络对多个样本文本进行特征提取处理,初始文本编码模型中的文本编码网络可以输出多个样本文本的样本文本特征。
在本申请实施例中,初始图像编码模型和初始文本编码模型中的网络是不同的。
S503、计算多个样本图像的样本图像特征和多个样本文本的样本文本特征之间的损失函数值,并根据损失函数值更新初始图像编码模型的参数以及初始文本编码模型的参数,直至损失函数值满足预设条件,得到预设图像编码模型和预设文本编码模型。
其中,损失可以进行反向传播,更新梯度。
在一些实施方式中,采用对比学习损失函数,计算多个样本图像的样本图像特征和多个样本文本的样本文本特征之间的损失函数值,并根据损失函数值更新初始图像编码模型的权重以及初始文本编码模型的权重,直至新获取的损失函数值收敛,得到预设图像编码模型和预设文本编码模型。
可选的,图6为本申请实施例提供的一种图像标注方法的流程示意图,如图6所示,上述S503中计算多个样本图像的样本图像特征和多个样本文本的样本文本特征之间的损失函数值的过程,可以包括:
S601、分别对多个样本图像的样本图像特征,以及多个样本文本的样本文本特征进行归一化处理,得到多个处理后的样本图像特征和多个处理后的样本文本特征。
需要说明的是,对多个样本图像的样本图像特征和对多个样本文本的样本文本特征进行归一化处理的先后顺序,本申请实施例不进行具体限制,当然,也可以同时进行归一化处理。
S602、对多个处理后的样本图像特征和多个处理后的样本文本特征进行点乘处理,得到多个相似度结果。
在一些实施方式中,对每个处理后的样本图像特征,和多个处理后的样本文本特征分别进行点乘处理;对每个处理后的样本文本特征,和多个处理后的样本图像特征分别进行点乘处理,得到相似度结果。
示例的,样本图文对数据可以包括:样本图像a,以及样本图像a对应的样本文本x;样本图像b,以及样本图像b对应的样本文本y;样本图像c,以及样本图像c对应的样本文本z。其中,针对a、x的点乘,可以对分别a和x点乘、对a和y点乘、对a和z点乘,对x和a点乘,对x和b点乘,对x和c点乘。同理的,针对b、y的点乘,以及针对c、z的点乘与上述类似,次数不再赘述。
其中,每一个点乘结果为一个相似度结果。
S603、采用对比学习损失函数,根据多个相似度结果计算损失。
在本申请实施例中,采用对比学习损失,根据多个相似度结果计算损失,即同一样本图文对数据,该样本图文对数据中样本图像特征和样本文本特征相似度越高越好;不同样本图文对数据,样本图像特征和样本文本特征相似度越低越好,采用这个原则来指导双塔结构模型的训练,更新两个模型的权重,当损失函数值收敛后,得到预设图像编码模型和预设文本编码模型。
示例的,样本图像a,以及样本图像a对应的样本文本x;样本图像b,以及样本图像b对应的样本文本y;样本图像c,以及样本图像c对应的样本文本z。则a与x的相似度越高越好,另外,a和y、a和z,x和b,x和c的相似度越低越好。
在本申请实施例中,采用预设文本编码模型分别对多个预设文本进行特征提取处理,得到多个预设文本特征,每个预设文本特征可以为文本表征向量,每个文本表征向量的长度可以为768,多个预设文本和多个预设文本特征可以对应存储。
另外,采用预设图像编码模型对待标注图像进行特征提取处理,得到待标注图像的图像特征,该图像特征可以为图像表征向量,每个图像表征向量的长度也可以为768。
可选的,图7为本申请实施例提供的一种图像标注方法的流程示意图,如图7所示,上述S102中根据待标注图像的图像特征,从多个预设文本特征中确定与图像特征匹配的目标文本特征的过程,可以包括:
S701、分别对图像特征和每个预设文本特征进行点乘,得到图像特征与每个预设文本特征之间的相似度。
在一些实施方式中,分别对图像特征和多个预设文本特征中的每个预设文本特征进行点乘,得到图像特征与每个预设文本特征之间的相似度,即针对图像特征,每个预设文本特征均具有对应的相似度。
其中,相似度也可以称为相似度分数,每个相似度分数的分值可以为0到1之间。
S702、根据相似度,从多个预设文本特征中确定目标文本特征。
在本申请实施例中,对每个预设文本特征对应的相似度进行排序,得到排序结果,其中,可以由大到小进行排序,也可以由小到大进行排序,本申请实施例对此不进行具体限制。
值得说明的是,根据相似度的排序结果,确定相似度高的第二预设数量个目标文本特征。示例的,预设文本的数量可以为十万个,预设文本特征的数量也可以为十万个,每个预设文本特征都计算得到一个相似度分数(0-1之间),对相似度分数从大到小进行排序,选取N个,例如N=10,前这10预设文本特征可以为目标文本特征,这些目标文本特征对应预设文本为目标文本。
综上所述,本申请实施例提供一种图像标注方法,包括:采用预设图像编码模型,对待标注图像进行特征提取,得到待标注图像的图像特征;根据待标注图像的图像特征,从多个预设文本特征中确定图像特征匹配的目标文本特征,多个预设文本特征是采用预设文本编码模型对多个预设文本进行特征提取得到的,预设图像编码模型和预设文本编码模型是根据多个样本图文对数据共同训练得到的;根据目标文本特征对应的目标文本,对待标注图像进行标注。预设图像编码模型和预设文本编码模型是根据多个样本图文对数据是共同训练得到的,使得预设图像编码模型对待标注图像提取的图像特征,和预设文本编码模型对多个预设文本提取的多个预设文本特征之间可以进行匹配;基于待标注图像的图像特征从多个预设文本特征中确定出相匹配的目标文本特征,继而基于目标文本特征对应的目标文本便可对待标注图像进行标注,整个过程无需依赖待标注图像的文本描述数据,基于图像特征确定出目标文本特征实现标注,实现了对美术资源进行直接标注,提升了用户体验。
下述对用以执行本申请所提供的图像标注方法的图像标注装置、处理设备及存储介质等进行说明,其具体的实现过程以及技术效果参见上述图像标注方法的相关内容,下述不再赘述。
图8为本申请实施例提供的一种图像标注装置的结构示意图,如图8所示,该装置可以包括:
特征提取模块801,用于采用预设图像编码模型,对待标注图像进行特征提取,得到所述待标注图像的图像特征;
确定模块802,用于根据所述待标注图像的图像特征,从多个预设文本特征中确定所述图像特征匹配的目标文本特征,所述多个预设文本特征是采用预设文本编码模型对多个预设文本进行特征提取得到的,所述预设图像编码模型和所述预设文本编码模型是根据多个样本图文对数据共同训练得到的;
标注模块803,用于根据所述目标文本特征对应的目标文本,对所述待标注图像进行标注。
可选的,所述装置还包括:
第一获取模块,用于获取多个初始文本;
分析统计模块,用于对所述多个初始文本进行分析统计,得到多个预设文本;
第一特征提取模块,用于采用所述预设文本编码模型,分别对所述多个预设文本进行特征提取处理,得到每个预设文本对应的预设文本特征。
可选的,所述分析统计模块,具体用于对所述多个初始文本进行分词处理,并对语义相近的词进行合并,得到多个合并后的词;根据每个合并后的词的词频,对所述多个合并后的词进行排序,得到排序结果;根据所述排序结果,从所述多个合并后的词中确定所述多个预设文本,其中,每个预设文本为一个名词。
可选的,所述预设图像编码模型和所述预设文本编码模型通过如下方式得到:获取所述样本图文对数据,所述样本图文对数据包括:多个样本图像以及每个样本图像对应的样本文本;根据所述样本图文对数据对初始图像编码模型以及初始文本编码模型进行训练,得到所述预设图像编码模型和所述预设文本编码模型。
可选的,所述训练模块,具体用于采用所述初始图像编码模型中的视觉编码网络,对所述样本图文对数据中的所述多个样本图像进行特征提取处理,得到所述多个样本图像的样本图像特征;采用所述初始文本编码模型中的文本编码网络,对所述样本图文对数据中所述每个样本图像对应的样本文本进行特征提取处理,得到多个样本文本的样本文本特征;计算所述多个样本图像的样本图像特征和所述多个样本文本的样本文本特征之间的损失函数值,并根据所述损失函数值更新所述初始图像编码模型的参数以及初始文本编码模型的参数,直至所述损失函数值满足预设条件,得到所述预设图像编码模型和所述预设文本编码模型。
可选的,所述训练模块,具体用于分别对所述多个样本图像的样本图像特征,以及所述多个样本文本的样本文本特征进行归一化处理,得到多个处理后的样本图像特征和多个处理后的样本文本特征;对所述多个处理后的样本图像特征和多个处理后的样本文本特征进行点乘处理,得到多个相似度结果;采用对比学习损失函数,根据所述多个相似度结果计算所述损失函数值。
可选的,所述第一获取模块,具体用于将所述样本图文对数据中的样本文本,作为所述多个初始文本。
可选的,所述确定模块802,具体用于分别对所述图像特征和每个预设文本特征进行点乘,得到所述图像特征与所述每个预设文本特征之间的相似度;根据所述相似度,从所述多个预设文本特征中确定所述目标文本特征。
上述装置用于执行前述实施例提供的装置,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上装置的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,简称SOC)的形式实现。
图9为本申请实施例提供的一种处理设备的结构示意图,如图9所示,该处理设备可以包括:处理器901、存储器902。其中,存储器902用于存储程序,处理器901调用存储器902存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
示例的,该方法可以包括:
采用预设图像编码模型,对待标注图像进行特征提取,得到所述待标注图像的图像特征;
根据所述待标注图像的图像特征,从多个预设文本特征中确定所述图像特征匹配的目标文本特征,所述多个预设文本特征是采用预设文本编码模型对多个预设文本进行特征提取得到的,所述预设图像编码模型和所述预设文本编码模型是根据多个样本图文对数据共同训练得到的;
根据所述目标文本特征对应的目标文本,对所述待标注图像进行标注。
可选的,在所述根据所述待标注图像的图像特征,从多个预设文本特征中确定与所述图像特征匹配的目标文本特征之前,所述方法包括:
获取多个初始文本;
对所述多个初始文本进行分析统计,得到多个预设文本;
采用所述预设文本编码模型,分别对所述多个预设文本进行特征提取处理,得到每个预设文本对应的预设文本特征。
可选的,所述对所述多个初始文本进行分析统计,得到多个预设文本,包括:
对所述多个初始文本进行分词处理,并对语义相近的词进行合并,得到多个合并后的词;
根据每个合并后的词的词频,对所述多个合并后的词进行排序,得到排序结果;
根据所述排序结果,从所述多个合并后的词中确定所述多个预设文本,其中,每个预设文本为一个名词。
可选的,所述预设图像编码模型和所述预设文本编码模型通过如下方式得到:
获取所述样本图文对数据,所述样本图文对数据包括:多个样本图像以及每个样本图像对应的样本文本;
根据所述样本图文对数据对初始图像编码模型以及初始文本编码模型进行训练,得到所述预设图像编码模型和所述预设文本编码模型。
可选的,所述根据所述样本图文对数据对初始图像编码模型以及初始文本编码模型进行训练,得到所述预设图像编码模型和所述预设文本编码模型,包括:
采用所述初始图像编码模型中的视觉编码网络,对所述样本图文对数据中的所述多个样本图像进行特征提取处理,得到所述多个样本图像的样本图像特征;
采用所述初始文本编码模型中的文本编码网络,对所述样本图文对数据中所述每个样本图像对应的样本文本进行特征提取处理,得到多个样本文本的样本文本特征;
计算所述多个样本图像的样本图像特征和所述多个样本文本的样本文本特征之间的损失函数值,并根据所述损失函数值更新所述初始图像编码模型的参数以及初始文本编码模型的参数,直至所述损失函数值满足预设条件,得到所述预设图像编码模型和所述预设文本编码模型。
可选的,所述计算所述多个样本图像的样本图像特征和所述多个样本文本的样本文本特征之间的损失函数值,包括:
分别对所述多个样本图像的样本图像特征,以及所述多个样本文本的样本文本特征进行归一化处理,得到多个处理后的样本图像特征和多个处理后的样本文本特征;
对所述多个处理后的样本图像特征和多个处理后的样本文本特征进行点乘处理,得到多个相似度结果;
采用对比学习损失函数,根据所述多个相似度结果计算所述损失。
可选的,所述获取多个初始文本,包括:
将所述样本图文对数据中的样本文本,作为所述多个初始文本。
可选的,所述根据所述待标注图像的图像特征,从多个预设文本特征中确定与所述图像特征匹配的目标文本特征,包括:
分别对所述图像特征和每个预设文本特征进行点乘,得到所述图像特征与所述每个预设文本特征之间的相似度;
根据所述相似度,从所述多个预设文本特征中确定所述目标文本特征。
综上所述,预设图像编码模型和预设文本编码模型是根据多个样本图文对数据是共同训练得到的,使得预设图像编码模型对待标注图像提取的图像特征,和预设文本编码模型对多个预设文本提取的多个预设文本特征之间可以进行匹配;基于待标注图像的图像特征从多个预设文本特征中确定出相匹配的目标文本特征,继而基于目标文本特征对应的目标文本便可对待标注图像进行标注,整个过程无需依赖待标注图像的文本描述数据,基于图像特征确定出的目标文本特征实现标注,即实现了对于美术资源的直接标注,提升了用户体验。
可选地,本申请还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
示例的,该方法可以包括:
采用预设图像编码模型,对待标注图像进行特征提取,得到所述待标注图像的图像特征;
根据所述待标注图像的图像特征,从多个预设文本特征中确定所述图像特征匹配的目标文本特征,所述多个预设文本特征是采用预设文本编码模型对多个预设文本进行特征提取得到的,所述预设图像编码模型和所述预设文本编码模型是根据多个样本图文对数据共同训练得到的;
根据所述目标文本特征对应的目标文本,对所述待标注图像进行标注。
可选的,在所述根据所述待标注图像的图像特征,从多个预设文本特征中确定与所述图像特征匹配的目标文本特征之前,所述方法包括:
获取多个初始文本;
对所述多个初始文本进行分析统计,得到多个预设文本;
采用所述预设文本编码模型,分别对所述多个预设文本进行特征提取处理,得到每个预设文本对应的预设文本特征。
可选的,所述对所述多个初始文本进行分析统计,得到多个预设文本,包括:
对所述多个初始文本进行分词处理,并对语义相近的词进行合并,得到多个合并后的词;
根据每个合并后的词的词频,对所述多个合并后的词进行排序,得到排序结果;
根据所述排序结果,从所述多个合并后的词中确定所述多个预设文本,其中,每个预设文本为一个名词。
可选的,所述预设图像编码模型和所述预设文本编码模型通过如下方式得到:
获取所述样本图文对数据,所述样本图文对数据包括:多个样本图像以及每个样本图像对应的样本文本;
根据所述样本图文对数据对初始图像编码模型以及初始文本编码模型进行训练,得到所述预设图像编码模型和所述预设文本编码模型。
可选的,所述根据所述样本图文对数据对初始图像编码模型以及初始文本编码模型进行训练,得到所述预设图像编码模型和所述预设文本编码模型,包括:
采用所述初始图像编码模型中的视觉编码网络,对所述样本图文对数据中的所述多个样本图像进行特征提取处理,得到所述多个样本图像的样本图像特征;
采用所述初始文本编码模型中的文本编码网络,对所述样本图文对数据中所述每个样本图像对应的样本文本进行特征提取处理,得到多个样本文本的样本文本特征;
计算所述多个样本图像的样本图像特征和所述多个样本文本的样本文本特征之间的损失函数值,并根据所述损失函数值更新所述初始图像编码模型的参数以及初始文本编码模型的参数,直至所述损失函数值满足预设条件,得到所述预设图像编码模型和所述预设文本编码模型。
可选的,所述计算所述多个样本图像的样本图像特征和所述多个样本文本的样本文本特征之间的损失函数值,包括:
分别对所述多个样本图像的样本图像特征,以及所述多个样本文本的样本文本特征进行归一化处理,得到多个处理后的样本图像特征和多个处理后的样本文本特征;
对所述多个处理后的样本图像特征和多个处理后的样本文本特征进行点乘处理,得到多个相似度结果;
采用对比学习损失函数,根据所述多个相似度结果计算所述损失。
可选的,所述获取多个初始文本,包括:
将所述样本图文对数据中的样本文本,作为所述多个初始文本。
可选的,所述根据所述待标注图像的图像特征,从多个预设文本特征中确定与所述图像特征匹配的目标文本特征,包括:
分别对所述图像特征和每个预设文本特征进行点乘,得到所述图像特征与所述每个预设文本特征之间的相似度;
根据所述相似度,从所述多个预设文本特征中确定所述目标文本特征。
综上所述,预设图像编码模型和预设文本编码模型是根据多个样本图文对数据是共同训练得到的,使得预设图像编码模型对待标注图像提取的图像特征,和预设文本编码模型对多个预设文本提取的多个预设文本特征之间可以进行匹配;基于待标注图像的图像特征从多个预设文本特征中确定出相匹配的目标文本特征,继而基于目标文本特征对应的目标文本便可对待标注图像进行标注,整个过程无需依赖待标注图像的文本描述数据,基于图像特征确定出的目标文本特征实现标注,即实现了对于美术资源的直接标注,提升了用户体验。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种图像标注方法,其特征在于,包括:
采用预设图像编码模型,对待标注图像进行特征提取,得到所述待标注图像的图像特征;
根据所述待标注图像的图像特征,从多个预设文本特征中确定所述图像特征匹配的目标文本特征,所述多个预设文本特征是采用预设文本编码模型对多个预设文本进行特征提取得到的,所述预设图像编码模型和所述预设文本编码模型是根据多个样本图文对数据共同训练得到的;
根据所述目标文本特征对应的目标文本,对所述待标注图像进行标注。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述待标注图像的图像特征,从多个预设文本特征中确定与所述图像特征匹配的目标文本特征之前,所述方法包括:
获取多个初始文本;
对所述多个初始文本进行分析统计,得到多个预设文本;
采用所述预设文本编码模型,分别对所述多个预设文本进行特征提取处理,得到每个预设文本对应的预设文本特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述多个初始文本进行分析统计,得到多个预设文本,包括:
对所述多个初始文本进行分词处理,并对语义相近的词进行合并,得到多个合并后的词;
根据每个合并后的词的词频,对所述多个合并后的词进行排序,得到排序结果;
根据所述排序结果,从所述多个合并后的词中确定所述多个预设文本。
4.根据权利要求1所述的方法,其特征在于,所述预设图像编码模型和所述预设文本编码模型通过如下方式得到:
获取所述样本图文对数据,所述样本图文对数据包括:多个样本图像以及每个样本图像对应的样本文本;
根据所述样本图文对数据对初始图像编码模型以及初始文本编码模型进行训练,得到所述预设图像编码模型和所述预设文本编码模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述样本图文对数据对初始图像编码模型以及初始文本编码模型进行训练,得到所述预设图像编码模型和所述预设文本编码模型,包括:
采用所述初始图像编码模型中的视觉编码网络,对所述样本图文对数据中的所述多个样本图像进行特征提取处理,得到所述多个样本图像的样本图像特征;
采用所述初始文本编码模型中的文本编码网络,对所述样本图文对数据中所述每个样本图像对应的样本文本进行特征提取处理,得到多个样本文本的样本文本特征;
计算所述多个样本图像的样本图像特征和所述多个样本文本的样本文本特征之间的损失函数值,并根据所述损失函数值更新所述初始图像编码模型的参数以及初始文本编码模型的参数,直至所述损失函数值满足预设条件,得到所述预设图像编码模型和所述预设文本编码模型。
6.根据权利要求5所述的方法,其特征在于,所述计算所述多个样本图像的样本图像特征和所述多个样本文本的样本文本特征之间的损失函数值,包括:
分别对所述多个样本图像的样本图像特征,以及所述多个样本文本的样本文本特征进行归一化处理,得到多个处理后的样本图像特征和多个处理后的样本文本特征;
对所述多个处理后的样本图像特征和多个处理后的样本文本特征进行点乘处理,得到多个相似度结果;
采用对比学习损失函数,根据所述多个相似度结果计算所述损失。
7.根据权利要求2所述的方法,其特征在于,所述获取多个初始文本,包括:
将所述样本图文对数据中的样本文本,作为所述多个初始文本。
8.根据权利要求1所述的方法,其特征在于,所述根据所述待标注图像的图像特征,从多个预设文本特征中确定与所述图像特征匹配的目标文本特征,包括:
分别对所述图像特征和每个预设文本特征进行点乘,得到所述图像特征与所述每个预设文本特征之间的相似度;
根据所述相似度,从所述多个预设文本特征中确定所述目标文本特征。
9.一种图像标注装置,其特征在于,包括:
特征提取模块,用于采用预设图像编码模型,对待标注图像进行特征提取,得到所述待标注图像的图像特征;
确定模块,用于根据所述待标注图像的图像特征,从多个预设文本特征中确定所述图像特征匹配的目标文本特征,所述多个预设文本特征是采用预设文本编码模型对多个预设文本进行特征提取得到的,所述预设图像编码模型和所述预设文本编码模型是根据多个样本图文对数据共同训练得到的;
标注模块,用于根据所述目标文本特征对应的目标文本,对所述待标注图像进行标注。
10.一种处理设备,其特征在于,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1-8任一项所述的图像标注方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述权利要求1-8任一项所述的图像标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310085834.6A CN116109732A (zh) | 2023-01-12 | 2023-01-12 | 图像标注方法、装置、处理设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310085834.6A CN116109732A (zh) | 2023-01-12 | 2023-01-12 | 图像标注方法、装置、处理设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116109732A true CN116109732A (zh) | 2023-05-12 |
Family
ID=86261228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310085834.6A Pending CN116109732A (zh) | 2023-01-12 | 2023-01-12 | 图像标注方法、装置、处理设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116109732A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076711A (zh) * | 2023-10-12 | 2023-11-17 | 北京汇通天下物联科技有限公司 | 驾驶行为识别模型的训练方法、识别方法、装置及设备 |
CN117115306A (zh) * | 2023-08-30 | 2023-11-24 | 苏州畅行智驾汽车科技有限公司 | 一种图像生成方法、装置、电子设备及存储介质 |
-
2023
- 2023-01-12 CN CN202310085834.6A patent/CN116109732A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115306A (zh) * | 2023-08-30 | 2023-11-24 | 苏州畅行智驾汽车科技有限公司 | 一种图像生成方法、装置、电子设备及存储介质 |
CN117076711A (zh) * | 2023-10-12 | 2023-11-17 | 北京汇通天下物联科技有限公司 | 驾驶行为识别模型的训练方法、识别方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | The gap of semantic parsing: A survey on automatic math word problem solvers | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN110837579A (zh) | 视频分类方法、装置、计算机以及可读存储介质 | |
CN110705206B (zh) | 一种文本信息的处理方法及相关装置 | |
CN116109732A (zh) | 图像标注方法、装置、处理设备及存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN107679070B (zh) | 一种智能阅读推荐方法与装置、电子设备 | |
CN110895559A (zh) | 模型训练、文本处理方法、装置以及设备 | |
CN110569354A (zh) | 弹幕情感分析方法及装置 | |
CN110717040A (zh) | 词典扩充方法及装置、电子设备、存储介质 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN113407814A (zh) | 文本搜索方法、装置、可读介质及电子设备 | |
CN110659392B (zh) | 检索方法及装置、存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN115759293A (zh) | 模型训练方法、图像检索方法、装置及电子设备 | |
CN110991183A (zh) | 问题的谓词确定方法、装置、设备及存储介质 | |
CN114281984A (zh) | 一种风险检测方法、装置、设备及计算机可读存储介质 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN117520800A (zh) | 一种营养学文献模型训练方法、***、电子设备及介质 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN112231444A (zh) | 结合rpa和ai的语料数据的处理方法、装置和电子设备 | |
WO2020095655A1 (ja) | 選定装置および選定方法 | |
CN113342932B (zh) | 目标词向量的确定方法、装置、存储介质和电子装置 | |
CN114818727A (zh) | 关键句抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |