CN113822263A - 图像标注方法、装置、计算机设备及存储介质 - Google Patents
图像标注方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113822263A CN113822263A CN202110679659.4A CN202110679659A CN113822263A CN 113822263 A CN113822263 A CN 113822263A CN 202110679659 A CN202110679659 A CN 202110679659A CN 113822263 A CN113822263 A CN 113822263A
- Authority
- CN
- China
- Prior art keywords
- image
- annotation
- sample
- model
- sample image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请实施例公开了一种图像标注方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:获取源域的第一样本图像、第一样本图像的第一标注图像及目标域的多个第二样本图像,从多个第二样本图像中选取目标样本图像,获取目标样本图像的第二标注图像,调用图像标注模型,分别对第一样本图像及目标样本图像进行标注,得到第一样本图像的第一预测标注图像以及目标样本图像的第二预测标注图像,基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异,对图像标注模型进行训练,从目标域选取与源域最不相似的图像来训练图像标注模型,提升了图像标注模型在目标域上的模型表现。
Description
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种图像标注方法、装置、计算机设备及存储介质。
背景技术
图像语义分割用于将图像分割成具有不同语义信息的区域,能够应用于自动驾驶、医疗图像分析、人脸识别等多种场景,在多种场景下,通常利用图像标注模型来标注出图像中具有不同语义信息的区域,即得到图像的标注图像。由于同一场景下不同领域的图像可能会存在差异,为保证了图像分割效果,通常会将利用源域图像所训练的图像标注模型迁移到目标域,以使迁移后的图像标注模型能够在目标域实现图像分割任务。但在图像标注模型的迁移过程中,如何提高迁移后的图像标注模型在目标域上的模型表现,是目前亟需解决的问题。
发明内容
本申请实施例提供了一种图像标注方法、装置、计算机设备及存储介质,能够提升图像标注模型在目标域上的模型表现。所述技术方案如下:
一方面,提供了一种图像标注方法,所述方法包括:
获取源域的第一样本图像、所述第一样本图像的第一标注图像及目标域的多个第二样本图像;
从所述多个第二样本图像中选取目标样本图像,获取所述目标样本图像的第二标注图像,所述目标样本图像为所述多个第二样本图像中,与所述第一样本图像之间具有最小相似度的第二样本图像;
调用图像标注模型,分别对所述第一样本图像及所述目标样本图像进行标注,得到所述第一样本图像的第一预测标注图像以及所述目标样本图像的第二预测标注图像;
基于所述第一标注图像与所述第一预测标注图像之间的差异、所述第二标注图像与所述第二预测标注图像之间的差异,对所述图像标注模型进行训练,所述图像标注模型用于对所述目标域的图像进行标注。
在一种可能实现方式中,所述基于所述第一标注图像与所述第一预测标注图像之间的差异、所述第二标注图像与所述第二预测标注图像之间的差异,对所述图像标注模型进行训练之后,所述方法还包括:
调用训练后的图像标注模型,对目标域的目标图像进行标注,得到所述目标图像的标注图像。
另一方面,提供了一种图像标注装置,所述装置包括:
获取模块,用于获取源域的第一样本图像、所述第一样本图像的第一标注图像及目标域的多个第二样本图像;
所述获取模块,还用于从所述多个第二样本图像中选取目标样本图像,获取所述目标样本图像的第二标注图像,所述目标样本图像为所述多个第二样本图像中,与所述第一样本图像之间具有最小相似度的第二样本图像;
标注模块,用于调用图像标注模型,分别对所述第一样本图像及所述目标样本图像进行标注,得到所述第一样本图像的第一预测标注图像以及所述目标样本图像的第二预测标注图像;
训练模块,用于基于所述第一标注图像与所述第一预测标注图像之间的差异、所述第二标注图像与所述第二预测标注图像之间的差异,对所述图像标注模型进行训练,所述图像标注模型用于对所述目标域的图像进行标注。
在一种可能实现方式中,所述装置还包括:
所述获取模块,还用于获取多个所述第一样本图像的第一图像特征以及所述多个第二样本图像的第二图像特征;
聚类模块,用于基于获取到的多个第一图像特征,对多个所述第一样本图像进行聚类,得到至少一个第一聚类中心;
确定模块,用于对于任一第二样本图像,确定所述第二样本图像的第二图像特征与每个第一聚类中心之间的距离,基于确定的距离中的最小距离,确定所述第二样本图像与所述第一样本图像之间的相似度,所述第二样本图像对应的最小距离与对应的相似度呈负相关关系。
在另一种可能实现方式中,所述获取模块,包括:
特征提取单元,用于调用所述图像标注模型中的特征提取子模型,对每个所述第一样本图像进行特征提取,得到每个所述第一样本图像的第三图像特征;
融合单元,用于将每个所述第一样本图像对应的第三图像特征与对应的第一标注图像进行融合,得到每个所述第一样本图像的第一图像特征。
在另一种可能实现方式中,所述第一标注图像包括至少一个类别对应的区域;所述融合单元,用于对于任一所述第一样本图像,从所述第一样本图像的第一标注图像中提取所述至少一个类别对应的子标注图像,所述子标注图像用于指示属于对应的类别的像素点;将每个类别对应的子标注图像与所述第一样本图像的第三图像特征进行融合,得到每个类别对应的第四图像特征;将所述至少一个类别对应的第四图像特征进行拼接,得到所述第一样本图像的第一图像特征。
在另一种可能实现方式中,所述融合单元,用于对于任一类别对应的子标注图像,将所述子标注图像中的每个像素点的像素值与对应的特征值进行点乘,得到所述每个像素点对应的乘积,任一像素点对应的特征值为所述第三图像特征中与所述像素点位于相同位置的特征值;确定所述每个像素点对应的乘积与像素点数目之间的比值,由所述每个像素点对应的比值构成所述类别对应的第四图像特征,所述像素点数目为所述子标注图像中属于对应类别的像素点的数目。
在另一种可能实现方式中,所述获取模块,包括:
特征提取单元,用于调用所述图像标注模型中的特征提取子模型,对每个第二样本图像进行特征提取,得到所述每个第二样本图像的第五图像特征;
第一获取单元,用于获取所述每个第二样本图像的软标注图像,所述软标注图像是在训练所述图像标注模型之前,由所述图像标注模型对第二样本图像进行标注得到的;
融合单元,用于将所述每个第二样本图像的第五图像特征与对应的软标注图像进行融合,得到所述每个第二样本图像的第二图像特征。
在另一种可能实现方式中,所述训练模块,包括:
第二获取单元,用于在训练所述图像标注模型的过程中,获取本次迭代中所述多个第二样本图像对应的至少一个第二聚类中心,所述至少一个第二聚类中心是基于所述第二样本图像的第二图像特征进行聚类得到的;
所述第二获取单元,还用于获取所述本次迭代中每个第二样本图像的第二图像特征与所述至少一个第二聚类中心之间的距离;
训练单元,用于基于所述第一标注图像与所述第一预测标注图像之间的差异、所述第二标注图像与所述第二预测标注图像之间的差异、所述每个第二样本图像对应的距离,对所述本次迭代的所述图像标注模型进行训练。
在另一种可能实现方式中,所述第二获取单元,用于若所述本次迭代是训练过程的第一次迭代,获取所述本次迭代中所述每个第二样本图像的第二图像特征;基于获取到的多个第二图像特征,对所述多个第二样本图像进行聚类,得到所述至少一个第二聚类中心。
在另一种可能实现方式中,所述第二获取单元,还用于若所述本次迭代不是训练过程的所述第一次迭代,基于上一次迭代中每个第二图像特征与每个第二聚类中心之间的距离,将每个第二图像特征分配给距离最近的第二聚类中心;基于所述每个第二聚类中心对应的第二图像特征,分别对所述每个第二聚类中心进行更新;将更新后的第二聚类中心确定为本次迭代对应的第二聚类中心。
在另一种可能实现方式中,所述获取模块,还用于获取第三样本图像的软标注图像,所述第三样本图像为所述多个第二样本图像中除所述目标样本图像外的第二样本图像,所述软标注图像是在训练所述图像标注模型之前,由所述图像标注模型对第三样本图像进行标注得到的;
所述训练单元,用于调用所述图像标注模型,对所述第三样本图像进行标注,得到所述第三样本图像的第三预测标注图像;基于所述第一标注图像与所述第一预测标注图像之间的差异、所述第二标注图像与所述第二预测标注图像之间的差异、所述每个第二样本图像对应的距离、所述软标注图像与所述第三预测标注图像之间的差异,对所述本次迭代的所述图像标注模型进行训练。
在另一种可能实现方式中,所述训练模块,还用于基于所述第一样本图像、所述第一标注图像及所述多个第二样本图像,对所述图像标注模型及判别模型进行对抗训练,所述判别模型用于判别所述图像标注模型输出的标注图像是否为所述第一样本图像的标注图像。
在另一种可能实现方式中,所述训练模块,用于调用所述图像标注模型,分别对所述第一样本图像及所述多个第二样本图像进行标注,得到所述第一样本图像的第四预测标注图像及每个第二样本图像的第五预测标注图像;调用所述判别模型对所述第四预测标注图像及所述第五预测标注图像进行判别,得到判别结果;基于所述第四预测标注图像与所述第一标注图像之间的差异、所述判别结果,对所述图像标注模型及所述判别模型进行训练。
在另一种可能实现方式中,所述标注模块,还用于调用训练后的图像标注模型,对目标域的目标图像进行标注,得到所述目标图像的标注图像。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的图像标注方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的图像标注方法中所执行的操作。
再一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行所述计算机程序代码,使得所述计算机设备实现如上述方面所述的图像标注方法中所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的方法、装置、计算机设备及存储介质,由于源域与目标域的图像存在差异,目标域的图像具有目标域的独特信息,因此,从目标域选取与源域的样本图像最不相似的样本图像,并利用选取的样本图像及源域的样本图像和标注图像来训练图像标注模型,以使图像标注模型能够学习到目标域的样本图像的独特信息,从而提高图像标注模型在目标域的适用性,提升了图像标注模型在目标域上的模型表现,也提高了图像标注模型在目标域上的标注准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据共享***的结构示意图;
图2是本申请实施例提供的一种区块链的结构示意图;
图3是本申请实施例提供的一种新区块产生的流程图;
图4是本申请实施例提供的一种实施环境的结构示意图;
图5是本申请实施例提供的一种图像标注方法的流程图;
图6是本申请实施例提供的一种图像标注方法的流程图;
图7是本申请实施例提供的一种获取目标样本图像的流程图;
图8是本申请实施例提供的一种获取软标注图像及第二聚类中心的流程图;
图9是本申请实施例提供的一种训练图像标注模型的流程图;
图10是本申请实施例提供的一种多个标注图像的示意图;
图11是本申请实施例提供的一种图像标注装置的结构示意图;
图12是本申请实施例提供的一种图像标注装置的结构示意图;
图13是本申请实施例提供的一种终端的结构示意图;
图14是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请所使用的术语“第一”、“第二”、“第三”、“第四”、“第五”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,能够将第一图像特征称为第二图像特征,且类似地,能够将第二图像特征称为第一图像特征。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个第二样本图像包括3个第二样本图像,而每个是指这3个第二样本图像中的每一个第二样本图像,任一是指这3个第二样本图像中的任意一个,能够是第一个第二样本图像,或者是第二个,或者是第三个第二样本图像。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术,自定驾驶技术有着广泛的应用前景。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案,基于人工智能的计算机视觉技术和机器学习技术,能够训练图像标注模型,利用训练后的图像标注模型,能够实现图像的标注任务,后续能够应用于多种场景下。
本申请实施例提供的图像标注方法,能够由计算机设备执行。可选地,该计算机设备为终端或服务器。可选地,该服务器是独立的物理服务器,或者,是多个物理服务器构成的服务器集群或者分布式***,或者,是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链***。
参见图1所示的数据共享***,数据共享***100是指用于进行节点与节点之间数据共享的***,该数据共享***中可以包括多个节点101,多个节点101可以是指数据共享***中各个客户端。每个节点101在进行正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享***内的共享数据。为了保证数据共享***内的信息互通,数据共享***中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当数据共享***中的任意节点接收到输入信息时,数据共享***中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得数据共享***中全部节点上存储的数据均一致。
对于数据共享***中的每个节点,均具有与其对应的节点标识,而且数据共享***中的每个节点均可以存储有数据共享***中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共享***中的其他节点。每个节点中可维护一个如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息,表1中仅以IP地址为例进行说明。
表1
节点名称 | 节点标识 |
节点1 | 117.114.151.174 |
节点2 | 117.116.189.145 |
… | … |
节点N | 119.123.789.258 |
数据共享***中的每个节点均存储一条相同的区块链。区块链由多个区块组成,参见图2,区块链由多个区块组成,创始块中包括区块头和区块主体,区块头中存储有输入信息特征值、版本号、时间戳和难度值,区块主体中存储有输入信息;创始块的下一区块以创始块为父区块,下一区块中同样包括区块头和区块主体,区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值,并以此类推,使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联,保证了区块中输入信息的安全性。
在生成区块链中的各个区块时,参见图3,区块链所在的节点在接收到输入信息时,对输入信息进行校验,完成校验后,将输入信息存储至内存池中,并更新其用于记录输入信息的哈希树;之后,将更新时间戳更新为接收到输入信息的时间,并尝试不同的随机数,多次进行特征值计算,使得计算得到的特征值可以满足下述公式:
SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))<TARGET
其中,SHA256为计算特征值所用的特征值算法;version(版本号)为区块链中相关区块协议的版本信息;prev_hash为当前区块的父区块的区块头特征值;merkle_root为输入信息的特征值;ntime为更新时间戳的更新时间;nbits为当前难度,在一段时间内为定值,并在超出固定时间段后再次进行确定;x为随机数;TARGET为特征值阈值,该特征值阈值可以根据nbits确定得到。
这样,当计算得到满足上述公式的随机数时,便可将信息对应存储,生成区块头和区块主体,得到当前区块。随后,区块链所在节点根据数据共享***中其他节点的节点标识,将新生成的区块分别发送给其所在的数据共享***中的其他节点,由其他节点对新生成的区块进行校验,并在完成校验后将新生成的区块添加至其存储的区块链中。
图4是本申请实施例提供的一种实施环境的示意图。参见图4,该实施环境包括终端401和服务器402。终端401和服务器402之间通过无线或者有线网络连接。可选地,终端401上安装有由服务器402提供服务的目标应用,终端401能够通过该目标应用实现例如数据传输、消息交互等功能。可选地,目标应用为终端401操作***中的目标应用,或者为第三方提供的目标应用。例如,目标应用具有图像标注的功能,即能够标注出图像中具有不同含义的区域,当然,该目标应用还能够具有其他功能,例如,点评功能、购物功能、导航功能、游戏功能等。
在本申请实施例中,终端401服务器402提供源域的样本图像或目标域的样本图像,由服务器402基于获取到的图像训练图像标注模型。并且,在训练图像标注模型之后,终端401能够利用训练后的图像标注模型完成图像标注任务。例如,服务器402将训练后的图像标注模型分享给终端401,终端401能够部署训练后的图像标注模型,基于训练后的图像标注模型完成图像标注任务;或者,终端401通过与服务器402之间的交互,将待标注的图像发送至服务器402,由服务器402基于训练后的图像标注模型,对终端401发送的图像进行标注,将得到的标注图像返回终端401。
本申请实施例提供的方法,可用于多种场景。
例如,自动驾驶场景下:
由于不同城市的场景可能存在差异,源域包括城市1中的街景图像及标注图像,当前的图像标注模型适用于城市1,目标域包括即将迁移的城市2中的街景图像,采用本申请实施例提供的图像标注方法,基于源域的样本图像、标注图像以及目标域的样本图像,训练出适用于目标域的图像标注模型,之后,调用训练后的图像标注模型,能够完成对城市2中的街景图像的标注任务,以便后续利用对城市2中的街景图像的标注图像,识别出安全的街道区域,以保证汽车能够安全的自动驾驶。
再例如,医疗场景下:
由于不同医院中的医学图像可能存在差异,将目标医院的医学图像作为目标域的样本图像,利用其它已训练完成的医院的医学图像及标注图像作为源域,采用本申请实施例提供的图像标注方法,能够训练出适用于目标医院的图像标注模型,之后,调用训练后的图像标注图像,能够完成对目标医院中的医学图像的标注任务,以便后续利用对目标医院中的医学图像的标注图像,识别出不同的部位,从医学图像中分割出需要进行医学分析的部位。
图5是本申请实施例提供的一种图像标注方法的流程图,由计算机设备执行,如图5所示,该方法包括:
501、计算机设备获取源域的第一样本图像、第一样本图像的第一标注图像及目标域的多个第二样本图像。
在本申请实施例中,源域和目标域是属于同一场景下的不同领域,即源域和目标域包含的图像之间具有相似性,但源域的图像和目标域的图像不完全相同。例如,在自动驾驶场景下,源域的图像和目标域的图像均是街景图像,源域的街景图像可能是城市1中的街景图像,而目标域的街景图像可能是城市2中的街景图像;或者,源域的街景图像是虚拟街景图像,目标域的街景图像是真实街景图像。再例如,在医疗场景下,源域的图像和目标域的图像均为医疗图像,源域的医疗图像是属于医院1的医疗图像,目标域的医疗图像是属于医院2的医疗图像。
其中,第一样本图像的第一标注图像用于指示第一样本图像中各个像素点所属的类别,类别用于区分第一样本图像中所包含的物体,属于不同类别的像素点用于描述不同的物体,例如,第一样本图像为街景图像,街景图像中可能包含街道、自行车、建筑物等,即该街景图像中的街道、自行车、建筑物均属于不同的类别,则在第一样本图像中,描述街道的像素点所属的类别与描述自行车的像素点所属的类别不同。源域的第一样本图像和目标域的第二样本图像属于相同的图像类型,例如,第一样本图像和第二样本图像均属于街景图像类型,或者,均属于医学图像类型等。第一样本图像为源域包含的图像,第二样本图像为目标域包含的图像。
502、计算机设备从多个第二样本图像中选取目标样本图像,获取目标样本图像的第二标注图像,目标样本图像为多个第二样本图像中,与第一样本图像之间具有最小相似度的第二样本图像。
其中,第二标注图像用于指示目标样本图像中各个像素点所属的类别。
在本申请实施例中,由于目标域的图像具有目标域的独特信息,因此,通过从多个第二样本图像中选取与源域的第一样本图像最不相似目标样本图像,以保证后续基于目标样本图像训练的图像标注模型能够学习到目标域的独特信息,以提升训练的图像标注模型在目标域的适用性,从而提升图像标注模型在目标域上的模型表现。
503、计算机设备调用图像标注模型,分别对第一样本图像及目标样本图像进行标注,得到第一样本图像的第一预测标注图像以及目标样本图像的第二预测标注图像。
其中,图像标注模型用于对图像进行标注,第一预测标注图像和第二预测标注图像均是由图像标注模型得到的。第一预测标注图像用于指示通过模型预测到的第一样本图像中各个像素点所属的类别,第二预测标注图像用于指示通过模型预测到的目标样本图像中各个像素点所属的类别。
504、计算机设备基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异,对图像标注模型进行训练,图像标注模型用于对目标域的图像进行标注。
由于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异,能够体现图像标注模型的准确率,因此,基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异,来训练图像标注模型,能够提高图像标注模型的准确率。
本申请实施例提供的方法,由于源域与目标域的图像存在差异,目标域的图像具有目标域的独特信息,因此,从目标域选取与源域的样本图像最不相似的样本图像,并利用选取的样本图像及源域的样本图像和标注图像来训练图像标注模型,以使图像标注模型能够学习到目标域的样本图像的独特信息,从而提高图像标注模型在目标域的适用性,提升了图像标注模型在目标域上的模型表现,也提高了图像标注模型在目标域上的标注准确率。
在图5所示实施例的基础上,能够基于源域的第一样本图像、第一标注图像以及目标域的第二样本图像,先对适用于源域的图像标注模型进行对抗训练,之后,再对对抗训练后的图像标注模型进行训练,对对抗训练后的图像标注模型的训练过程包括多次迭代,具体过程详见下述实施例。
图6是本申请实施例提供的一种图像标注方法的流程图,由计算机设备执行,如图6所示,该方法包括:
601、计算机设备获取源域的多个第一样本图像、每个第一样本图像的第一标注图像及目标域的多个第二样本图像。
可选地,第一标注图像是由人工标注得到的,例如,第一标注图像是由专家对第一样本图像进行标注后得到的。
可选地,第一标注图像包括至少一个类别对应的区域,位于同一区域内的多个像素点所属的类别相同,均为该区域对应的类别。在本申请实施例中,第一样本图像中各个像素点所述的类别,与对应的第一标注图像中位于相同位置的像素点所属的类别相同,即第一标注图像能够指示对应的第一样本图像中各个像素点所属的类别。例如,第一样本图像为街景图像,街景图像对应的类别可能包括街道、人行道、建筑、墙壁、栅栏、行人、车辆等,则第一样本图像的第一标注图像能够指示出每个像素点属于哪种类别。
可选地,第一标注图像中采用不同颜色来表示各个像素点对应的类别,即不同类别对应的区域中的颜色不同。例如,第一样本图像为街景图像,该第一样本图像的第一标注图像中红色区域表示街道、绿色区域表示行人等。
可选地,第一标注图像以矩阵的形式表示,例如,矩阵包括多个数值,该多个数值分别表示对应的像素点所属的类别。再例如,矩阵包括的多个数值按照对应的像素点在第一标注图像上的位置排列,数值1用于表示类别1,数值2用于表示类别2,则基于矩阵中的多个数值即可确定第一标注图像中各个像素点所属的类别。
在本申请实施例中源域的多个第一样本图像、多个第一样本图像的第一标注图像及目标域的多个第二样本图像均能够以区块链的形式存储。计算机设备能够从区块链中获取到第一样本图像、第一样本图像的第一标注图像及第二样本图像。
需要说明的是,本申请实施例是以获取源域的多个第一样本图像及多个第一标注图像为例进行说明的,而在另一实施例中,能够仅获取源域的第一样本图像、该第一样本图像的第一标注图像及目标域的多个第二样本图像即可。
602、计算机设备基于多个第一样本图像、多个第一标注图像及多个第二样本图像,对图像标注模型及判别模型进行对抗训练。
在本申请实施例中,图像标注模型用于对图像进行标注,例如该图像标注模型为Deeplab(一种语义分割模型)、PSPNet(Pyramid Scene Parseing Network,金字塔池化模型)。图像标注模型是已经利用源域的样本图像和标注图像训练完成的模型,即该图像标注模型适用于源域,基于该图像标注模型能够对源域的图像执行图像标注任务。判别模型用于判别图像标注模型输出的标注图像是否为第一样本图像的标注图像,即判别模型用于将源域的样本图像的标注图像和目标域的样本图像的标注图像区分开。
在对抗训练过程中,图像标注模型用于分别对源域的第一样本图像和目标域的第二样本图像进行标注,而判别模型用于判别图像标注模型输出的标注图像是否为第一样本图像的标注图像,在对抗训练图像标注模型和判别模型的过程中,对图像标注模型进行训练以提高图像标注模型的准确性,使得图像标注模型输出的标注图像尽可能让判别模型无法区分开,即使得判别模型无法判别出图像标注模型输出的标注图像是否为第一样本图像的标注图像;对判别模型训练以提高判别模型的判别能力,使得判别模型尽可能将图像标注模型输出的标注图像区分开,即判别出图像标注模型输出的标注图像是否为第一样本图像的标注图像。按照此种方式对抗训练图像标注模型和判别模型,能够提高图像标注模型的准确性,最终使得图像标注模型和判别模型趋于平衡。
由于源域的图像与目标域的图像之间存在差异,当前的图像标注模型可能不适用于目标域,因此,先采用对抗训练的方式对图像标注模型进行训练,以使对抗训练后的图像标注模型能够适用于源域,即调用训练后的图像标注模型,分别对源域的第一样本图像及目标域的第二样本图像进行标注,使得到的标注图像之间具有相似性,减小目标域对应的标注图像与源域对应的标注图像之间的距离,使得目标域对应的标注图像呈现有序状态,实现了对图像标注模型的预热效果。
在一种可能实现方式中,利用图像标注模型输出的预测标注图像及判别模型输出的判别结果,来对抗训练图像标注模型及判别模型,也即是,该步骤602包括:调用图像标注模型,分别对多个第一样本图像及多个第二样本图像进行标注,得到每个第一样本图像的第四预测标注图像及每个第二样本图像的第五预测标注图像,调用判别模型对第四预测标注图像及第五预测标注图像进行判别,得到判别结果,基于每个第四预测标注图像与对应的第一标注图像之间的差异、判别结果,对图像标注模型及判别模型进行训练。
其中,第四预测标注图像是由图像标注模型对第一样本图像进行标注得到的,相当于是图像标注模型对第一样本图像的预测结果,第五预测标注图像是由图像标注模型对第二样本图像进行标注得到的,相当于是图像标注模型对第二样本图像的预测结果。可选地,第四预测标注图像或第五预测标注图像均用于指示通过模型预测到的对应的样本图像中各个像素点所属的类别。
判别结果用于指示判别模型判别出的预测标注图像是否为第一样本图像的标注图像,也即是用于指示判别模型判别出的第四预测标注图像是否为第一样本图像的标注图像,还用于指示判别模型判别出的第五预测标注图像是否为第一样本图像的标注图像。基于第四预测标注图像与第一标注图像之间的差异,能够确定出图像标注模型的准确性,判别结果也能够体现出图像标注模型的准确性和判别模型的准确性,则通过第四预测标注图像与第一标注图像之间的差异、判别结果,来训练图像标注模型和判别模型,以提高图像标注模型的准确性。
可选地,在训练图像标注模型及判别模型时,基于第四预测标注图像与第一标注图像之间的差异、判别结果与标注结果之间的差异,对图像标注模型及判别模型进行训练。
其中,标注结果用于指示第四预测标注图像为第一样本图像的标注图像,还用于指示第五预测标注图像不是第一样本图像的标注图像,即标注结果是真实的结果。通过确定标注结果与判别结果之间的差异,能够确定判别模型的准确性,基于第四预测标注图像与第一标注图像之间的差异、判别结果与标注结果之间的差异,对抗训练图像标注模型及判别模型,以提高图像标注模型的准确性及判别模型的准确性。
可选地,利用损失值来对抗训练图像标注模型和判别模型,也即是,基于第四预测标注图像与第一标注图像之间的差异,确定第一损失值,基于判别结果与标注结果之间的差异,确定第二损失值,基于第一损失值与第二损失值之和,对图像标注模型和判别模型进行训练。通过利用确定的损失值来对抗训练图像标注模型和判别模型,以保证训练的模型的准确性。
在本申请实施例中,采用上述对抗训练的方式训练后的图像标注模型相当于预热网络,后续能够在对抗训练的基础上,基于源域的多个第一样本图像、每个第一样本图像的第一标注图像以及目标域的多个第二样本图像,对训练后的图像标注模型(即预热模型)再次进行训练,以提升图像标注模型在目标域上的模型表现。
并且,在对抗训练的基础上,先执行步骤603-606,从目标域选取与源域的第一样本图像最不相似度的目标样本图像,之后基于源域的多个第一样本图像、每个第一样本图像的第一标注图像、目标域的目标样本图像、目标样本图像的第二标注图像、目标域的多个第二样本图像中除目标样本图像外的第三样本图像,对对抗训练后的图像标注模型进行多次迭代训练。本申请仅是以一次迭代为例来进行说明的,一次迭代过程如步骤607-610所示。
603、计算机设备获取多个第一样本图像的第一图像特征以及多个第二样本图像的第二图像特征。
其中,第一图像特征用于描述第一样本图像所包含的信息,第二图像特征用于描述第二样本图像所包含的信息。计算机设备获取到源域的每个第一样本图像的第一图像特征及目标域的每个第二样本图像的第二图像特征,以便后续利用获取到的图像特征,从多个第二样本图像中选取与该多个第一样本图像最不相似的目标样本图像。
在一种可能实现方式中,利用第一样本图像的第一标注图像来获取第一样本图像的第一图像特征,也即是,获取多个第一样本图像的第一图像特征的过程,包括以下步骤6031-6032:
6031、调用图像标注模型中的特征提取子模型,对每个第一样本图像进行特征提取,得到每个第一样本图像的第三图像特征。
在本申请实施例中,图像标注模型包括特征提取子模型,特征提取子模型用于提取图像的特征。通过图像标注模型中的特征提取子模型来提取每个第一样本图像的图像特征,以保证提取到的第三图像特征的准确性,也无需再配置其他的特征提取模型来进行特征提取,节省了资源。
6032、将每个第一样本图像对应的第三图像特征与对应的第一标注图像进行融合,得到每个第一样本图像的第一图像特征。
由于第一标注图像用于指示对应的第一样本图像中每个像素点所属的类别,则通过将第一标注图像与对应的第三图像特征进行融合,使得到的第一图像特征中融入了对应的第一样本图像中各个像素点所属的类别,丰富了第一图像特征所包含的信息,从而提高了第一图像特征的准确性。
在一种可能实现方式中,利用第一标注图像包含的至少一个类别的子标注图像,采用先融合再拼接的方式,来获取第一样本图像的第一图像特征的,也即是,该步骤6032包括以下步骤6033-6035:
6033、对于任一第一样本图像,从第一样本图像的第一标注图像中提取至少一个类别对应的子标注图像,该子标注图像用于指示属于对应的类别的像素点。
每个子标注图像用于指示属于对应的类别的像素点,也即是指示在对应的第一样本图像中,与每个子标注图像中的像素点位于相同位置的像素点所属的类别。可选地,在子标注图像中,属于该子标注图像对应的类别的像素点的像素值为第一数值,不属于该子标注图像对应的类别的像素点的像素值为第二数值。例如,第一数值为1,第二数值为0,在任一子标注图像中,属于该子标注图像对应类别的像素点的像素值为1,不属于该子标注图像对应类别的像素点的像素值为0。
在本申请实施例中,第一标注图像包括至少一个类别对应的区域,位于同一区域内的多个像素点所属的类别相同。通过从第一标注图像中提取每个类别对应的子标注图像,使得任一类别对应的子标注图像能够指示第一标注图像中位于该类别所对应的区域中的像素点。
6034、将每个类别对应的子标注图像与第一样本图像的第三图像特征进行融合,得到每个类别对应的第四图像特征。
其中,第四图像特征用于描述第一样本图像中属于对应类别的像素点所包含的信息。
可选地,以像素点为单元将子标注图像与第三图像特征进行融合,也即是,获取第四图像特征的过程包括:对于任一类别对应的子标注图像,将子标注图像中的每个像素点的像素值与对应的特征值进行点乘,得到每个像素点对应的乘积,任一像素点对应的特征值为第三图像特征中与像素点位于相同位置的特征值;确定每个像素点对应的乘积与像素点数目之间的比值,由每个像素点对应的比值构成类别对应的第四图像特征,像素点数目为子标注图像中属于对应类别的像素点的数目。
在本申请实施例中,子标注图像中的每个像素点与第三样本图像中的第一个特征值对应,且对应的特征值在第三样本图像中所处的位置与像素点在子标注图像中所处的位置相同。通过以像素点为单位,将子标注图像与第三图像特征中位于相同位置的像素值和特征值融合,以保证得到的第四图像特征能够突出对应的类别的像素点的特征,从而保证了第四图像特征的准确性。
可选地,对于任一第一样本图像及任一类别,该类别对应的第四图像特征满足以下关系:
其中,xs为源域的第一样本图像,c用于表示第一样本图像xs的第一标注图像包括的至少一个类别中的任一类别,用于表示类别c对应的第四图像特征,用于表示该类别对应的子标注图像,用于表示子标注图像中属于类别c的像素数量;用于表示逐像素相乘,fE(xs)用于表示第一样本图像xs的第三图像特征,fE(·)用于表示图像标注模型中的特征提取子模型。
6035、将至少一个类别对应的第四图像特征进行拼接,得到第一样本图像的第一图像特征。
对于任一第一样本图像,在得到该第一样本图像与每个类别对应的第四图像特征后,将至少一个类别对应的第四图像特征进行拼接,使得到的第一图像特征中融入了该第一样本图像所具有的多个类别的特征,从而丰富了第一图像特征包含的信息,提高了第一图像特征的准确性。
在一种可能实现方式中,第四图像特征为三维图像特征,即该第四图像特征包括多个二维图像特征,则先将每个第四图像特征进行拉平,之后再将拉平后的图像特征拼接成第一图像特征。
其中,将每个第四图像特征进行拉平的过程,也即是,将第四图像特征包括的多个二维图像特征进行拼接,得到拼接后的二维图像特征,该拼接后的二维图像特征即为第四图像特征拉平后的图像特征。其中,第一图像特征为二维图像特征。
在一种可能实现方式中,利用第二样本图像的软标注图像来获取第二样本图像的第二图像特征,也即是,获取多个第二样本图像的第二图像特征的过程,包括以下步骤6036-6038:
6036、调用图像标注模型中的特征提取子模型,对每个第二样本图像进行特征提取,得到每个第二样本图像的第五图像特征。
该步骤与上述步骤6031同理,在此不再赘述。
6037、获取每个第二样本图像的软标注图像,软标注图像是在训练图像标注模型之前,由图像标注模型对第二样本图像进行标注得到的。
其中,任一第二样本图像的软标注图像用于指示通过模型预测到的第二样本图像中各个像素点所属的类别。
在一种可能实现方式中,利用图像标注模型来获取软标注图像,也即是,该步骤6037包括:调用图像标注模型,对第二样本图像进行标注,得到第二样本图像的标注图像,将得到的标注图像确定为该第二样本图像的软标签图像。
其中,该图像标注模型是适用于源域的图像标注模型,或者,是按照上述步骤602进行对抗训练后的图像标注模型。
6038、将每个第二样本图像的第五图像特征与对应的软标注图像进行融合,得到每个第二样本图像的第二图像特征。
在一种可能实现方式中,利用软标注图像包含的至少一个类别的子标注图像,采用先融合再拼接的方式,来获取第二样本图像的第二图像特征的,也即是,该步骤6038包括:对于任一第二样本图像,从第二样本图像的软标注图像中提取至少一个类别对应的子标注图像,该子标注图像用于指示属于对应的类别的像素点;将每个类别对应的子标注图像与第二样本图像的第五图像特征进行融合,得到每个类别对应的第六图像特征;将至少一个类别对应的第六图像特征进行拼接,得到第二样本图像的第二图像特征。
可选地,对于任一第二样本图像及任一类别,该类别对应的第六图像特征满足以下关系:
其中,xt为目标域的第二样本图像,c用于表示第二样本图像xt的软标注图像包括的至少一个类别中的任一类别,用于表示类别c对应的第六图像特征,用于表示该类别c对应的子标注图像,用于表示子标注图像中属于类别c的像素数量;用于表示逐像素相乘,fE(xt)用于表示第二样本图像xt的第五图像特征,fE(·)用于表示图像标注模型中的特征提取子模型。
该步骤6038与上述步骤6032同理,在此不再赘述。
604、计算机设备基于获取到的多个第一图像特征,对多个第一样本图像进行聚类,得到至少一个第一聚类中心。
在本申请实施例中,源域的第一样本图像可能包括不同的场景,例如,源域的第一样本图像均为街景图像,部分街景图像为城市街景图像,而其他部分街景图像为郊区街景图像。通过源域的多个第一样本图像的第一图像特征,对多个第一样本图像进行聚类,得到至少一个簇,即每个簇对应有一个中心,即得到至少一个聚类中心,每个第一聚类中心代表了源域的一种场景,对于任一第一样本图像,该第一样本图像包含的场景与对应的第一聚类中心所代表的场景类似。例如,一个第一聚类中心用于指示郊区街景,则属于该第一聚类中心所对应的簇的第一样本图像均为郊区街景图像;另一个第一聚类中心用于指示城市街景,则属于该第一聚类中心所对应的簇的第一样本图像均为城市街景图像。每个第一聚类中心相当于源域的锚点,源域的多个第一样本图像分布在对应的锚点上。
在本申请实施例中,对第一样本图像进行聚类的过程,能够采用多种聚类算法,如k-means算法、层次聚类算法或者DBSCAN(Density-Based Spatial Clustering ofApplications with Noise,基于密度的聚类算法)等。
在一种可能实现方式中,利用多个第一图像特征进行聚类,得到多个第一样本图像的至少一个第一聚类中心,也即是,该步骤604包括:从多个第一图像特征选取k个第一图像特征作为初始的第一聚类中心,确定每个第一样本图像特征与每个初始的第一聚类中心之间的距离,将每个第一样本图像特征分配给距离最近的初始的第一聚类中心,得到多个簇,将每个簇中的第一样本图像特征的平均值,确定为更新后的第一聚类中心,之后基于k个更新后的第一聚类中心,按照上述方式,再次更新第一聚类中心,响应于迭代次数达到阈值,或得到的k个更新后的第一聚类中心收敛,则停止更新第一聚类中心,得到最终的k个第一聚类中心。
其中,k为任意的正整数。采用迭代更新的方式来更新k个第一聚类中心,使得到的第一聚类中心能够代表对应的簇,即每个第一聚类中心与对应的簇中的第一样本图像的距离最小,从而保证第一聚类中心的准确性。
605、对于任一第二样本图像,计算机设备确定第二样本图像的第二图像特征与每个第一聚类中心之间的距离,基于确定的距离中的最小距离,确定第二样本图像与第一样本图像之间的相似度,第二样本图像对应的最小距离与对应的相似度呈负相关关系。
其中,第二图像特征与第一聚类中心之间的距离为欧几里得距离、马哈拉诺比斯距离等。在本申请实施例中,对于目标域的任一第二样本图像,第二样本图像与每个第一聚类中心之间的距离,能够体现该第二样本图像与属于每个第一聚类中心的第一样本图像之间的相似程度,则从确定的多个距离中能够确定出最小距离,即表示该第二样本图像与属于最小距离对应的第一聚类中心的第一样本图像最相似,之后,基于该最小距离,来确定该第二样本图像与源域的多个第一样本图像之间的相似度。并且,对于任一第二样本图像对应的相似度与该第二样本图像对应的最小距离呈负相关关系,即该第二样本图像对应的最小距离越大,该第二样本图像对应的相似度越小,该第二样本图像对应的最小距离越小,该第二样本图像对应的相似度越大。
第二样本图像与每个第一聚类中心之间的距离,能够体现该第二样本图像与属于每个第一聚类中心的第一样本图像之间的相似程度,则基于每个第二样本图像对应的最小距离来确定相似度,即确定出了第二样本图像与源域的多个第一样本图像之间的最大相似度,从而保证了确定的相似度的准确性。
在一种可能实现方式中,对于任一第二样本图像对应的最小距离满足以下关系:
其中,D(xt)用于表示第二样本图像xt对应的最小距离,Ft(xt)用于表示第二样本图像xt的第二图像特征,用于表示至少一个第一聚类中心中的第k个第一聚类中心,k为大于0的整数;||·||用于表示范数。
606、计算机设备从多个第二样本图像中选取目标样本图像,获取目标样本图像的第二标注图像,目标样本图像为多个第二样本图像中,与源域的样本图像之间具有最小相似度的第二样本图像。
其中,第二标注图像用于指示目标样本图像中各个像素点所属的类别,可选地,第二标注图像是由人工标注得到的。在确定每个第二样本图像对应的相似度后,按照每个第二样本图像对应的相似度,从多个第二样本图像中选取与源域的多个第一样本图像之间具有最小相似度的目标样本图像,即尽可能保证选取的目标样本图像与源域的第一样本图像最不相似。
由于目标域的图像具有目标域的独特信息,因此,通过从多个第二样本图像中尽可能选取与源域的第一样本图像最不相似的目标样本图像,以保证后续基于目标样本图像训练的图像标注模型能够学习到目标域的独特信息,以提升训练的图像标注模型在目标域的适用性,从而提升图像标注模型在目标域上的模型表现。如图7所示,调用图像标注模型中的特征提取子模型,分别获取第一样本图像的第一图像特征及第二样本图像的第二图像特征,并基于第一图像特征,对第一样本图像进行聚类,得到第一聚类中心,并基于第二样本图像的第二图像特征及第一聚类中心,从多个第二样本图像中选取与源域的样本图像之间具有最小相似度的目标样本图像。
在一种可能实现方式中,在选取目标样本图像时,选取目标数目个目标样本图像。其中,目标数目为任意的数值,例如,该目标数目为10,或者,目标数目为第二样本图像的总数的5%等。在多个第二样本图像中,目标数目个目标样本图像对应的相似度均小于其余未选取的第二样本图像对应的相似度。
在本申请实施例中,源域的第一聚类中心相当于源域的锚点,通过源域的多个第一聚类中心来选取目标样本图像的过程,相当于是基于源域的多锚点来选取目标样本图像的过程。
在获取到目标域的目标样本图像后,对图像标注模型进行多次迭代训练,下述步骤607-610仅是以一次迭代为例来说明的。
607、计算机设备在训练图像标注模型的过程中,调用图像标注模型,分别对第一样本图像及目标样本图像进行标注,得到第一样本图像的第一预测标注图像以及目标样本图像的第二预测标注图像。
在本申请实施例中,图像标注模型是按照上述步骤302训练后的图像标注模型。调用图像标注模型,对第一样本图像进行标注,得到该第一样本图像的第一预测标注图像,调用图像标注模型,对目标样本图像进行标注,得到目标样本图像的第二预测标注图像。
在一种可能实现方式中,图像标注模型包括特征提取子模型和特征转换子模型,利用特征提取子模型和特征转换子模型来对图像进行标注,也即是,该步骤607包括:调用特征提取子模型,分别对第一样本图像及目标样本图像进行特征提取,得到第一样本图像的图像特征及目标样本图像的图像特征,调用特征转换子模型,分别对第一样本图像的图像特征及目标样本图像的图像特征进行转换,得到第一样本图像的第一预测标注图像以及目标样本图像的第二预测标注图像。
608、计算机设备获取本次迭代中多个第二样本图像对应的至少一个第二聚类中心,至少一个第二聚类中心是基于第二样本图像的第二图像特征进行聚类得到的。
在本申请实施例中,在多次迭代训练图像标注模型的过程中,每次迭代会更新图像标注模型,因此,不同次迭代中的图像标注模型可能不同。由于第二聚类中心是基于本次迭代中第二样本图像的第二图像特征聚类得到的,第二图像特征是基于本次迭代中图像标注模型获取到的,因此,每次迭代中的第二图像特征、第二聚类中心可能存在变化,则每次迭代均需要确定第二样本图像在本次迭代中的第二图像特征及本次迭代中的至少一个第二聚类中心。
在一种可能实现方式中,按照多次迭代来训练图像标注模型时,第一次迭代和其他次迭代获取第二聚类中心的方式不同,也即是,获取至少一个第二聚类中心的过程包括以下两种方式:
第一种方式:若本次迭代是训练过程的第一次迭代,获取本次迭代中每个第二样本图像的第二图像特征;基于获取到的多个第二图像特征,对多个第二样本图像进行聚类,得到至少一个第二聚类中心。
该步骤与上述步骤604同理,在此不再赘述。
第二种方式:若本次迭代不是训练过程的第一次迭代,基于上一次迭代中每个第二图像特征与每个第二聚类中心之间的距离,将每个第二图像特征分配给距离最近的第二聚类中心;基于每个第二聚类中心对应的第二图像特征,分别对每个第二聚类中心进行更新;将更新后的第二聚类中心确定为本次迭代对应的第二聚类中心。
按照上一次迭代中每个第二样本图像的第二图像特征及至少一个第二聚类中心,对第二聚类中心进行更新,并将更新后的第二聚类中心作为本次迭代的第二聚类中心,此过程无需再利用所有的第二图像特征进行重新聚类,减小了计算量,节省了资源,也提升了获取第二聚类中心的效率,也保证了第二聚类中心的准确性。
在一种可能实现方式中,更新第二聚类中心的过程能够满足以下关系:
其中,v用于表示至少一个第二聚类中心中的第v个第二聚类中心,v为大于0的正整数;用于表示更新后的第v个第二聚类中心,α用于表示调整系数,α为大于0小于1的常数,用于表示上一次迭代中第υ个第二聚类中心,Ft(xt)用于表示为第υ个第二聚类中心分配的第二样本图像xt的第二图像特征。
609、计算机设备获取本次迭代中每个第二样本图像的第二图像特征与至少一个第二聚类中心之间的距离。
在本申请实施例中,在训练图像标注模型时,每次迭代中需要重新确定每个第二样本图像的第二图像特征,确定方式与上述步骤603同理。其中,在获取每个第二样本图像的第二图像特征时,对于多个第二样本图像中的目标样本图像,利用目标样本图像的第二标注图像,来获取目标样本图像的第二图像特征。之后,基于本次迭代中每个第二特征图及每个第二聚类中心,确定每个第二图像特征与至少一个第二聚类中心之间的距离,也即是,对于任一第二图像特征,确定了该第二图像特征与每个第二聚类中心之间的距离。其中,确定第二图像特征第二聚类中心之间的距离的方式,与上述步骤605中确定距离的方式同理,在此不再赘述。
610、计算机设备基于该第一标注图像与该第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异、每个第二样本图像对应的距离,对本次迭代的图像标注模型进行训练。
其中,基于该第一标注图像与该第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异、每个第二样本图像对应的距离,对本次迭代的图像标注模型进行训练,相当于基于该第一标注图像与该第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异、每个第二样本图像对应的距离,来调整图像标注模型的参数。
在本申请实施例中,第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异,均能够体现出图像标注模型的准确性,每个第二样本图像对应的距离,即为每个第二样本图像与每个第二聚类中心之间的距离,即考虑到了第二样本图像与每个第二聚类中心之间的关系,以使训练后的图像标注模型能够学习到目标域的图像分布情况,从而提升图像标注模型的准确性及在目标域上的适用性。
在本申请实施例中,按照步骤607-610迭代训练图像标注模型的过程中,每次迭代均利用了目标域的第二聚类中心,第二聚类中心相当于是目标域的锚点,目标域的多个第二样本图像分布在对应的锚点上,则通过目标域的多个第二聚类中心来迭代训练图像标注模型的过程,相当于是基于目标域的多锚点来迭代训练图像标注模型,即以一种基于多锚点的域适应语义分割方法来训练图像标注模型。
在一种可能实现方式中,基于确定的损失值来训练图像标注模型,也即是,该步骤610包括:基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异,确定第三损失值,基于每个第二样本图像对应的距离,确定第四损失值,基于第三损失值及第四损失值之和,对本次迭代的图像标注模型进行训练。
其中,第四损失值是基于距离损失函数得到的,第二聚类中心相当于是目标域的锚点,则距离损失函数相当于是基于多锚点的软对齐损失函数。
基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异、每个第二样本图像对应的距离来确定损失值,以使能够按照损失值来训练图像标注模型,从而保证训练图像标注模型的准确性。
可选地,第三损失值满足以下关系:
其中,LCE(xs,ys)用于表示损失值,该损失值用于表示第一标注图像与第一预测标注图像之间的差异,xs用于表示第一样本图像,ys用于表示第一标注图像,用于表示损失值,该损失值用于表示第二标注图像与第二预测标注图像之间的差异,用于表示目标样本图像,用于表示目标样本图像的第二标注图像。
可选地,第四损失值满足以下关系:
在一种可能实现方式中,利用源域的第一样本图像、目标域的目标样本图像及目标域除目标样本图像外的第三样本图像,来训练图像标注模型,也即是,该步骤610包括以下步骤6101-6103:
6101、获取第三样本图像的软标注图像,第三样本图像为多个第二样本图像中除目标样本图像外的第二样本图像,软标注图像是在训练图像标注模型之前,由图像标注模型对第三样本图像进行标注得到的。
其中,任一第二样本图像的软标注图像用于指示该第二样本图像中各个像素点所属的类别。在本申请实施例中,目标域的多个第二样本图像分为目标样本图像及第三样本图像,目标样本图像具有第二标注图像,而第三样本图像未对应有标注图像,因此,调用图像标注模型对第三样本图像进行标注,得到第三样本图像的标注图像,将该第三样本图像的标注图像确定为该第三样本图像的软标注图像。
在一种可能实现方式中,在步骤607之前,该方法还包括:调用图像标注模型,分别对第一样本图像及目标样本图像进行标注,得到第一样本图像的第一预测标注图像以及目标样本图像的第二预测标注图像,基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异,对图像标注模型进行训练。
由于获取到的第一样本图像和目标样本图像均对应有标注图像,先通过获取到的第一样本图像、第一标注图像、目标样本图像及第二标注图像对图像标注模型进行训练,以提升图像标注模型在目标域上的模型表现,即提升了图像标注模型在目标域上的适用性。
在本申请实施例中,在获取到适用于源域的图像标注模型后,先按照上述步骤602训练图像标注模型,之后执行步骤603-606,之后,再基于获取到的第一样本图像、第一标注图像、目标样本图像及第二标注图像对图像标注模型进行训练,之后再按照步骤607-610,对训练后的图像标注模型进行迭代训练。按照此种方式来训练图像标注模型,以逐步提升图像标注模型在目标域上的模型表现,以提高图像标注模型在目标域上的适用性。
在本申请实施例中,用于获取软标注图像的图像标注模型是先按照上述步骤602训练图像标注模型,之后再基于获取到的第一样本图像、第一标注图像、目标样本图像及第二标注图像对图像标注模型进行训练后的图像标注模型。如图8所示,先按照上述步骤602训练图像标注模型,之后基于第一样本图像、第一标注图像、目标样本图像及第二标注图像对图像标注模型进行训练,利用训练后的图像标注模型,对第三样本图像进行标注,得到第三样本图像的标注图像,将得到的第三样本图像的标注图像,确定为第三样本图像的软标注图像,并基于图像标注模型中的特征提取子模型,获取目标样本图像的图像特征及第三样本图像的图像特征,即获取到多个第二样本图像的第二图像特征,并基于第二样本图像的第二图像特征进行聚类,得到至少一个第二聚类中心。
6102、调用图像标注模型,对第三样本图像进行标注,得到第三样本图像的第三预测标注图像。
6103、基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异、每个第二样本图像对应的距离以及软标注图像与第三预测标注图像之间的差异,对本次迭代的图像标注模型进行训练。
其中,训练后的图像标注模型用于对目标域的图像进行标注。
由于基于每个第二样本图像对应的距离来训练软标注图像时,能够使得图像标注模型输出的图像特征贴近第二聚类中心,会导致失去目标域的第二样本图像所具有的独特的信息,而利用软标注图像与第三预测标注图像之间的差异,来训练图像标注模型,使图像标注模型输出的图像特征锐化,能够突出目标域的样本图像所具有的独特信息,从而提升图像标注模型在目标域的适用性,从而提升图像标注模型在目标域上的模型表现。
在一种可能实现方式中,利用确定的损失值来训练图像标注模型,也即是,6103包括:基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异,确定第三损失值,基于每个第二样本图像对应的距离,确定第四损失值,基于软标注图像与第三预测标注图像之间的差异,确定第五损失值,基于第三损失值、第四损失值及第五损失值之和,对本次迭代的图像标注模型进行训练。
基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异、每个第二样本图像对应的距离及软标注图像与第三预测标注图像之间的差异来确定损失值,以使能够按照损失值来训练图像标注模型,从而保证训练图像标注模型的准确性。
可选地,第五损失值是利用伪标注损失函数,基于软标注图像与第三预测标注图像之间的差异得到的。
可选地,第五损失值满足以下关系:
可选地,第三损失值、第四损失值及第五损失值之和满足以下关系:
如图9所示,图像标注模型包括特征提取子模型和特征转换子模型,基于第一样本图像、第一标注图像、目标样本图像、第二标注图像、第三样本图像、第三样本图像的软标注图像以及每个第二样本对应的距离,来训练图像标注模型。
另外,软标签图像能够包括对应的第三样本图像中每个像素点所属的类别及对应的概率,则在基于软标签图像与第三预测标注图像之间的差异来训练图像标注模型时,仅从软标签图像中选取概率大于阈值的像素点,基于概率大于阈值的像素点在软标注图像及第三预测标注图像中所属的类别之间的差异来训练图像标注模型。其中,阈值为任意的数值。
另外,在训练图像标注模型的过程中,在不同次迭代中基于图像标注模型对同一样本图像进行标注得到的标注图像可能存在差异,则在基于软标签图像与第三预测标注图像之间的差异来训练图像标注模型时,确定第三预测标注图像的不确定区域,将不确定区域以外的区域与软标签图像中相对应的区域之间的差异,来训练图像标注模型。其中,不确定区域用于表示图像标注模型多次对同一样本图像进行标注得到的标注图像之间的差异区域。
需要说明的是,本申请实施例是基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异、每个第二样本图像对应的距离来训练图像标注模型的,而在另一实施例中,无需执行步骤608-610,能够采取其他方式,基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异,对图像标注模型进行训练。
在一种可能实现方式中,按照步骤607-610对图像标注模型进行迭代训练的过程中,若迭代次数大于次数阈值,停止训练图像标注模型,或者,若第三损失值、第四损失值及第五损失值之和小于损失阈值,停止训练图像标注模型。
在本申请实施例中,训练图像标注模型的过程,能够基于PyTorch(一种开源代码)来实现。根据多种损失函数,来确定图像标注模型的损失值,以使基于确定的损失值来训练图像标注模型。并且,在迭代训练图像标注模型的过程中,基于SGD(Stochastic GradientDescent,随机梯度下降法),来更新图像标注模型中的参数,并将SGD的初始学习率设置为2.5x10-4,并且使用能量为0.9的Poly(衰减)策略来逐步降低学习率。
611、计算机设备调用训练后的图像标注模型,对目标域的目标图像进行标注,得到目标图像的标注图像。
该步骤与上述步骤607同理,在此不再赘述。
在本申请实施例中,在训练图像标注模型后,能够将训练后的图像标注模型部署在区块链中,区块链中的任一计算机设备能够调用该图像标注模型,对目标域的目标图像进行标注。
本申请实施例提供的方法,由于源域与目标域的图像存在差异,目标域的图像具有目标域的独特信息,因此,从目标域选取与源域的样本图像最不相似的样本图像,并利用选取的样本图像及源域的样本图像和标注图像来训练图像标注模型,以使图像标注模型能够学习到目标域的样本图像的独特信息,从而提高图像标注模型在目标域的适用性,提升了图像标注模型在目标域上的模型表现,也提高了图像标注模型在目标域上的标注准确率。
并且,无需对目标域的每个第二样本图像进行标注,减少了获取标注图像的成本,从而提升了训练图像标注模型的效率。
基于本申请实施例提供的图像标注方法得到的图像标注模型,与相关技术中的图像标注模型相比,如图10所示,利用本申请提供的图像标注模型及相关技术提供的图像标注模型1和图像标注模型2,对不同的原始图像进行标注,得到的标注图像如图10所示,图10中最后一列图像为人工标注图像,相当于真实的标注图像。通过对比多个图像标注模型对应的标注图像可知,本申请所提供的图像标注模型在目标域上的模型表现更好,通过本申请所提供的图像标注模型得到的标注图像更贴近真实的标注图像,即基于本申请所提供的图像标注模型所得到的标注图像的准确率更高。
以两个语义分割场景为例,如游戏虚拟场景—真实场景、合成的虚拟场景—真实场景,分别以虚拟场景中的图像为源域的图像,真实场景中的图像为目标域的图像。利用本申请提供的图像标注模型及相关技术提供的图像标注模型1、图像标注模型2、图像标注模型3及图像标注模型4,来以不同语义分割场景中的图像进行标注。表2是以游戏虚拟场景—真实场景为例,通过表2可知,本申请提供的图像标注模型的标注准确率更高,表3是以合成的虚拟场景—真实场景为例,通过表3可知,本申请提供的图像标注模型的标注准确率更高。
表2
表3
图11是本申请实施例提供的一种图像标注装置的结构示意图,如图11所示,该装置包括:
获取模块1101,用于获取源域的第一样本图像、第一样本图像的第一标注图像及目标域的多个第二样本图像;
获取模块1101,还用于从多个第二样本图像中选取目标样本图像,获取目标样本图像的第二标注图像,目标样本图像为多个第二样本图像中,与源域的样本图像之间具有最小相似度的第二样本图像;
标注模块1102,用于调用图像标注模型,分别对第一样本图像及目标样本图像进行标注,得到第一样本图像的第一预测标注图像以及目标样本图像的第二预测标注图像;
训练模块1103,用于基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异,对图像标注模型进行训练。
在一种可能实现方式中,如图12所示,装置还包括:
获取模块1101,还用于获取多个第一样本图像的第一图像特征以及多个第二样本图像的第二图像特征;
聚类模块1104,用于基于获取到的多个第一图像特征,对多个第一样本图像进行聚类,得到至少一个第一聚类中心;
确定模块1105,用于对于任一第二样本图像,确定第二样本图像的第二图像特征与每个第一聚类中心之间的距离,基于确定的距离中的最小距离,确定第二样本图像与源域的样本图像之间的相似度,第二样本图像对应的最小距离与对应的相似度呈负相关关系。
在另一种可能实现方式中,如图12所示,获取模块1101,包括:
特征提取单元1111,用于调用图像标注模型中的特征提取子模型,对每个第一样本图像进行特征提取,得到每个第一样本图像的第三图像特征;
融合单元1112,用于将每个第一样本图像对应的第三图像特征与对应的第一标注图像进行融合,得到每个第一样本图像的第一图像特征。
在另一种可能实现方式中,第一标注图像包括至少一个类别对应的区域;融合单元1112,用于对于任一第一样本图像,从第一样本图像的第一标注图像中提取至少一个类别对应的子标注图像,子标注图像用于指示属于对应的类别的像素点;将每个类别对应的子标注图像与第一样本图像的第三图像特征进行融合,得到每个类别对应的第四图像特征;将至少一个类别对应的第四图像特征进行拼接,得到第一样本图像的第一图像特征。
在另一种可能实现方式中,融合单元1112,用于对于任一类别对应的子标注图像,将子标注图像中的每个像素点的像素值与对应的特征值进行点乘,得到每个像素点对应的乘积,任一像素点对应的特征值为第三图像特征中与像素点位于相同位置的特征值;确定每个像素点对应的乘积与像素点数目之间的比值,由每个像素点对应的比值构成类别对应的第四图像特征,像素点数目为子标注图像中属于对应类别的像素点的数目。
在另一种可能实现方式中,如图12所示,获取模块1101,包括:
特征提取单元1111,用于调用图像标注模型中的特征提取子模型,对每个第二样本图像进行特征提取,得到每个第二样本图像的第五图像特征;
第一获取单元1113,用于获取每个第二样本图像的软标注图像,软标注图像是在训练图像标注模型之前,由图像标注模型对第二样本图像进行标注得到的;
融合单元1112,用于将每个第二样本图像的第五图像特征与对应的软标注图像进行融合,得到每个第二样本图像的第二图像特征。
在另一种可能实现方式中,如图12所示,训练模块1103,包括:
第二获取单元1131,用于在训练图像标注模型的过程中,获取本次迭代中多个第二样本图像对应的至少一个第二聚类中心,至少一个第二聚类中心是基于第二样本图像的第二图像特征进行聚类得到的;
第二获取单元1131,还用于获取本次迭代中每个第二样本图像的第二图像特征与至少一个第二聚类中心之间的距离;
训练单元1132,用于基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异、每个第二样本图像对应的距离,对本次迭代的图像标注模型进行训练。
在另一种可能实现方式中,第二获取单元1131,用于若本次迭代是训练过程的第一次迭代,获取本次迭代中每个第二样本图像的第二图像特征;基于获取到的多个第二图像特征,对多个第二样本图像进行聚类,得到至少一个第二聚类中心。
在另一种可能实现方式中,第二获取单元1131,还用于若本次迭代不是训练过程的第一次迭代,基于上一次迭代中每个第二图像特征与每个第二聚类中心之间的距离,将每个第二图像特征分配给距离最近的第二聚类中心;基于每个第二聚类中心对应的第二图像特征,分别对每个第二聚类中心进行更新;将更新后的第二聚类中心确定为本次迭代对应的第二聚类中心。
在另一种可能实现方式中,获取模块1101,还用于获取第三样本图像的软标注图像,第三样本图像为多个第二样本图像中除目标样本图像外的第二样本图像,软标注图像是在训练图像标注模型之前,由图像标注模型对第三样本图像进行标注得到的;
训练单元1132,用于调用图像标注模型,对第三样本图像进行标注,得到第三样本图像的第三预测标注图像;基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异、每个第二样本图像对应的距离以及软标注图像与第三预测标注图像之间的差异,对本次迭代的图像标注模型进行训练。
在另一种可能实现方式中,训练模块1103,还用于基于第一样本图像、第一标注图像及多个第二样本图像,对图像标注模型及判别模型进行对抗训练,判别模型用于判别图像标注模型输出的标注图像是否为第一样本图像的标注图像。
在另一种可能实现方式中,训练模块1103,用于调用图像标注模型,分别对第一样本图像及多个第二样本图像进行标注,得到第一样本图像的第四预测标注图像及每个第二样本图像的第五预测标注图像;调用判别模型对第四预测标注图像及第五预测标注图像进行判别,得到判别结果;基于第四预测标注图像与第一标注图像之间的差异、判别结果,对图像标注模型及判别模型进行训练。
在另一种可能实现方式中,标注模块1102,还用于调用训练后的图像标注模型,对目标域的目标图像进行标注,得到目标图像的标注图像。
需要说明的是:上述实施例提供的图像标注装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像标注装置与图像标注方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的图像标注方法中所执行的操作。
可选地,计算机设备提供为终端。图13示出了本申请一个示例性实施例提供的终端1300的结构框图。该终端1300可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
终端1300包括有:处理器1301和存储器1302。
处理器1301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1301可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1302中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器1301所执行以实现本申请中方法实施例提供的图像标注方法。
在一些实施例中,终端1300还可选包括有:***设备接口1303和至少一个***设备。处理器1301、存储器1302和***设备接口1303之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1303相连。具体地,***设备包括:射频电路1304、显示屏1305、摄像头组件1306、音频电路1307、定位组件1308和电源1309中的至少一种。
***设备接口1303可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器1301和存储器1302。在一些实施例中,处理器1301、存储器1302和***设备接口1303被集成在同一芯片或电路板上;在一些其他实施例中,处理器1301、存储器1302和***设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1304包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1304还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时,显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时,显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1305可以为一个,设置在终端1300的前面板;在另一些实施例中,显示屏1305可以为至少两个,分别设置在终端1300的不同表面或呈折叠设计;在另一些实施例中,显示屏1305可以是柔性显示屏,设置在终端1300的弯曲表面上或折叠面上。甚至,显示屏1305还可以设置成非矩形的不规则图形,也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。
摄像头组件1306用于采集图像或视频。可选地,摄像头组件1306包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1301进行处理,或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1307还可以包括耳机插孔。
定位组件1308用于定位终端1300的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1308可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。
电源1309用于为终端1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于:加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。
加速度传感器1311可以检测以终端1300建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1311可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1311采集的重力加速度信号,控制显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1311还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1312可以检测终端1300的机体方向及转动角度,陀螺仪传感器1312可以与加速度传感器1311协同采集用户对终端1300的3D动作。处理器1301根据陀螺仪传感器1312采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1313可以设置在终端1300的侧边框和/或显示屏1305的下层。当压力传感器1313设置在终端1300的侧边框时,可以检测用户对终端1300的握持信号,由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在显示屏1305的下层时,由处理器1301根据用户对显示屏1305的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1314用于采集用户的指纹,由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份,或者,由指纹传感器1314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1301授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1314可以被设置在终端1300的正面、背面或侧面。当终端1300上设置有物理按键或厂商Logo时,指纹传感器1314可以与物理按键或厂商Logo集成在一起。
光学传感器1315用于采集环境光强度。在一个实施例中,处理器1301可以根据光学传感器1315采集的环境光强度,控制显示屏1305的显示亮度。具体地,当环境光强度较高时,调高显示屏1305的显示亮度;当环境光强度较低时,调低显示屏1305的显示亮度。在另一个实施例中,处理器1301还可以根据光学传感器1315采集的环境光强度,动态调整摄像头组件1306的拍摄参数。
接近传感器1316,也称距离传感器,设置在终端1300的前面板。接近传感器1316用于采集用户与终端1300的正面之间的距离。在一个实施例中,当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变小时,由处理器1301控制显示屏1305从亮屏状态切换为息屏状态;当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变大时,由处理器1301控制显示屏1305从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图13中示出的结构并不构成对终端1300的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
可选地,计算机设备提供为服务器。图14是本申请实施例提供的一种服务器的结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1401和一个或一个以上的存储器1402,其中,存储器1402中存储有至少一条计算机程序,至少一条计算机程序由处理器1401加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的图像标注方法中所执行的操作。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备实现如上述实施例的图像标注方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种图像标注方法,其特征在于,所述方法包括:
获取源域的第一样本图像、所述第一样本图像的第一标注图像及目标域的多个第二样本图像;
从所述多个第二样本图像中选取目标样本图像,获取所述目标样本图像的第二标注图像,所述目标样本图像为所述多个第二样本图像中,与所述第一样本图像之间具有最小相似度的第二样本图像;
调用图像标注模型,分别对所述第一样本图像及所述目标样本图像进行标注,得到所述第一样本图像的第一预测标注图像以及所述目标样本图像的第二预测标注图像;
基于所述第一标注图像与所述第一预测标注图像之间的差异、所述第二标注图像与所述第二预测标注图像之间的差异,对所述图像标注模型进行训练,所述图像标注模型用于对所述目标域的图像进行标注。
2.根据权利要求1所述的方法,其特征在于,所述从所述多个第二样本图像中选取目标样本图像之前,所述方法还包括:
获取多个所述第一样本图像的第一图像特征以及所述多个第二样本图像的第二图像特征;
基于获取到的多个第一图像特征,对多个所述第一样本图像进行聚类,得到至少一个第一聚类中心;
对于任一第二样本图像,确定所述第二样本图像的第二图像特征与每个第一聚类中心之间的距离,基于确定的距离中的最小距离,确定所述第二样本图像与所述第一样本图像之间的相似度,所述第二样本图像对应的最小距离与对应的相似度呈负相关关系。
3.根据权利要求2所述的方法,其特征在于,所述获取多个所述第一样本图像的第一图像特征,包括:
调用所述图像标注模型中的特征提取子模型,对每个所述第一样本图像进行特征提取,得到每个所述第一样本图像的第三图像特征;
将每个所述第一样本图像对应的第三图像特征与对应的第一标注图像进行融合,得到每个所述第一样本图像的第一图像特征。
4.根据权利要求3所述的方法,其特征在于,所述第一标注图像包括至少一个类别对应的区域;所述将每个所述第一样本图像对应的第三图像特征与对应的第一标注图像进行融合,得到每个所述第一样本图像的第一图像特征,包括:
对于任一所述第一样本图像,从所述第一样本图像的第一标注图像中提取所述至少一个类别对应的子标注图像,所述子标注图像用于指示属于对应的类别的像素点;
将每个类别对应的子标注图像与所述第一样本图像的第三图像特征进行融合,得到每个类别对应的第四图像特征;
将所述至少一个类别对应的第四图像特征进行拼接,得到所述第一样本图像的第一图像特征。
5.根据权利要求4所述的方法,其特征在于,所述将每个类别对应的子标注图像与所述第一样本图像的第三图像特征进行融合,得到每个类别对应的第四图像特征,包括:
对于任一类别对应的子标注图像,将所述子标注图像中的每个像素点的像素值与对应的特征值进行点乘,得到所述每个像素点对应的乘积,任一像素点对应的特征值为所述第三图像特征中与所述像素点位于相同位置的特征值;
确定所述每个像素点对应的乘积与像素点数目之间的比值,由所述每个像素点对应的比值构成所述类别对应的第四图像特征,所述像素点数目为所述子标注图像中属于对应类别的像素点的数目。
6.根据权利要求2所述的方法,其特征在于,获取所述多个第二样本图像的第二图像特征,包括:
调用所述图像标注模型中的特征提取子模型,对每个第二样本图像进行特征提取,得到所述每个第二样本图像的第五图像特征;
获取所述每个第二样本图像的软标注图像,所述软标注图像是在训练所述图像标注模型之前,由所述图像标注模型对第二样本图像进行标注得到的;
将所述每个第二样本图像的第五图像特征与对应的软标注图像进行融合,得到所述每个第二样本图像的第二图像特征。
7.根据权利要求1所述的方法,其特征在于,所述基于所述第一标注图像与所述第一预测标注图像之间的差异、所述第二标注图像与所述第二预测标注图像之间的差异,对所述图像标注模型进行训练,包括:
在训练所述图像标注模型的过程中,获取本次迭代中所述多个第二样本图像对应的至少一个第二聚类中心,所述至少一个第二聚类中心是基于所述第二样本图像的第二图像特征进行聚类得到的;
获取所述本次迭代中每个第二样本图像的第二图像特征与所述至少一个第二聚类中心之间的距离;
基于所述第一标注图像与所述第一预测标注图像之间的差异、所述第二标注图像与所述第二预测标注图像之间的差异、所述每个第二样本图像对应的距离,对所述本次迭代的所述图像标注模型进行训练。
8.根据权利要求7所述的方法,其特征在于,所述获取本次迭代中所述多个第二样本图像对应的至少一个第二聚类中心,包括:
若所述本次迭代是训练过程的第一次迭代,获取所述本次迭代中所述每个第二样本图像的第二图像特征;
基于获取到的多个第二图像特征,对所述多个第二样本图像进行聚类,得到所述至少一个第二聚类中心。
9.根据权利要求8所述的方法,其特征在于,所述获取本次迭代中所述多个第二样本图像对应的至少一个第二聚类中心,还包括:
若所述本次迭代不是训练过程的所述第一次迭代,基于上一次迭代中每个第二图像特征与每个第二聚类中心之间的距离,将每个第二图像特征分配给距离最近的第二聚类中心;
基于所述每个第二聚类中心对应的第二图像特征,分别对所述每个第二聚类中心进行更新;
将更新后的第二聚类中心确定为本次迭代对应的第二聚类中心。
10.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取第三样本图像的软标注图像,所述第三样本图像为所述多个第二样本图像中除所述目标样本图像外的第二样本图像,所述软标注图像是在训练所述图像标注模型之前,由所述图像标注模型对第三样本图像进行标注得到的;
所述基于所述第一标注图像与所述第一预测标注图像之间的差异、所述第二标注图像与所述第二预测标注图像之间的差异、所述每个第二样本图像对应的距离,对所述本次迭代的所述图像标注模型进行训练,包括:
调用所述图像标注模型,对所述第三样本图像进行标注,得到所述第三样本图像的第三预测标注图像;
基于所述第一标注图像与所述第一预测标注图像之间的差异、所述第二标注图像与所述第二预测标注图像之间的差异、所述每个第二样本图像对应的距离、所述软标注图像与所述第三预测标注图像之间的差异,对所述本次迭代的所述图像标注模型进行训练。
11.根据权利要求1所述的方法,其特征在于,所述基于所述第一标注图像与所述第一预测标注图像之间的差异、所述第二标注图像与所述第二预测标注图像之间的差异,对所述图像标注模型进行训练之前,所述方法还包括:
基于所述第一样本图像、所述第一标注图像及所述多个第二样本图像,对所述图像标注模型及判别模型进行对抗训练,所述判别模型用于判别所述图像标注模型输出的标注图像是否为所述第一样本图像的标注图像。
12.根据权利要求11所述的方法,其特征在于,所述基于所述第一样本图像、所述第一标注图像及所述多个第二样本图像,对所述图像标注模型及判别模型进行对抗训练,包括:
调用所述图像标注模型,分别对所述第一样本图像及所述多个第二样本图像进行标注,得到所述第一样本图像的第四预测标注图像及每个第二样本图像的第五预测标注图像;
调用所述判别模型对所述第四预测标注图像及所述第五预测标注图像进行判别,得到判别结果;
基于所述第四预测标注图像与所述第一标注图像之间的差异、所述判别结果,对所述图像标注模型及所述判别模型进行训练。
13.一种图像标注装置,其特征在于,所述装置包括:
获取模块,用于获取源域的第一样本图像、所述第一样本图像的第一标注图像及目标域的多个第二样本图像;
所述获取模块,还用于从所述多个第二样本图像中选取目标样本图像,获取所述目标样本图像的第二标注图像,所述目标样本图像为所述多个第二样本图像中,与所述第一样本图像之间具有最小相似度的第二样本图像;
标注模块,用于调用图像标注模型,分别对所述第一样本图像及所述目标样本图像进行标注,得到所述第一样本图像的第一预测标注图像以及所述目标样本图像的第二预测标注图像;
训练模块,用于基于所述第一标注图像与所述第一预测标注图像之间的差异、所述第二标注图像与所述第二预测标注图像之间的差异,对所述图像标注模型进行训练,所述图像标注模型用于对所述目标域的图像进行标注。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至12任一权利要求所述的图像标注方法中所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至12任一权利要求所述的图像标注方法中所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110679659.4A CN113822263A (zh) | 2021-06-18 | 2021-06-18 | 图像标注方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110679659.4A CN113822263A (zh) | 2021-06-18 | 2021-06-18 | 图像标注方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113822263A true CN113822263A (zh) | 2021-12-21 |
Family
ID=78923807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110679659.4A Pending CN113822263A (zh) | 2021-06-18 | 2021-06-18 | 图像标注方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822263A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492761A (zh) * | 2022-02-09 | 2022-05-13 | 腾讯科技(深圳)有限公司 | 编码模型的获取方法、聚类方法、装置、设备及介质 |
CN114519404A (zh) * | 2022-04-20 | 2022-05-20 | 四川万网鑫成信息科技有限公司 | 一种图像样本分类标注方法、装置、设备、存储介质 |
CN116612474A (zh) * | 2023-07-20 | 2023-08-18 | 深圳思谋信息科技有限公司 | 对象检测方法、装置、计算机设备及计算机可读存储介质 |
-
2021
- 2021-06-18 CN CN202110679659.4A patent/CN113822263A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492761A (zh) * | 2022-02-09 | 2022-05-13 | 腾讯科技(深圳)有限公司 | 编码模型的获取方法、聚类方法、装置、设备及介质 |
CN114519404A (zh) * | 2022-04-20 | 2022-05-20 | 四川万网鑫成信息科技有限公司 | 一种图像样本分类标注方法、装置、设备、存储介质 |
CN114519404B (zh) * | 2022-04-20 | 2022-07-12 | 四川万网鑫成信息科技有限公司 | 一种图像样本分类标注方法、装置、设备、存储介质 |
CN116612474A (zh) * | 2023-07-20 | 2023-08-18 | 深圳思谋信息科技有限公司 | 对象检测方法、装置、计算机设备及计算机可读存储介质 |
CN116612474B (zh) * | 2023-07-20 | 2023-11-03 | 深圳思谋信息科技有限公司 | 对象检测方法、装置、计算机设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091132B (zh) | 基于人工智能的图像识别方法、装置、计算机设备及介质 | |
CN111476783B (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN111104980B (zh) | 确定分类结果的方法、装置、设备及存储介质 | |
CN111931877B (zh) | 目标检测方法、装置、设备及存储介质 | |
CN110544272A (zh) | 脸部跟踪方法、装置、计算机设备及存储介质 | |
CN113822263A (zh) | 图像标注方法、装置、计算机设备及存储介质 | |
CN111243668B (zh) | 分子结合位点检测方法、装置、电子设备及存储介质 | |
CN114332530A (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN113395542A (zh) | 基于人工智能的视频生成方法、装置、计算机设备及介质 | |
CN112749728A (zh) | 学生模型训练方法、装置、计算机设备及存储介质 | |
CN112036331A (zh) | 活体检测模型的训练方法、装置、设备及存储介质 | |
CN112749613B (zh) | 视频数据处理方法、装置、计算机设备及存储介质 | |
CN112989767B (zh) | 医学词语标注方法、医学词语映射方法、装置及设备 | |
CN111368116B (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN111178343A (zh) | 基于人工智能的多媒体资源检测方法、装置、设备及介质 | |
CN114283299A (zh) | 图像聚类方法、装置、计算机设备及存储介质 | |
CN113724189A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113705302A (zh) | 图像生成模型的训练方法、装置、计算机设备及存储介质 | |
CN111914180A (zh) | 基于图结构的用户特征确定方法、装置、设备及介质 | |
CN112561084B (zh) | 特征提取方法、装置、计算机设备及存储介质 | |
CN112037305B (zh) | 对图像中的树状组织进行重建的方法、设备及存储介质 | |
CN114281936A (zh) | 分类方法、装置、计算机设备及存储介质 | |
CN113570510A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111353513B (zh) | 一种目标人群筛选的方法、装置、终端和存储介质 | |
CN111753813A (zh) | 图像处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |