CN111353549B - 图像标签的核验方法及装置、电子设备、存储介质 - Google Patents

图像标签的核验方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN111353549B
CN111353549B CN202010169690.9A CN202010169690A CN111353549B CN 111353549 B CN111353549 B CN 111353549B CN 202010169690 A CN202010169690 A CN 202010169690A CN 111353549 B CN111353549 B CN 111353549B
Authority
CN
China
Prior art keywords
image
checked
label
images
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010169690.9A
Other languages
English (en)
Other versions
CN111353549A (zh
Inventor
秦永强
李素莹
纪双西
张祥伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ainnovation Chongqing Technology Co ltd
Original Assignee
Ainnovation Chongqing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ainnovation Chongqing Technology Co ltd filed Critical Ainnovation Chongqing Technology Co ltd
Priority to CN202010169690.9A priority Critical patent/CN111353549B/zh
Publication of CN111353549A publication Critical patent/CN111353549A/zh
Application granted granted Critical
Publication of CN111353549B publication Critical patent/CN111353549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种图像标签的核验方法及装置、电子设备、计算机可读存储介质,方法包括:利用初始训练集训练的机器学习模型对待核验集中的待核验图像进行分类计算,获得所述待核验图像的预测标签和标签可信度;根据所述待核验图像的标签可信度,从所述待核验集中进行可信图像的筛选;根据所述可信图像的预测标签,重新进行所述机器学习模型的训练以及所述待核验图像的分类计算,直到所述待核验图像的标签预测结果满足可信度要求;比对所述待核验图像的标签预测结果和标注标签,获得核验结果。本申请提供的实施例,整个核验过程通过计算机来执行,降低了人工成本。

Description

图像标签的核验方法及装置、电子设备、存储介质
技术领域
本申请涉及图像处理技术领域,特别涉及一种图像标签的核验方法及装置、电子设备、计算机可读存储介质。
背景技术
对于有监督学习的机器学习模型,需要大量有标注的数据作为训练集,且训练集的数据质量对机器学习模型的学习效果和实现能力至关重要。为了保证数据质量,人工对数据标注标签后,通常需要对已标注的数据进行多轮核查,反复清洗,以确保数据标注了正确的标签。这个过程的人工成本非常高。
发明内容
本申请实施例的目的在于提供一种图像标签的核验方法及装置、电子设备、计算机可读存储介质,用于降低核验图片标签的人工成本。
一方面,本申请提供了一种图像标签的核验方法,包括:
利用初始训练集训练的机器学习模型对待核验集中的待核验图像进行分类计算,获得所述待核验图像的预测标签和标签可信度;
根据所述待核验图像的标签可信度,从所述待核验集中进行可信图像的筛选;
根据所述可信图像的预测标签,重新进行所述机器学习模型的训练以及所述待核验图像的分类计算,直到所述待核验图像的标签预测结果满足可信度要求;
比对所述待核验图像的标签预测结果和标注标签,获得核验结果。
在一实施例中,在所述利用初始训练集训练的机器学习模型对待核验集中的待核验图像进行分类计算之前,所述方法还包括:
选择所述标注标签可信的标注图像,作为样本图像加入所述初始训练集,并将所述初始训练集以外的标注图像作为待核验图像加入所述待核验集;
利用所述初始训练集中的样本图像训练所述机器学习模型。
在一实施例中,所述选择所述标注标签可信的标注图像,包括:
针对所述标注标签指示同一图像类别信息的标注图像,聚类划分至多个簇;
计算每一簇的簇中心图像和簇内每一标注图像之间的一致性参数;
依据所述一致性参数筛选出标注标签可信的标注图像。
在一实施例中,所述标签可信度包括特征距离;所述对待核验集中的待核验图像进行分类计算,获得所述待核验图像的预测标签和标签可信度,包括:
通过所述机器学习模型提取所述待核验图像的图像特征,并基于所述图像特征进行分类计算,获得所述待核验图像的预测标签;
对于每一待核验图像,通过所述机器学习模型,提取标注标签与该待核验图像的预测标签相同的样本图像的图像特征;
计算所述待核验图像的图像特征与所述样本图像的图像特征之间的特征距离。
在一实施例中,所述根据所述待核验图像的标签可信度,从所述待核验集中进行可信图像的筛选,包括:
对于每一预测标签,从具有该预测标签的待核验图像中筛选候选可信图像;
对于每一候选可信图像,判断该候选可信图像对应的特征距离是否小于预设距离阈值,若是,确定所述候选可信图像为可信图像。
在一实施例中,所述对于每一预测标签,从具有该预测标签的待核验图像中筛选候选可信图像,包括:
对于每一预测标签,依据与训练次数对应的预设比值和具有该预测标签的待核验图像的总数,确定所述候选可信图像的第一数量;
基于所述第一数量,选择所述特征距离最小的待核验图像,作为该预测标签对应的候选可信图像。
在一实施例中,所述对于每一预测标签,从具有该预测标签的待核验图像中筛选候选可信图像,包括:
判断每一待核验图像的预测标签对应的置信度是否大于预设置信度阈值,若是,将该待核验图像作为该预测标签对应的候选可信图像。
另一方面,本申请还提供了一种图像标签的核验装置,包括:
预测模块,用于利用初始训练集训练的机器学习模型对待核验集中的待核验图像进行分类计算,获得所述待核验图像的预测标签和标签可信度;
筛选模块,用于根据所述待核验图像的标签可信度,从所述待核验集中进行可信图像的筛选;
训练模块,用于根据所述可信图像的预测标签,重新进行所述机器学习模型的训练以及所述待核验图像的分类计算,直到所述待核验图像的标签预测结果满足可信度要求;
核验模块,用于比对所述待核验图像的标签预测结果和标注标签,获得核验结果。
进一步,本申请还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述图像标签的核验方法。
另外,本申请还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述图像标签的核验方法。
在本申请提供的实施例中,训练机器学习模型对待核验图像进行分类计算,获得预测标签和标签可信度,根据标签可信度筛选出可信图像,然后根据可信图像的预测标签,重新训练机器学习模型以及以训练后的机器学习模型对待核验图像进行分类计算,直到待核验图像的标签预测结果满足可信度要求,通过比对待核验图像的标签预测结果和标注标签,可以获得核验结果;整个核验过程通过计算机来执行,降低了人工成本。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请一示例性实施例提供的电子设备的结构示意图;
图2为本申请一示例性实施例提供的图像标签的核验方法的流程示意图;
图3为本申请又一示例性实施例提供的图像标签的核验方法的流程示意图;
图4为本申请一实施例提供的图像标签的核验装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,本申请实施例提供的电子设备1,包括:至少一个处理器11和存储器12,图1中以一个处理器11为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中,电子设备1可以是执行图像标签的核验的主机。
存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序可由处理器11执行以完成本申请提供的图像标签的核验方法。
参见图2,为本申请一实施例提供的图像标签的核验方法的流程示意图,如图2所示,该方法可以包括以下步骤210-步骤240。
步骤210:利用初始训练集训练的机器学习模型对待核验集中的待核验图像进行分类计算,获得所述待核验图像的预测标签和标签可信度。
其中,上述机器学习模型是用于图像分类的网络模型,可以是AlexNet、ZFNet、VGGNet、GoogLeNet、ResNet等网络模型中的任意一种。
上述初始训练集包括初始状态下选中的样本图像,样本图像携带指示图像类别信息的标注标签。初始训练集中的样本图像可以是人工挑选的,样本图像的标注标签经人工核验具有准确性。通过样本图像的训练,机器学习模型可以执行分类计算。
上述待核验集可以包括所有标注标签需要核验的待核验图像。
在一实施例中,主机通过机器学习模型提取待核验图像的图像特征,并基于图像特征进行分类计算,获得待核验图像的预测标签和对应于该预测标签的置信度。这里,预测标签指示机器学习模型为待核验图像计算出的图像类别信息。
主机通过机器学习模型对待核验集中所有待核验图像进行分类计算后,可以得到每一待核验图像的预测标签和与该预测标签对应的标签可信度。标签可信度用于表征预测标签的正确性。
示例性的,标签可信度可以是待核验图像的图像特征与样本图像的图像特征之间的特征距离。特征距离与标签可信度成反比,特征距离越大,说明标签可信度越低,反之,特征距离越小,说明标签可信度越高。
在一实施例中,如果标签可信度为特征距离,对于每一待核验图像,主机可以通过上述机器学习模型,提取标注标签与该待核验图像的预测标签相同的样本图像的图像特征。
这里,图像特征可以是特征向量或特征图,特征距离可以是待核验图像的特征向量与样本图像的特征向量之间的欧式距离,或者,是待核验图像的特征图与样本图像的特征图之间的欧式距离。
对于每一待核验图像,主机可以从上述初始训练集中选择标注标签与该待核验图像的预测标签相同的样本图像。
主机通过机器学习模型提取上述样本图像的图像特征,并计算待核验图像的图像特征与样本图像的图像特征之间的特征距离。
由于存在多个标注标签相同的样本图像,对于每一待核验图像,主机可以计算该待核验图像的图像特征与每一样本图像的图像特征之间的欧式距离,然后选择最小欧式距离作为特征距离。或者,计算多个欧式距离的平均值,将该平均值作为特征距离。
步骤220:根据所述待核验图像的标签可信度,从所述待核验集中进行可信图像的筛选。
对于每一预测标签,主机可以从具有该预测标签的待核验图像中筛选候选可信图像。
在一实施例中,对于每一预测标签,主机可以依据与训练次数对应的预设比值和具有该预测标签的待核验图像的总数,确定候选可信图像的第一数量。
这里,训练次数指的是对机器学习模型的训练次数。由于机器学习模型随着训练次数的增加,预测能力也在增加,因此,主机筛选出的预设比值是逐次增加的。比如:若设定总的训练次数为5次,则对应于训练次数的预设比值可以分别是20%、40%、60%、80%和100%。
每一预测标签对应的待核验图像的总数可能不同,基于该总数和上述预设比值,可以确定本次用于筛选候选可信图像的第一数量。比如:若预测标签“人脸”对应的待核验图像为100,本次预测前机器学习模型的训练次数对应的预设比值为60%,则第一数量为60。
主机可以基于第一数量,选择特征距离最小的待核验图像,作为该预测标签对应的候选可信图像。
在计算出第一数量后,对于具有同一预测标签的待核验图像,主机可以依据每一待核验图像对应的特征距离从大到小进行排序,然后选择特征距离最小的待核验图像,作为该预测标签对应的候选可信图像。比如:第一数量为60,具有同一预测标签的待核验图像的总数是100,将100个待核验图像按照特征距离排序后,选择特征距离最小的前60个待核验图像作为候选可信图像。
在又一实施例中,主机可以判断每一待核验图像的预测标签对应的置信度是否大于预设置信度阈值。示例性的,置信度阈值可以是0.5。
一种情况下,未达到置信度阈值,说明主机对该待核验图像的预测结果不可信。
另一种情况下,达到置信度阈值,说明主机对该待核验图像的预测结果较为可信,确定该待核验图像为候选可信图像。
筛选出候选可信图像后,主机可以验证上述候选可信图像是否为可信图像。
对于每一候选可信图像,主机可以判断该候选可信图像对应的特征距离是否小于预设距离阈值。这里,距离阈值可以是经验值。
一种情况下,特征距离不小于距离阈值,说明主机对该候选可信图像的预测结果不可信。
另一种情况下,特征距离小于阈值,说明主机对该候选可信图像的预测结果可信,确定该候选可信图像为可信图像。
步骤230:根据所述可信图像的预测标签,重新进行所述机器学习模型的训练以及所述待核验图像的分类计算,直到所述待核验图像的标签预测结果满足可信度要求。
在筛选出上述可信图像后,主机可根据可信图像的预测标签和上述初始训练集中的样本图像,重新训练机器学习模型,并重新基于训练后的机器学习模型对待核验图像进行分类计算。
机器学习模型每经一次训练,预测能力都会增强,机器学习模型对于每一待核验图像的标签预测结果的准确性会提高。整个过程迭代进行,随着训练次数的增加,机器学习模型预测出的可信图像会逐步增加,而通过可信图像对机器学习模型的训练又可提升机器学习模型的预测能力,从而使得模型更加稳定。
对于每一待核验图像,机器学习模型每次输出的标签预测结果可能不同,随着训练次数的增加,预测标签会趋于稳定,对应的标签可信度会增加。
这个过程一直循环,直到待核验图像的标签预测结果满足可信度要求。其中,可信度要求可以是待核验集中所有待核验图像对应的标签可信度均表明待核验图像为可信图像。
步骤240:比对所述待核验图像的标签预测结果和标注标签,获得核验结果。
当所有待核验图像均为可信图像时,主机可以比对每一待核验图像的预测标签和标注标签,获得核验结果。其中,核验结果可以包括预测标签和标注标签不一致的待核验图像。
在一实施例中,在执行步骤210之前,主机可以选择标注标签可信的标注图像,作为样本图像加入上述初始训练集,并将初始训练集以外的标注图像作为待核验图像加入上述待核验集。
通过该实施例的措施,可进一步降低获取样本图像的人工成本。
主机可以针对标注标签指示同一图像类别信息的标注图像,聚类划分至多个簇。
以k-means算法为例,主机可以获取针对任一图像类别信息的簇的数量K。其中,簇的数量可以预先设定。比如,对于图像类别信息为“人脸”的图像,根据拍摄角度正视、左视、右视、俯视、仰视可分为5个簇。
主机可从标注标签指示上述图像类别信息的标注图像中,随机选择K张簇中心图像。这里,簇中心图像为一个簇中处于中心位置的图像。
对于标注标签指示上述图像类别信息的每一标注图像,主机可以计算该标注图像与每一簇中心图像之间的欧式距离,并确定该标注图像与欧式距离最小的簇中心图像属于同一簇。其中,在计算欧式距离时,可将计算标注图像与簇中心图像的相同位置的像素点的差值,并计算出差值的平方,累加所有差值的平方后,进行开方,获得欧式距离。
经过一轮计算后,主机将同一标注标签的所有标注图像划分至多个簇。对于每一簇的标注图像,主机计算新的簇中心图像。主机可以计算所有标注图像的同位置的像素点的平均值,并将所有像素点的平均值组成的图像作为新的簇中心图像。
获得新的簇中心图像后,主机可以重新计算每一标注图像与每一簇中心图像之间的欧式距离,从而依据最小欧式距离将所有标注图像划分至多个簇。
一般,由于每次选择的簇中心图像不同,划分至各个簇的标注图像不同。当主机多次重复上述计算过程,划分结果不再变化,此时,聚类划分完成。
主机可以计算每一簇的簇中心图像和簇内每一标注图像之间的一致性参数。主机可以依据一致性参数筛选出标注标签可信的标注图像。
示例性的,如果主机根据簇中心图像与簇内标注图像的欧式距离进行聚类划分,一致性参数可以是上述欧式距离。
在这种情况下,主机可以直接获取最后一次计算时簇内每一标注图像与簇中心图像之间的欧式距离,并判断每一标注图像对应的一致性参数是否小于预设的参数阈值,若是,将该标注图像作为标注标签可信的标注图像。
主机通过欧式距离小于参数阈值,可以筛选出每一簇中相似度足够高的标注图像,由于标注标签出现大量错误的情况很罕见,所以此时可以认定筛选出的标注标签相同且相似的标注图像的标注标签是可信的。
通过上述措施,降低了选择样本图像的人工成本。
参见图3,为本申请又一示例性实施例提供的图像标签的核验方法的流程示意图。
主机执行步骤310,获取标注标签可信的样本图像,进而执行步骤320,通过样本图像训练机器学习模型。获得训练后的机器学习模型后,主机执行步骤330,通过已训练的机器学习模型对待核验图像进行分类计算,获得与每一待核验图像对应的预测标签。主机可以计算每一待核验图像的预测标签的标签可信度,并执行步骤340,判断标签预测结果是否满足可信度要求。其中,可信度要求为每一待核验图像的预测标签的标签可信度,可以确定该待核验图像为可信图像。
如果标签预测结果不满足可信度要求,主机重新执行步骤310。主机可以依据标签可信度筛选出可信图像作为样本图像。主机进而可执行步骤320至步骤340。直至标签预测结果满足可信度要求。
如果标签预测结果满足可信度要求,主机可以执行步骤350,比对每一待核验图像的预测标签和标注标签,从而获得核验结果。其中,核验结果可以包括预测标签和标注标签不一致的待核验图像。
图4是本发明一实施例的一种图像标签的核验装置的框图,如图4所示,该装置可以包括:预测模块410、筛选模块420、训练模块430、核验模块440。
预测模块410,用于利用初始训练集训练的机器学习模型对待核验集中的待核验图像进行分类计算,获得所述待核验图像的预测标签和标签可信度。
筛选模块420,用于根据所述待核验图像的标签可信度,从所述待核验集中进行可信图像的筛选。
训练模块430,用于根据所述可信图像的预测标签,重新进行所述机器学习模型的训练以及所述待核验图像的分类计算,直到所述待核验图像的标签预测结果满足可信度要求。
核验模块440,用于比对所述待核验图像的标签预测结果和标注标签,获得核验结果。
在一实施例中,所述装置还包括:
选择单元(图中未示出),用于选择所述标注标签可信的标注图像,作为样本图像加入所述初始训练集,并将所述初始训练集以外的标注图像作为待核验图像加入所述待核验集。
训练单元(图中未示出),用于利用所述初始训练集中的样本图像训练所述机器学习模型。
在一实施例中,所述选择单元(图中未示出),进一步用于:
针对所述标注标签指示同一图像类别信息的标注图像,聚类划分至多个簇;
计算每一簇的簇中心图像和簇内每一标注图像之间的一致性参数;
依据所述一致性参数筛选出标注标签可信的标注图像。
在一实施例中,所述预测模块410,进一步用于:
通过所述机器学习模型提取所述待核验图像的图像特征,并基于所述图像特征进行分类计算,获得所述待核验图像的预测标签;
对于每一待核验图像,通过所述机器学习模型,提取标注标签与该待核验图像的预测标签相同的样本图像的图像特征;
计算所述待核验图像的图像特征与所述样本图像的图像特征之间的特征距离。
在一实施例中,所述筛选模块420,进一步用于:
对于每一预测标签,从具有该预测标签的待核验图像中筛选候选可信图像;
对于每一候选可信图像,判断该候选可信图像对应的特征距离是否小于预设距离阈值,若是,确定所述候选可信图像为可信图像。
在一实施例中,所述筛选模块420,进一步用于:
对于每一预测标签,依据与训练次数对应的预设比值和具有该预测标签的待核验图像的总数,确定所述候选可信图像的第一数量;
基于所述第一数量,选择所述特征距离最小的待核验图像,作为该预测标签对应的候选可信图像。
在一实施例中,所述筛选模块420,进一步用于:
判断每一待核验图像的预测标签对应的置信度是否大于预设置信度阈值,若是,将该待核验图像作为该预测标签对应的候选可信图像。
上述装置中各个模块的功能和作用的实现过程具体详见上述图像标签的核验方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (9)

1.一种图像标签的核验方法,其特征在于,包括:
利用初始训练集训练的机器学习模型对待核验集中的待核验图像进行分类计算,获得所述待核验图像的预测标签和标签可信度,包括:通过所述机器学习模型提取所述待核验图像的图像特征,并基于所述图像特征进行分类计算,获得所述待核验图像的预测标签;对于每一待核验图像,通过所述机器学习模型,提取标注标签与该待核验图像的预测标签相同的样本图像的图像特征;计算所述待核验图像的图像特征与所述样本图像的图像特征之间的特征距离,所述特征距离用于表征标签可信度;
根据所述待核验图像的标签可信度,从所述待核验集中进行可信图像的筛选;
根据所述可信图像的预测标签,重新进行所述机器学习模型的训练以及所述待核验图像的分类计算,直到所述待核验图像的标签预测结果满足可信度要求;
比对所述待核验图像的标签预测结果和标注标签,获得核验结果。
2.根据权利要求1所述的方法,其特征在于,在所述利用初始训练集训练的机器学习模型对待核验集中的待核验图像进行分类计算之前,所述方法还包括:
选择所述标注标签可信的标注图像,作为样本图像加入所述初始训练集,并将所述初始训练集以外的标注图像作为待核验图像加入所述待核验集;
利用所述初始训练集中的样本图像训练所述机器学习模型。
3.根据权利要求2所述的方法,其特征在于,所述选择所述标注标签可信的标注图像,包括:
针对所述标注标签指示同一图像类别信息的标注图像,聚类划分至多个簇;
计算每一簇的簇中心图像和簇内每一标注图像之间的一致性参数;
依据所述一致性参数筛选出标注标签可信的标注图像。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待核验图像的标签可信度,从所述待核验集中进行可信图像的筛选,包括:
对于每一预测标签,从具有该预测标签的待核验图像中筛选候选可信图像;
对于每一候选可信图像,判断该候选可信图像对应的特征距离是否小于预设距离阈值,若是,确定所述候选可信图像为可信图像。
5.根据权利要求4所述的方法,其特征在于,所述对于每一预测标签,从具有该预测标签的待核验图像中筛选候选可信图像,包括:
对于每一预测标签,依据与训练次数对应的预设比值和具有该预测标签的待核验图像的总数,确定所述候选可信图像的第一数量;
基于所述第一数量,选择所述特征距离最小的待核验图像,作为该预测标签对应的候选可信图像。
6.根据权利要求4所述的方法,其特征在于,所述对于每一预测标签,从具有该预测标签的待核验图像中筛选候选可信图像,包括:
判断每一待核验图像的预测标签对应的置信度是否大于预设置信度阈值,若是,将该待核验图像作为该预测标签对应的候选可信图像。
7.一种图像标签的核验装置,其特征在于,包括:
预测模块,用于利用初始训练集训练的机器学习模型对待核验集中的待核验图像进行分类计算,获得所述待核验图像的预测标签和标签可信度,包括:通过所述机器学习模型提取所述待核验图像的图像特征,并基于所述图像特征进行分类计算,获得所述待核验图像的预测标签;对于每一待核验图像,通过所述机器学习模型,提取标注标签与该待核验图像的预测标签相同的样本图像的图像特征;计算所述待核验图像的图像特征与所述样本图像的图像特征之间的特征距离,所述特征距离用于表征标签可信度;
筛选模块,用于根据所述待核验图像的标签可信度,从所述待核验集中进行可信图像的筛选;
训练模块,用于根据所述可信图像的预测标签,重新进行所述机器学习模型的训练以及所述待核验图像的分类计算,直到所述待核验图像的标签预测结果满足可信度要求;
核验模块,用于比对所述待核验图像的标签预测结果和标注标签,获得核验结果。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-6任意一项所述的图像标签的核验方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-6任意一项所述的图像标签的核验方法。
CN202010169690.9A 2020-03-10 2020-03-10 图像标签的核验方法及装置、电子设备、存储介质 Active CN111353549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010169690.9A CN111353549B (zh) 2020-03-10 2020-03-10 图像标签的核验方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010169690.9A CN111353549B (zh) 2020-03-10 2020-03-10 图像标签的核验方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN111353549A CN111353549A (zh) 2020-06-30
CN111353549B true CN111353549B (zh) 2023-01-31

Family

ID=71197376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010169690.9A Active CN111353549B (zh) 2020-03-10 2020-03-10 图像标签的核验方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN111353549B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115996B (zh) * 2020-09-11 2024-05-10 北京达佳互联信息技术有限公司 图像数据的处理方法、装置、设备及存储介质
CN112131415B (zh) * 2020-09-18 2024-05-10 北京影谱科技股份有限公司 基于深度学习提高数据采集质量的方法和装置
CN112163110B (zh) * 2020-09-27 2023-01-03 Oppo(重庆)智能科技有限公司 图像分类方法、装置、电子设备和计算机可读存储介质
CN112801114B (zh) * 2021-01-20 2024-03-08 杭州依图医疗技术有限公司 确定乳腺图像的投照位信息的方法及装置
CN112906817A (zh) * 2021-03-16 2021-06-04 中科海拓(无锡)科技有限公司 一种智能图像标注方法
CN113407680B (zh) * 2021-06-30 2023-06-02 竹间智能科技(上海)有限公司 异质集成模型筛选方法和电子设备
CN114863242B (zh) * 2022-04-26 2022-11-29 北京拙河科技有限公司 一种面向图像识别的深度学习网络的优化方法及***

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117429A (zh) * 2015-08-05 2015-12-02 广东工业大学 基于主动学习和多标签多示例学习的场景图像标注方法
CN105848109A (zh) * 2016-04-26 2016-08-10 国网安徽省电力公司信息通信分公司 一种室内物联网有源标签的定位方法
CN108416370A (zh) * 2018-02-07 2018-08-17 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
CN109241903A (zh) * 2018-08-30 2019-01-18 平安科技(深圳)有限公司 样本数据清洗方法、装置、计算机设备及存储介质
CN109271529A (zh) * 2018-10-10 2019-01-25 内蒙古大学 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN109345515A (zh) * 2018-09-17 2019-02-15 代黎明 样本标签置信度计算方法、装置、设备及模型训练方法
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置
CN110263814A (zh) * 2019-05-27 2019-09-20 南京信息工程大学 基于动态聚类趋势分析的增量聚类数据挖掘方法
CN110458107A (zh) * 2019-08-13 2019-11-15 北京百度网讯科技有限公司 用于图像识别的方法和装置
WO2019233271A1 (zh) * 2018-06-08 2019-12-12 Oppo广东移动通信有限公司 图像处理方法、计算机可读存储介质和电子设备
CN110704661A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 一种图像分类方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8194938B2 (en) * 2009-06-02 2012-06-05 George Mason Intellectual Properties, Inc. Face authentication using recognition-by-parts, boosting, and transduction
CN108764208B (zh) * 2018-06-08 2021-06-08 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN109800320B (zh) * 2019-01-04 2023-08-18 平安科技(深圳)有限公司 一种图像处理方法、设备及计算机可读存储介质
CN110598033B (zh) * 2019-08-14 2023-03-28 中国平安财产保险股份有限公司 智能自核验车方法、装置及计算机可读存储介质
CN110781859B (zh) * 2019-11-05 2022-08-19 深圳奇迹智慧网络有限公司 图像标注方法、装置、计算机设备和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117429A (zh) * 2015-08-05 2015-12-02 广东工业大学 基于主动学习和多标签多示例学习的场景图像标注方法
CN105848109A (zh) * 2016-04-26 2016-08-10 国网安徽省电力公司信息通信分公司 一种室内物联网有源标签的定位方法
CN108416370A (zh) * 2018-02-07 2018-08-17 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
WO2019233271A1 (zh) * 2018-06-08 2019-12-12 Oppo广东移动通信有限公司 图像处理方法、计算机可读存储介质和电子设备
CN109241903A (zh) * 2018-08-30 2019-01-18 平安科技(深圳)有限公司 样本数据清洗方法、装置、计算机设备及存储介质
CN109345515A (zh) * 2018-09-17 2019-02-15 代黎明 样本标签置信度计算方法、装置、设备及模型训练方法
CN109271529A (zh) * 2018-10-10 2019-01-25 内蒙古大学 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置
CN110263814A (zh) * 2019-05-27 2019-09-20 南京信息工程大学 基于动态聚类趋势分析的增量聚类数据挖掘方法
CN110458107A (zh) * 2019-08-13 2019-11-15 北京百度网讯科技有限公司 用于图像识别的方法和装置
CN110704661A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 一种图像分类方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Change Detection in Remote Sensing Images Based on Image Mapping and a Deep Capsule Network;Wenping Ma 等;《Remote Sensing》;20190314;1-24 *
Metric Learning for Regression Problems and Human Age Estimation;Bo Xiao 等;《Pacific-Rim Conference on Multimedia 2009》;20091231;88–99 *
基于弱标签数据的图像精细分类研究;肖浩泉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200215;I138-1311 *
复杂仿真实验结果可信度评估方法研究;胡晓峰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115;I138-2315 *

Also Published As

Publication number Publication date
CN111353549A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN111353549B (zh) 图像标签的核验方法及装置、电子设备、存储介质
CN111401609B (zh) 车流量时间序列的预测方法及预测装置
CN111680688B (zh) 字符识别方法及装置、电子设备、存储介质
CN106156766B (zh) 文本行分类器的生成方法及装置
CN112488218A (zh) 图像分类方法、图像分类模型的训练方法和装置
CN110135505B (zh) 图像分类方法、装置、计算机设备及计算机可读存储介质
CN111507371A (zh) 方法和装置
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
CN107133629B (zh) 图片分类方法、装置和移动终端
CN112541372B (zh) 一种困难样本筛选方法及装置
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
CN111783812B (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN116563868A (zh) 文本图像的识别方法、装置、计算机设备及存储介质
US20140241618A1 (en) Combining Region Based Image Classifiers
CN111488939A (zh) 模型训练方法、分类方法、装置及设备
CN111414930B (zh) 深度学习模型训练方法及装置、电子设备及存储介质
CN113822336A (zh) 一种云硬盘故障预测方法、装置、***及可读存储介质
CN112597997A (zh) 感兴趣区域确定方法、图像内容识别方法及装置
CN112990350B (zh) 目标检测网络训练方法及基于目标检测网络煤矸识别方法
CN112132239B (zh) 一种训练方法、装置、设备和存储介质
CN110942073A (zh) 一种集装箱拖车编号识别方法、装置和计算机设备
CN114898182A (zh) 一种基于目标检测学习算法的图片数据筛选方法及***
CN112699908B (zh) 标注图片的方法、电子终端、计算机可读存储介质及设备
CN114758168A (zh) 模型生成方法、多标签分类方法、装置以及电子设备
CN111385342B (zh) 一种物联网行业识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant