CN117611937A - 确定图像集合的方法、模型评估方法、装置、设备及介质 - Google Patents
确定图像集合的方法、模型评估方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117611937A CN117611937A CN202311359770.0A CN202311359770A CN117611937A CN 117611937 A CN117611937 A CN 117611937A CN 202311359770 A CN202311359770 A CN 202311359770A CN 117611937 A CN117611937 A CN 117611937A
- Authority
- CN
- China
- Prior art keywords
- image
- determining
- images
- target
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 162
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000012545 processing Methods 0.000 claims abstract description 64
- 238000013441 quality evaluation Methods 0.000 claims abstract description 44
- 238000004422 calculation algorithm Methods 0.000 claims description 42
- 230000004044 response Effects 0.000 claims description 26
- 238000001514 detection method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 230000000295 complement effect Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 230000001965 increasing effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 16
- 238000012549 training Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 210000004709 eyebrow Anatomy 0.000 description 8
- 210000001508 eye Anatomy 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 241000282326 Felis catus Species 0.000 description 6
- 230000001131 transforming effect Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 210000000697 sensory organ Anatomy 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000002146 bilateral effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000003749 cleanliness Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种确定图像集合的方法、模型评估方法、装置、设备及介质,涉及人工智能技术领域,尤其涉及图像处理、深度学习、智慧城市等领域。具体实现方案为:从至少一个原始图像中,确定图像质量评价值小于预定评价值的第一目标图像,第一目标图像包括对象;对第一目标图像进行数据增强处理,得到处理后图像;基于处理后图像,从图像库中召回第二目标图像;图像库中图像的图像质量评价值大于等于预定评价值;以及根据第一目标图像和第二目标图像,确定针对对象的图像集合。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及图像处理、深度学习、智慧城市等领域,更具体地,本公开提供了一种确定图像集合的方法、模型评估方法、装置、电子设备、存储介质以及计算机程序产品。
背景技术
随着人工智能的发展,模型的应用越来越广泛。在实际应用中,需要使用样本训练模型。在训练模型之后,可以使用测试数据评估模型的输出结果是否准确。可以看出,预先构建样本数据或者测试数据会影响模型训练和模型评估的效果。
发明内容
本公开提供了一种确定图像集合的方法、模型评估方法、装置、电子设备、存储介质以及计算机程序产品。
根据本公开的一方面,提供了一种确定图像集合的方法,包括:从至少一个原始图像中,确定图像质量评价值小于预定评价值的第一目标图像,第一目标图像包括对象;对第一目标图像进行数据增强处理,得到处理后图像;基于处理后图像,从图像库中召回第二目标图像;图像库中图像的图像质量评价值大于等于预定评价值;以及根据第一目标图像和第二目标图像,确定针对对象的图像集合。
根据本公开的另一方面,提供了一种模型评估方法,包括:根据针对至少两个对象的至少两个图像集,确定评估图像集;其中,评估图像集包括第一评估图像集,第一评估图像集包括针对第一对象的多个第一图像和针对第一对象之外的其他对象的多个第二图像;基于待评估模型,确定多个第一图像和多个第二图像彼此之间的相似度;根据相似度、目标误识率和第二图像的数量,确定目标相似度阈值;以及根据目标相似度阈值,确定针对待评估模型的评估结果。
根据本公开的另一方面,提供了一种确定图像集合的装置,包括:第一目标图像确定模块、处理模块、第二目标图像确定模块以及图像集合确定模块。第一目标图像确定模块用于从至少一个原始图像中,确定图像质量评价值小于预定评价值的第一目标图像,第一目标图像包括对象;处理模块用于对第一目标图像进行数据增强处理,得到处理后图像;第二目标图像确定模块用于基于处理后图像,从图像库中召回第二目标图像;图像库中图像的图像质量评价值大于等于预定评价值;图像集合确定模块用于根据第一目标图像和第二目标图像,确定针对对象的图像集合。
根据本公开的另一方面,提供了一种模型评估装置,包括:评估图像集确定模块、相似度确定模块、阈值确定模块以及评估结果确定模块。评估图像集确定模块用于根据针对至少两个对象的至少两个图像集,确定评估图像集;其中,评估图像集包括第一评估图像集,第一评估图像集包括针对第一对象的多个第一图像和针对第一对象之外的其他对象的多个第二图像;相似度确定模块用于基于待评估模型,确定多个第一图像和多个第二图像彼此之间的相似度;阈值确定模块用于根据相似度、目标误识率和第二图像的数量,确定目标相似度阈值;评估结果确定模块用于根据目标相似度阈值,确定针对待评估模型的评估结果。
根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的方法。
根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的方法。
根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的确定图像集合的方法、模型评估方法和装置的应用场景示意图;
图2是根据本公开实施例的确定图像集合的方法的示意流程图;
图3是根据本公开实施例的确定图像集合的方法的示意原理图;
图4是根据本公开实施例的模型评估方法的示意流程图;
图5是根据本公开实施例的确定图像集合的装置的示意结构框图;
图6是根据本公开实施例的模型评估装置的示意结构框图;以及
图7是用来实施本公开实施例的确定图像集合的方法和/或模型评估方法的电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在实际应用中,需要预先构建多个图像集合来训练模型或评估模型效果,每个图像集合包括针对特定对象的多个图像,例如一个图像集合中的图像均为第一品种的猫的图像,另一个图像集合中的图像均为第二品种的猫,另一个图像集合中的图像均为黄色狗的图像。
在一些实施例中,一些图像管理***会管理大量图像,可以从图像管理***获取图像来训练或评估模型。然而该些图像管理***通常仅保留比较容易识别的图像来确保图像的正确性,比较容易识别的图像例如包括特定视角的图像(例如猫的正脸图像,猫的侧面全身图像)、实体占比较大的图像(例如图像中针对猫的子图像面积与图像总面积的比值在70%以上)、清晰度较高的图像、完整图像(例如未被遮挡)的图像。因此无法从图像管理***中获得难以识别的图像,难以识别的图像例如包括侧脸图像、占比较小的图像、清晰度较低的图像、部分被遮挡的图像等。可以理解的是,仅利用容易识别的图像来训练或评估模型,会造成模型处理精度低。
在另一些实施例中,可以对需要的图像进行人工采集,例如可以模仿真实场景,在真实场景摆放对象或者使对象在摄像头前移动,然后采集针对该对象的图像。并基于采集的图像来构建图像集合。然而,该种方式成本较高。
本公开实施例旨在提出一种确定图像集合的方法,该方法先从原始图像中筛选第一目标图像,第一目标图像的图像质量评价值较低,即第一目标图像为难以识别的图像。然后对第一目标图像进行数据增强处理,从而将第一目标图像转换为处理后图像,处理后图像可以保留第一目标图像的部分特征,基于处理后图像可以从图像库中召回一些与第一目标图像较为相近的第二目标图像,而图像库中图像的图像质量评价值较高,即图像库中图像为容易识别的图像。可以看出,采用上述技术方案构建的图像集合包括第一目标图像和第二目标图像,即该图像集合包括难以识别的图像和容易识别的图像,从而确保图像的全面性,进而提高模型的训练效果和评估效果。此外,该方法利用基于第一目标图像数据增强得到后的处理后图像进行召回,无需人工进行图像的采集,因此可以降低构建图像集合的成本和提高效率。
本公开实施例还提出一种模型评估方法,该模型评估方法可以采用上述确定图像集合的方法所构建的图像集合来评估模型效果,因此可以确保模型评估结果的准确性。
以下将结合附图和具体实施例详细阐述本公开提供的技术方案。
图1是根据本公开实施例的确定图像集合的方法、模型评估方法和装置的应用场景示意图。
需要注意的是,图1所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1所示,根据该实施例的***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据原始图像、图像库等数据确定图像集合,或者根据图像集合确定模型的评估结果)反馈给终端设备。
需要说明的是,本公开实施例所提供的确定图像集合的方法和模型评估方法一般可以由服务器105执行。相应地,本公开实施例所提供的确定图像集合的装置和模型评估装置一般可以设置于服务器105中。本公开实施例所提供的确定图像集合的方法和模型评估方法也可以由不同于服务器105且能够与终端设备101、1 02、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的确定图像集合的装置和模型评估装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据本公开实施例的确定图像集合的方法的示意流程图。
如图2所示,该确定图像集合的方法200可以包括操作S210~操作S240。
在操作S210,从至少一个原始图像中,确定图像质量评价值小于预定评价值的第一目标图像,第一目标图像包括对象。
示例性的,第一目标图像的图像质量评价值小于预定评价值可以表征:第一目标图像为难以识别的图像,例如存在清晰度较低、对象姿态偏转角度较大、光线亮度过高、光线亮度过低、被遮挡、部分缺失等缺陷中至少一种缺陷的图像。
示例性的,第一目标图像中的对象可以包括物体、动物、用户的图像等,本实施例对此不作限定。物体例如可以包括玩偶、树木、建筑等。动物图像例如可以包括猫、狗等动物的脸部图像、全身图像等。用户图像例如可以包括人脸图像。需要说明的是,本公开涉及的任何包括人脸的图像,均需要预先获得用户的授权,例如可以通过前端页面询问用户是否同意设备采集用户人脸图像并将该人脸图像应用于构建图像集合、训练模型、评估模型等任务,并向用户提供同意和不同意的选项,之后响应于用户选择同意选项之后再对用户的人脸图像进行采集和处理。
在一种示例中,可以基于用户操作来选择第一目标图像。例如可以展示原始图像,用户可以对原始图像进行操作,该操作表征原始图像是否为第一目标图像。之后响应于用户的操作,从原始图像中筛选第一目标图像。
在一种示例中,可以利用预先训练的用于确定图像质量评价值的模型来筛选第一目标图像。例如,在训练过程中,将图像样本输入该模型,图像样本的标签表征图像质量评价值。训练之后,可以将原始图像输入经训练的模型,该模型输出图像质量评价值。之后可以基于预定评价值来选择第一目标图像。预定评价值可以是0.7,本实施例对此不做限定。
在操作S220,对第一目标图像进行数据增强处理,得到处理后图像。
例如,数据增强处理可以包括提高清晰度、调整亮度、调整图像颜色等处理。本实施例数据增强的方式不做限定。
在操作S230,基于处理后图像,从图像库中召回第二目标图像;图像库中图像的图像质量评价值大于等于预定评价值。
例如,可以预先构建图像库,可以从已有的图像管理***获取图像并构建图像库。图像库中图像的图像质量评价值大于等于预定评价值可以表征:图像库中的图像为容易识别的图像,例如图像清晰度较高、对象姿态偏转角度较小、光线亮度适中、图像中对象未被遮挡等。
例如,可以计算处理后图像和图像库中图像之间的相似度,并将相似度大于阈值的图像库中的图像作为第二目标图像。
在操作S240,根据第一目标图像和第二目标图像,确定针对对象的图像集合。
例如,可以将第一目标图像和第二目标图像添加至图像集合中。此外,还可以基于第二目标图像,从图像库中召回与第二目标图像之间相似度大于阈值的第三目标图像,然后将第三目标图像添加至图像集合中。本示例还利用第二目标图像进行检索,通过多次检索来提高图像集合的全面性。
本公开实施例提供的确定图片集合的方法先从原始图像中筛选第一目标图像,第一目标图像为难以识别的图像。然后对第一目标图像进行数据增强处理,从而将第一目标图像转换为处理后图像,处理后图像可以保留第一目标图像的部分特征,基于处理后图像可以从图像库中召回一些与第一目标图像较为相近的第二目标图像,而图像库中图像为容易识别的图像。可以看出,采用上述技术方案构建的图像集合包括第一目标图像和第二目标图像,即该图像集合包括难以识别的图像和容易识别的图像,从而确保图像的全面性,进而提高模型的训练效果和评估效果。此外,该方法利用基于第一目标图像数据增强后得到的处理后图像进行召回,无需人工进行图像的采集,因此可以降低构建图像集合的成本和提高效率。使用本方法可以规模化地、大批量挖掘图像。
图3是根据本公开实施例的确定图像集合的方法的示意原理图。
本实施例中,可以确定原始图像301的图像质量评价值是否小于等于预定评价值,从而筛选第一目标图像302。在得到第一目标图像302之后,可以对第一目标图像302进行数据增强处理,得到处理后图像303,数据增强可以使质量较差的第一目标图像302转变为质量较好的处理后图像303。通过数据增强处理,可以将一个第一目标图像302处理为多个处理后图像303。随后,可以将多个处理后图像303中异常的处理后图像滤除,仅保留正常的处理后图像304。接下来,可以利用正常的处理后图像304在图像库中进行检索,得到第二目标图像305。然后再利用第二目标图像305再次在图像库进行检索,得到第三目标图像306。之后可以将针对同一个对象或同一类对象的第一目标图像302、第二目标图像305和第三目标图像306添加至同一个图像集合307中。
本公开实施例对筛选第一目标图像的过程进行说明。
可以确定原始图像的图像质量评价值是否小于等于预定评价值,从而筛选第一目标图像。示例性的,图像质量评价值是基于清晰度、图像中对象姿态角度、光线、遮挡面积以及遮挡率中的至少一个确定的。
在一种示例中,可以预先利用训练样本训练模型,训练样本包括图像和标签,标签可以根据实际需求进行标注,例如标签可以表征以下项目中的至少一个:样本图像的真实清晰度、对象的真实对象姿态偏转角度、图像的真实亮度、样本图像中被遮挡或者缺失的真实区域。模型收敛之后,可以将原始图像输入预经训练的模型,经训练的模型输出以下中的至少一个:原始图像的相关输出数据,相关输出数据可以包括清晰度、原始图像中对象的对象姿态偏转角度、原始图像的亮度以及原始图像中缺失/被遮挡的区域,模型输出的数据与训练时采用的标签一致。若相关输出数据满足至少一个预定条件,则确定原始图像的图像质量评价值小于预定评价值,上述预定条件可以包括以下中的至少一个:原始图像的清晰度小于等于清晰度阈值,原始图像中对象的对象姿态偏转角度大于等于预定偏转角度,原始图像的亮度大于第一预定亮定,原始图像的亮度小于第二预定亮度,缺失/被遮挡的区域的遮挡面积大于等于预定面积,遮挡率大于等于预定遮挡率等。
本实施例通过对象姿态角度、光线、遮挡面积以及遮挡率等因素判定原始图像的图像质量评价值是否小于等于预定评价值,因此可以从原始图像中准确筛选出难以识别的图像作为第一目标图像。
在得到第一目标图像之后,可以对第一目标图像进行数据增强处理,得到处理后图像,数据增强可以使质量较差的第一目标图像转变为质量较好的处理后图像。本公开实施例对数据增强处理的过程进行说明。
例如,数据增强处理可以包括增大第一目标图像的清晰度。例如可以通过超分辨率算法、去噪算法和去雾算法等提高清晰度。超分辨率算法可以通过对低分辨率图像进行插值和重建,提高其分辨率和清晰度。去噪算法通过去除图像中的噪声,提高图像的干净程度。去雾算法通过去除图像中的雾气效应,提高图像的透亮度和清晰度。
又例如,数据增强处理可以包括调整第一目标图像中对象的对象姿态,例如可以通过生成对抗模型、3D模型建模等方式对第一目标图像中的对象进行姿态调整,从而减小对象姿态偏转角度。
又例如,数据增强处理可以包括:将第一目标图像的光线亮度调整至第一预定亮度和大于第二预定亮度之间。
又例如,数据增强处理可以包括:生成针对第一目标图像中缺失区域或被遮挡区域的补全图像,并将补全图像与第一目标图像组合。例如,可以使用生成对抗网络(GAN)进行自动补全,一般左右对称情况下,左右互补比较有效。
又例如,数据增强处理可以包括:改变第一目标图像的颜色信息。例如,可以利用一些生成式模型,将黑白图像调整为彩色图像。
上述实施例通过调整清晰度、亮度、补全缺失区域、增加颜色等方式进行数据增强处理,从而使处理后图像的图像质量高于第一目标图像的图像质量,从而提高后续检索第二目标图像的准确性,缓解直接基于第一目标图像无法准确检索第二目标图像的问题。
在另一种示例中,可以利用N个第一类别的数据增强算法处理第一目标图像,得到N个第一候选图像。还利用M个第二类别的数据增强算法处理第一目标图像,得到M个第二候选图像,N和M均是大于等于1的整数。之后确定N个第一候选图像中任一第一候选图像与M个第二候选图像中任一第二候选图像之间的相似度,得到多个相似度。随后根据多个相似度,从N个第一候选图像和M个第二候选图像中确定处理后图像。
例如,上述第一类别的数据增强算法简称为算法M_1。算法M_1可以用于调整第一目标图像中的对象姿态为例,算法M_1例如可以通过生成对抗模型(GAN)实现。例如,通过上述算法M_1将第一目标对象中的对象姿态进行建模、调整、生成等处理,使得对象的姿态从原始姿态映射为目标姿态,例如将对象的侧脸图像映射为正脸图像。算法M_1处理后的图像即为第一候选图像。
例如,上述第二类别的数据增强算法简称为算法M_2。算法M_2可以用于将二维的第一目标图像转换为三维模型,并基于三维模型确定图像,其中将二维图像转换为三维模型的操作可以基于3D建模技术(3DMM)实现。通过上述算法M_2将二维的第一目标图像转换为三维模型,然后可以对三维模型进行角度转移,然后基于转移后的三维模型生成二维图像,该二维图像即为第二候选图像。
随后,可以基于N个第一候选图像和M个第二候选图像进行交叉验证。例如,针对同一个第一目标图像,采用N个算法M_1和M个算法M_2处理该第一目标图像,以N和M均为3为例,则3个算法M_1输出3个第一候选图像G1、G2、G3,3个算法M_2输出3个第二候选图像D1、D2、D3。随后,可以计算图像G1、G2、G3和图像D1、D2、D3之间的相似度,这里得到N*M个相似度,即得到9个相似度。随后基于相似度最高的一组图像确定处理后图像,例如图像G1与图像D3之间的相似度最高,可以将图像G1和图像D3中的至少一个作为处理后图像。
本实施例通过不同类别的数据增强算法得到第一候选图像和第二候选图像,并计算同一组的第一候选图像和第二候选图像之间的相似度较高,若相似度较高,则表示该组的第一候选图像和第二候选图像具有较多的与第一目标图像一致的特征,因此基于该组图像可以更加准确的检索到与第一目标图像相近的第二目标图像,通过交叉验证的方式提高构建的图像集合的准确性。
需要说明的是,在其他实施例中,第一类别和第二类别的数据增强算法还可以采用其他算法,本实施例对第一类别和第二类别的数据增强算法不做限定。
通过上述数据增强处理,可以将一个第一目标图像处理为多个处理后图像。随后,可以将多个处理后图像中异常的处理后图像滤除,仅保留正常的处理后图像。本公开实施例对滤除过程进行说明。
在一种示例中,可以对处理后图像进行类别检测,确定处理后图像的类别。若处理后图像的类别与目标类别不同,则删除处理后图像。例如,可以对处理后图像进行面部检测,检测处理后图像的类别是否为对象面部图像,对象面部图像可以包括人脸、动物面部等。若不是对象面部图像,则删除该处理后图像。本实施例通过处理后图像的类别来滤除异常的处理后图像,从而提高图像集合的准确性。
在另一种示例中,可以确定对象中的多个子对象在处理后图像中的位置信息,随后根据多个子对象的位置信息,确定多个子对象的相对位置信息,并响应于检测到相对位置信息满足预定异常条件,删除处理后图像。本实施例通过多个子对象的相对位置来滤除异常的处理后图像,从而提高图像集合的准确性。
例如,对象可以包括面部,子对象可以包括面部中的五官。可以预先配置预定相对位置信息,例如预定相对位置信息可以包括各个部位之间的相对位置、相对距离等,例如某个预定相对位置信息包括:鼻部在嘴部的上方,鼻部与嘴部之间的距离范围。可以对处理后图像进行关键点检测或者目标检测,从而确定眉部、眼部、鼻部、嘴部和耳部的位置信息,随后根据位置信息确定相对位置信息。可以在检测到的相对位置信息与预定相对位置信息不一致的情况下,判断相对位置信息满足预定异常条件,并删除该处理后图像。
在另一种示例中,可以对处理后图像进行关键点检测,确定处理后图像中多个目标关键点的位置信息,随后根据多个目标关键点的位置信息,确定对象中至少一个子对象在处理后图像中的尺寸,并响应于检测到至少一个子对象的尺寸满足预定尺寸条件,删除处理后图像。本实施例通过子对象的尺寸来滤除异常的处理后图像,从而提高图像集合的准确性。
例如,对象可以包括面部,子对象可以包括面部中的五官。通过关键点检测,可以得到五官中每个部位的多个关键点,例如左眼最左侧的点P1、左眼最右侧的点P2、右眼最左侧的点P3、右眼最右侧的点P4、左眉部最左侧的点P5、左眉部最右侧的点P6、右眉部最左侧的点P7、右眉部最右侧的点P8。尺寸可以包括宽度、高度等,以尺寸为宽度为例,通过上述关键点P1~P8,可以得到左眼、左眼、左眉部和右眉部各自的宽度,还可以计算每个部位宽度与处理后图像宽度之间的比值。若至少一个部位的宽度小于尺寸阈值,或者至少一个部位的宽度与图像宽度之间的比值小于预定比值,则表示图像中的眼部或眉部过小,处理后图像的图像质量较低,因此删除该处理后图像。例如尺寸阈值可以为1cm,预定比值可以为0.03,本实施例对此不做限定。
在滤除一些异常的处理后图像之后,可以利用保留下来的正常的处理后图像进行图像检索,从而构建图像集合。
例如,基于处理后图像,从图像库中召回与处理后图像相似度大于阈值的第二目标图像。还可以基于第二目标图像,从图像库中召回与第二目标图像之间相似度大于阈值的第三目标图像。可以将第一目标图像、第二目标图像和第三目标图像添加至图像集合中。本示例还利用第二目标图像进行检索,通过多次检索来提高图像集合的全面性。
在其他实施例中,还可以将滤除操作之后,保留下来的处理后图像添加至图像集合中。
通过上述方式可以得到多个图像集合,每个图像集合对应一个对象,一个图像集合中包括针对该对象的难以识别的图像和容易识别的图像,每个图像可以对应有对象标识。接下来,可以利用构建的图像集合来训练模型或评估模型。以下结合图4,对评估模型的过程进行说明。
图4是根据本公开实施例的模型评估方法的示意流程图。
如图4所示,该模型评估方法400可以包括操作S410~操作S440。
在操作S410,根据针对至少两个对象的至少两个图像集,确定评估图像集;其中,评估图像集包括第一评估图像集,第一评估图像集包括针对第一对象的多个第一图像和针对第一对象之外的其他对象的多个第二图像。
在操作S420,基于待评估模型,确定多个第一图像和多个第二图像彼此之间的相似度。
在操作S430,根据相似度、目标误识率和第二图像的数量,确定目标相似度阈值。
在操作S440,根据目标相似度阈值,确定针对待评估模型的评估结果。
例如,图像集合可以是利用上文中的确定图像集合的方法构建的,也可以是采用其他方式构建的,本实施例对构建图像集合的方法不做限定。
例如,可以将假正例FP1与总负例数TN之间的比值确定误识率FAR,例如将假正例FP1与总负例数TN之间的比值作为误识率FAR,其中,假正例FP1是模型错误地将其他对象的图像识别为目标对象的数量。总负例数TN是第一评估图像集中实际不包含目标对象的图像数量。
例如,从预先构建的图像集合中选取100万张图像,还额外选取1万张其他对象的图像,该1万张图像不是预先构建的图像集合中的图像,则TN为1万。可以计算1万中图像中每个图像与100万张图像的相似度,实际相似度小于设定阈值,若模型计算出的某个相似度大于等于设定阈值,则将FP1的数量加1。
需要说明的是,不同的模型判定阈值对应不同的误识率FAR,例如,可以在相似度大于第一判定阈值(例如0.8)的情况下判定两个图像对应同一个对象或同一类对象,也可以在相似度大于第二判定阈值(例如0.7)的情况下判定两个图像对应同一个对象或同一类对象。例如,目标误识率可以为万分之一。
在实际处理过程中,可以预先选取多个候选阈值,例如以预定间隔在预定范围内选取多个候选阈值,预定间隔可以是0.01,预定范围可以是0.7~0.9。然后并基于候选阈值和相似度来计算与候选阈值对应的误识率,并将与误识率相等或者相近的候选阈值确定为目标相似度阈值。
本实施例根据第一评估图像集来确定目标相似度阈值,待评估模型采用目标相似度阈值来判定两个图像示范对应同一个对象或同一类对象,因此可以避免目标相似度阈值选取不准确而造成模型评估结果不准确的问题。
本实施例中,确定评估图像集的方法主要包括以下过程。
首先,可以获取至少两个图像集合,对获取的图像集合进行预处理,并将预处理后的图像添加至评估图像集。
例如,预处理可以包括裁剪子图像。例如,对图像集中的图像进行目标检测,得到表征对象在图像中位置的对象位置信息,随后根据对象位置信息,确定图像中对象所处区域的子图像,之后可以根据位置信息从图像中剪裁出子区域所对应的子图像。
又例如,预处理还可以包括对子图像进行变换,使得子图像中的子对象(例如对象的五官)处于预定区域。例如,可以对子图像进行关键点检测,得到对象中多个关键点的多个关键点位置信息,然后根据多个关键点位置信息,确定对象中多个子对象的实际位置信息。根据多个子对象的实际位置信息和多个子对象的目标位置信息,对子图像中的对象进行姿态变换,可以将姿态变换后的子图像添加至评估图像集。
本实施例通过裁剪子图像和对子图像进行变换等预处理方式,可以从预先构建的图像集合中有效提取出用于评估模型的评估图像集,减少图像中除对象之外的其他区域或者异常的对象姿态对模型评估效果产生不良影响,从而提高模型评估的准确性。
在需要说明的是,在其他实施例中,预处理过程可以省略对子图像进行变换的过程,直接将子图像添加至评估图像集。在其他实施例中,预处理过程可以省略剪裁子图像的过程,直接对图像进行变换,并将变换后的图像添加至评估图像集。
在得到评估图像集之后,可以从评估图像集中确定第一评估图像集和第二评估图像集,第一评估图像集包括针对第一对象的多个第一图像和针对第一对象之外的其他对象的多个第二图像。第二评估图像集包括多个图像对,每个图像对与真实结果相对应,真实结果表征图像对中的两个图像是否针对同一个对象,真实结果也可以表征图像对中的两个图像是否针对同一类对象。
接下来,可以利用第一评估图像集确定目标相似度阈值,确定方式参考上文,在此不再赘述。
接下来,可以利用第二评估图像集来确定评估结果。例如,针对第二评估图像集中的每个图像对,基于待评估模型,确定每个图像对中两个图像之间的相似度,并根据相似度和目标相似度阈值,确定针对图像对的输出结果,即待评估模型输出的相似度大于等于目标相似度阈值,则输出结果表示:模型判定图像对中的两个图像对应同一个对象或同一类对象,否则表示模型判定两个图像对应不同对象或不同类对象。
接下来,可以根据多个图像对各自的真实结果和多个图像对各自的输出结果是否一致,确定针对待评估模型的评估结果。
例如,可以根据假负例FN1和真正例TP1确定漏召率(False Negative Rate,FNR),漏召率是指实际为正例(相同类别对象的图像),但被模型错误地拒绝的情况的比率。例如,漏召率的计算公式如下:
FNR=FN1/(FN1+TP1)
其中,FN1(假负例)是待评估模型错误地拒绝的实际正例数量,即两个图像之间的真实相似度大于等于阈值,但是待评估模型错误地输出相似度小于阈值。TP1(真正例)是模型正确接受的正例数量。漏召率(FNR)表示待评估模型未能正确识别的正例比率,即待评估模型误判了多少真实的正例。漏召率低表示待评估模型漏报的情况少,模型精度高。
需要说明的是,在其他实施例中,上文中的确定图像集合的方法所构建的图像还可以用于其他任务,例如模型训练、评估聚类算法等任务。以下对其他任务进行说明。
在一种实施例中,可以利用图像集合来进行模型训练任务,待训练的模型可以用于判定两个图像是否表征同一个对象。例如,可以从多个图像集合中选择两个图像构成图像对,若图像对来自同一个图像集合,则表示该两个图像针对同一个对象,可以将图像对的标签标记为1,否则标记为0。可以将图像对输入待训练模型,待训练模型提取两个图像的特征,并计算相似度。可以基于模型输出的相似度和图像对的标签来训练模型。
在训练过程中,可以采用预训练的CNN模型(如VGG、ResNet或MobileNet)作为特征提取器,将图片提取出向量,然后可以使用全连接层用于分类任务。可以使用ArcFace损失函数来衡量模型的分类性能,并使用随机梯度下降等优化算法来更新模型参数。
在一种实施例中,可以利用图像集合进行用于实现聚类算法的模型的评估任务。
例如,可以先获取一个或多个图像集合,并加入更多的其他图像,得到测试图像集合。
随后,可以利用待评估模型处理测试图像集合中的图像,得到待评估模型的处理结果。例如,待评估模型提取测试图像集合中图像的特征,并将其转化为特征向量。基于每个图像的特征向量,待评估模型计算该图像与其他图像之间的相似度,相似度可以包括余弦相似度或欧氏距离等。之后生成连通图,连通图包括多个节点,每个节点对应一个图像,若两个图像之间的相似度大于阈值,则该两个图像所对应的两个节点之间经由边连接。生成的连通图包括多个子图,每个子图中的多个节点之间可以连接,而不同子图之间未通过边连接。可以看出,每个子图代表一个聚类结果,每个子图表征待评估模型处理后的对应同一个对象或同一类对象的图像。
接下来,可以根据测试图像集合中每个图像的对象标识,以及待评估模型输出的处理结果(例如上述多个子图),来评估模型性能。例如,可以使用准确率(Precision)和召回率(Recall)来评估性能。准确率Precision和召回率Recall的计算公式如下:
Precision=TP2/(TP2+FP2)
Recall=TP2/(TP2+FN2)
其中,TP2(真正例)是正确匹配的图像数量,FP2(假正例)是错误匹配的图像数量,FN2(假负例)是未能正确匹配的图像数量。准确率Precision衡量了在所有被分类为正例的样本中,有多少是真正的正例。本实施例中正例表示正确匹配的图像,而负例表示错误匹配或不匹配的图像。召回率Recall衡量了所有真正的正例中,有多少被正确地识别出来。本实施例中召回率Recall表示成功识别的正例数量与总正例数量的比例。
例如,通过上述确定图像集合的方法构建了一个针对某个对象U的图像集合A,图像集合A包括150个图像。待评估模型处理的测试图像集合B包括160个图像,其中130个图片来自图像集合A,另外30个图像为针对除了对象U之外的其他对象的图像。则本实施例中,TP2为130,FP2为30、FN2为20。
图5是根据本公开实施例的确定图像集合的装置的示意结构框图。
如图5所示,该确定图像集合的装置500可以包括第一目标图像确定模块510、处理模块520、第二目标图像确定模块530以及图像集合确定模块540。
第一目标图像确定模块510用于从至少一个原始图像中,确定图像质量评价值小于预定评价值的第一目标图像,第一目标图像包括对象。
处理模块520用于对第一目标图像进行数据增强处理,得到处理后图像。
第二目标图像确定模块530用于基于处理后图像,从图像库中召回第二目标图像。图像库中图像的图像质量评价值大于等于预定评价值。
图像集合确定模块540用于根据第一目标图像和第二目标图像,确定针对对象的图像集合。
本实施例中,上述装置还包括:子对象位置确定模块、相对位置确定模块和第一删除模块。子对象位置确定模块用于在得到处理后图像之后,确定对象中的多个子对象在处理后图像中的位置信息。相对位置确定模块用于根据多个子对象的位置信息,确定多个子对象的相对位置信息。第一删除模块用于响应于检测到相对位置信息满足预定异常条件,删除处理后图像。
本实施例中,上述装置还包括:关键点位置确定模块用于在得到处理后图像之后,对处理后图像进行关键点检测,确定处理后图像中多个目标关键点的位置信息。尺寸确定模块用于根据多个目标关键点的位置信息,确定对象中至少一个子对象在处理后图像中的尺寸。第二删除模块用于响应于检测到至少一个子对象的尺寸满足预定尺寸条件,删除处理后图像。
本实施例中,预定尺寸条件包括以下中的至少一个:至少一个子对象的尺寸与处理后图像的尺寸之间的比值小于等于预定比值。至少一个子对象的尺寸小于等于预定尺寸。
本实施例中,上述装置还包括:类别检测模块和第三删除模块。类别检测模块用于在得到处理后图像之后,对处理后图像进行类别检测,确定处理后图像的类别。第三删除模块用于在处理后图像的类别与目标类别不同的情况下,删除处理后图像。
本实施例中,处理模块包括:第一候选图像确定子模块、第二候选图像确定子模块、相似度确定子模块以及处理后图像确定子模块。第一候选图像确定子模块用于利用N个第一类别的数据增强算法处理第一目标图像,得到N个第一候选图像。第二候选图像确定子模块用于利用M个第二类别的数据增强算法处理第一目标图像,得到M个第二候选图像。N和M均是大于等于1的整数。相似度确定子模块用于确定N个第一候选图像中任一第一候选图像与M个第二候选图像中任一第二候选图像之间的相似度,得到多个相似度。处理后图像确定子模块用于根据多个相似度,从N个第一候选图像和M个第二候选图像中确定处理后图像。
本实施例中,第一类别的数据增强算法用于调整第一目标图像中的对象姿态。第二类别的数据增强算法用于将二维的第一目标图像转换为三维模型,并基于三维模型确定图像。
本实施例中,处理模块包括第一处理子模块、第二处理子模块、第三处理子模块、第四处理子模块以及第五处理子模块中的至少一个。第一处理子模块用于增大第一目标图像的清晰度。第二处理子模块用于调整第一目标图像中对象的对象姿态,以减小对象姿态偏转角度。第三处理子模块用于将第一目标图像的光线亮度调整至第一预定亮度和大于第二预定亮度之间。第四处理子模块用于生成针对第一目标图像中缺失区域或被遮挡区域的补全图像,并将补全图像与第一目标图像组合。第五处理子模块用于改变第一目标图像的颜色信息。
本实施例中,图像质量评价值是基于清晰度、图像中对象姿态角度、光线、遮挡面积以及遮挡率中的至少一个确定的。
本实施例中,上述装置还包括:第一判定模块、第二判定模块、第三判定模块、第四判定模块、第五判定模块以及第六判定模块。第一判定模块用于响应于检测到原始图像的清晰度小于等于清晰度阈值,确定原始图像的图像质量评价值小于预定评价值。第二判定模块用于响应于检测到原始图像中对象的对象姿态偏转角度大于等于预定偏转角度,确定原始图像的图像质量评价值小于预定评价值。第三判定模块用于响应于检测到原始图像的光线亮度大于第一预定亮定,确定原始图像的图像质量评价值小于预定评价值。第四判定模块用于响应于检测到原始图像的光线亮度小于第二预定亮定,确定原始图像的图像质量评价值小于预定评价值。第二预定亮度小于第一预定亮度。第五判定模块用于响应于检测到原始图像中被遮挡区域的遮挡面积大于等于预定面积,确定原始图像的图像质量评价值小于预定评价值。第六判定模块用于响应于检测到原始图像的遮挡率大于等于预定遮挡率,确定原始图像的图像质量评价值小于预定评价值,遮挡率与被遮挡区域的遮挡面积和原始图像面积相关。
图6是根据本公开实施例的模型评估装置的示意结构框图。
如图6所示,该模型评估装置600可以包括评估图像集确定模块610、相似度确定模块620、阈值确定模块630以及评估结果确定模块640。
评估图像集确定模块610用于根据针对至少两个对象的至少两个图像集,确定评估图像集。评估图像集包括第一评估图像集,第一评估图像集包括针对第一对象的多个第一图像和针对第一对象之外的其他对象的多个第二图像。
相似度确定模块620用于基于待评估模型,确定多个第一图像和多个第二图像彼此之间的相似度。
阈值确定模块630用于根据相似度、目标误识率和第二图像的数量,确定目标相似度阈值。
评估结果确定模块640用于根据目标相似度阈值,确定针对待评估模型的评估结果。
本实施例中,评估图像集确定模块包括:对象位置确定子模块、子图像确定子模块和评估图像集确定子模块。对象位置确定子模块用于对至少两个图像集中的图像进行目标检测,得到表征对象在图像中位置的对象位置信息。子图像确定子模块用于根据对象位置信息,确定图像中对象所处区域的子图像。评估图像集确定子模块用于根据子图像,确定评估图像集。
本实施例中,评估图像集确定子模块包括:第一位置确定单元、第二位置确定单元、姿态变换单元以及确定单元。第一位置确定单元用于对子图像进行关键点检测,得到对象中多个关键点的多个关键点位置信息。第二位置确定单元用于根据多个关键点位置信息,确定对象中多个子对象的实际位置信息。姿态变换单元用于根据多个子对象的实际位置信息和多个子对象的目标位置信息,对子图像中的对象进行姿态变换。确定单元用于根据姿态变换后的子图像,确定评估图像集。
本实施例中,评估图像集还包括第二评估图像集,第二评估图像集包括多个图像对,每个图像对与真实结果相对应,真实结果表征图像对中的两个图像是否针对同一个对象。评估结果确定模块包括:输出结果确定子模块和评估结果确定子模块。输出结果确定子模块用于针对每个图像对,基于待评估模型,确定每个图像对中两个图像之间的相似度;根据相似度和目标相似度阈值,确定针对图像对的输出结果。评估结果确定子模块用于根据多个图像对各自的真实结果和多个图像对各自的输出结果,确定针对待评估模型的评估结果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
根据本公开的实施例,本公开还提供了一种电子设备,包括至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述确定图像集合的方法和/或模型评估方法。
根据本公开的实施例,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述确定图像集合的方法和/或模型评估方法。
根据本公开的实施例,本公开还提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述确定图像集合的方法和/或模型评估方法。
图7是用来实施本公开实施例的确定图像集合的方法和/或模型评估方法的电子设备的结构框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如确定图像集合的方法和/或模型评估方法。例如,在一些实施例中,确定图像集合的方法和/或模型评估方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的确定图像集合的方法和/或模型评估方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行确定图像集合的方法和/或模型评估方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (31)
1.一种确定图像集合的方法,包括:
从至少一个原始图像中,确定图像质量评价值小于预定评价值的第一目标图像,所述第一目标图像包括对象;
对所述第一目标图像进行数据增强处理,得到处理后图像;
基于所述处理后图像,从图像库中召回第二目标图像;所述图像库中图像的图像质量评价值大于等于所述预定评价值;以及
根据所述第一目标图像和所述第二目标图像,确定针对所述对象的图像集合。
2.根据权利要求1所述的方法,还包括:在得到处理后图像之后,
确定所述对象中的多个子对象在所述处理后图像中的位置信息;
根据所述多个子对象的位置信息,确定所述多个子对象的相对位置信息;以及
响应于检测到所述相对位置信息满足预定异常条件,删除所述处理后图像。
3.根据权利要求1所述的方法,还包括:在得到处理后图像之后,
对所述处理后图像进行关键点检测,确定所述处理后图像中多个目标关键点的位置信息;
根据所述多个目标关键点的位置信息,确定对象中至少一个子对象在所述处理后图像中的尺寸;以及
响应于检测到所述至少一个子对象的尺寸满足预定尺寸条件,删除所述处理后图像。
4.根据权利要求3所述的方法,其中,所述预定尺寸条件包括以下中的至少一个:
所述至少一个子对象的尺寸与所述处理后图像的尺寸之间的比值小于等于预定比值;以及
所述至少一个子对象的尺寸小于等于预定尺寸。
5.根据权利要求1所述的方法,还包括:在得到处理后图像之后,
对所述处理后图像进行类别检测,确定所述处理后图像的类别;以及
在所述处理后图像的类别与目标类别不同的情况下,删除所述处理后图像。
6.根据权利要求1至5中任意一项所述的方法,其中,所述对所述第一目标图像进行数据增强处理,得到处理后图像包括:
利用N个第一类别的数据增强算法处理所述第一目标图像,得到N个第一候选图像;
利用M个第二类别的数据增强算法处理所述第一目标图像,得到M个第二候选图像;N和M均是大于等于1的整数;
确定所述N个第一候选图像中任一第一候选图像与所述M个第二候选图像中任一第二候选图像之间的相似度,得到多个相似度;以及
根据所述多个相似度,从所述N个第一候选图像和所述M个第二候选图像中确定所述处理后图像。
7.根据权利要求6所述的方法,其中,第一类别的数据增强算法用于调整所述第一目标图像中的对象姿态;第二类别的数据增强算法用于将二维的所述第一目标图像转换为三维模型,并基于三维模型确定图像。
8.根据权利要求1至5中任意一项所述的方法,其中,所述对所述第一目标图像进行数据增强处理,得到处理后图像包括以下中的至少一个:
增大所述第一目标图像的清晰度;
调整所述第一目标图像中对象的对象姿态,以减小所述对象姿态偏转角度;
将所述第一目标图像的光线亮度调整至第一预定亮度和大于第二预定亮度之间;
生成针对所述第一目标图像中缺失区域或被遮挡区域的补全图像,并将补全图像与所述第一目标图像组合;以及
改变所述第一目标图像的颜色信息。
9.根据权利要求1所述的方法,其中,所述图像质量评价值是基于清晰度、图像中对象姿态角度、光线、遮挡面积以及遮挡率中的至少一个确定的。
10.根据权利要求9所述的方法,还包括:
响应于检测到所述原始图像的清晰度小于等于清晰度阈值,确定所述原始图像的图像质量评价值小于预定评价值;
响应于检测到所述原始图像中对象的对象姿态偏转角度大于等于预定偏转角度,确定所述原始图像的图像质量评价值小于预定评价值;
响应于检测到所述原始图像的光线亮度大于第一预定亮定,确定所述原始图像的图像质量评价值小于预定评价值;
响应于检测到所述原始图像的光线亮度小于第二预定亮定,确定所述原始图像的图像质量评价值小于预定评价值;所述第二预定亮度小于所述第一预定亮度;
响应于检测到所述原始图像中被遮挡区域的遮挡面积大于等于预定面积,确定所述原始图像的图像质量评价值小于预定评价值;以及
响应于检测到所述原始图像的遮挡率大于等于预定遮挡率,确定所述原始图像的图像质量评价值小于预定评价值,所述遮挡率与被遮挡区域的遮挡面积和原始图像面积相关。
11.一种模型评估方法,包括:
根据针对至少两个对象的至少两个图像集,确定评估图像集;其中,所述评估图像集包括第一评估图像集,所述第一评估图像集包括针对第一对象的多个第一图像和针对第一对象之外的其他对象的多个第二图像;
基于待评估模型,确定所述多个第一图像和所述多个第二图像彼此之间的相似度;
根据所述相似度、目标误识率和所述第二图像的数量,确定目标相似度阈值;以及
根据所述目标相似度阈值,确定针对所述待评估模型的评估结果。
12.根据权利要求11所述的方法,其中,所述根据针对至少两个对象的至少两个图像集,确定评估图像集包括:
对所述至少两个图像集中的图像进行目标检测,得到表征对象在所述图像中位置的对象位置信息;
根据所述对象位置信息,确定所述图像中对象所处区域的子图像;以及
根据所述子图像,确定评估图像集。
13.根据权利要求12所述的方法,其中,根据所述子图像,确定评估图像集包括:
对所述子图像进行关键点检测,得到对象中多个关键点的多个关键点位置信息;
根据所述多个关键点位置信息,确定所述对象中多个子对象的实际位置信息;
根据所述多个子对象的实际位置信息和所述多个子对象的目标位置信息,对所述子图像中的对象进行姿态变换;以及
根据姿态变换后的子图像,确定所述评估图像集。
14.根据权利要求11所述的方法,其中,所述评估图像集还包括第二评估图像集,所述第二评估图像集包括多个图像对,每个图像对与真实结果相对应,所述真实结果表征所述图像对中的两个图像是否针对同一个对象;所述根据所述目标相似度阈值,确定针对所述待评估模型的评估结果包括:
针对每个图像对,
基于所述待评估模型,确定所述每个图像对中两个图像之间的相似度;和
根据所述相似度和所述目标相似度阈值,确定针对所述图像对的输出结果;以及
根据所述多个图像对各自的真实结果和所述多个图像对各自的输出结果,确定针对所述待评估模型的评估结果。
15.一种确定图像集合的装置,包括:
第一目标图像确定模块,用于从至少一个原始图像中,确定图像质量评价值小于预定评价值的第一目标图像,所述第一目标图像包括对象;
处理模块,用于对所述第一目标图像进行数据增强处理,得到处理后图像;
第二目标图像确定模块,用于基于所述处理后图像,从图像库中召回第二目标图像;所述图像库中图像的图像质量评价值大于等于所述预定评价值;以及
图像集合确定模块,用于根据所述第一目标图像和所述第二目标图像,确定针对所述对象的图像集合。
16.根据权利要求15所述的装置,还包括:
子对象位置确定模块,用于在得到处理后图像之后,确定所述对象中的多个子对象在所述处理后图像中的位置信息;
相对位置确定模块,用于根据所述多个子对象的位置信息,确定所述多个子对象的相对位置信息;以及
第一删除模块,用于响应于检测到所述相对位置信息满足预定异常条件,删除所述处理后图像。
17.根据权利要求15所述的装置,还包括:
关键点位置确定模块,用于在得到处理后图像之后,对所述处理后图像进行关键点检测,确定所述处理后图像中多个目标关键点的位置信息;
尺寸确定模块,用于根据所述多个目标关键点的位置信息,确定对象中至少一个子对象在所述处理后图像中的尺寸;以及
第二删除模块,用于响应于检测到所述至少一个子对象的尺寸满足预定尺寸条件,删除所述处理后图像。
18.根据权利要求17所述的装置,其中,所述预定尺寸条件包括以下中的至少一个:
所述至少一个子对象的尺寸与所述处理后图像的尺寸之间的比值小于等于预定比值;以及
所述至少一个子对象的尺寸小于等于预定尺寸。
19.根据权利要求15所述的装置,还包括:
类别检测模块,用于在得到处理后图像之后,对所述处理后图像进行类别检测,确定所述处理后图像的类别;以及
第三删除模块,用于在所述处理后图像的类别与目标类别不同的情况下,删除所述处理后图像。
20.根据权利要求15至19中任意一项所述的装置,其中,所述处理模块包括:
第一候选图像确定子模块,用于利用N个第一类别的数据增强算法处理所述第一目标图像,得到N个第一候选图像;
第二候选图像确定子模块,用于利用M个第二类别的数据增强算法处理所述第一目标图像,得到M个第二候选图像;N和M均是大于等于1的整数;
相似度确定子模块,用于确定所述N个第一候选图像中任一第一候选图像与所述M个第二候选图像中任一第二候选图像之间的相似度,得到多个相似度;以及
处理后图像确定子模块,用于根据所述多个相似度,从所述N个第一候选图像和所述M个第二候选图像中确定所述处理后图像。
21.根据权利要求20所述的装置,其中,第一类别的数据增强算法用于调整所述第一目标图像中的对象姿态;第二类别的数据增强算法用于将二维的所述第一目标图像转换为三维模型,并基于三维模型确定图像。
22.根据权利要求15至19中任意一项所述的装置,其中,所述处理模块包括以下中的至少一个:
第一处理子模块,用于增大所述第一目标图像的清晰度;
第二处理子模块,用于调整所述第一目标图像中对象的对象姿态,以减小所述对象姿态偏转角度;
第三处理子模块,用于将所述第一目标图像的光线亮度调整至第一预定亮度和大于第二预定亮度之间;
第四处理子模块,用于生成针对所述第一目标图像中缺失区域或被遮挡区域的补全图像,并将补全图像与所述第一目标图像组合;以及
第五处理子模块,用于改变所述第一目标图像的颜色信息。
23.根据权利要求15所述的装置,其中,所述图像质量评价值是基于清晰度、图像中对象姿态角度、光线、遮挡面积以及遮挡率中的至少一个确定的。
24.根据权利要求23所述的装置,还包括:
第一判定模块,用于响应于检测到所述原始图像的清晰度小于等于清晰度阈值,确定所述原始图像的图像质量评价值小于预定评价值;
第二判定模块,用于响应于检测到所述原始图像中对象的对象姿态偏转角度大于等于预定偏转角度,确定所述原始图像的图像质量评价值小于预定评价值;
第三判定模块,用于响应于检测到所述原始图像的光线亮度大于第一预定亮定,确定所述原始图像的图像质量评价值小于预定评价值;
第四判定模块,用于响应于检测到所述原始图像的光线亮度小于第二预定亮定,确定所述原始图像的图像质量评价值小于预定评价值;所述第二预定亮度小于所述第一预定亮度;
第五判定模块,用于响应于检测到所述原始图像中被遮挡区域的遮挡面积大于等于预定面积,确定所述原始图像的图像质量评价值小于预定评价值;以及
第六判定模块,用于响应于检测到所述原始图像的遮挡率大于等于预定遮挡率,确定所述原始图像的图像质量评价值小于预定评价值,所述遮挡率与被遮挡区域的遮挡面积和原始图像面积相关。
25.一种模型评估装置,包括:
评估图像集确定模块,用于根据针对至少两个对象的至少两个图像集,确定评估图像集;其中,所述评估图像集包括第一评估图像集,所述第一评估图像集包括针对第一对象的多个第一图像和针对第一对象之外的其他对象的多个第二图像;
相似度确定模块,用于基于待评估模型,确定所述多个第一图像和所述多个第二图像彼此之间的相似度;
阈值确定模块,用于根据所述相似度、目标误识率和所述第二图像的数量,确定目标相似度阈值;以及
评估结果确定模块,用于根据所述目标相似度阈值,确定针对所述待评估模型的评估结果。
26.根据权利要求25所述的装置,其中,所述评估图像集确定模块包括:
对象位置确定子模块,用于对所述至少两个图像集中的图像进行目标检测,得到表征对象在所述图像中位置的对象位置信息;
子图像确定子模块,用于根据所述对象位置信息,确定所述图像中对象所处区域的子图像;以及
评估图像集确定子模块,用于根据所述子图像,确定评估图像集。
27.根据权利要求26所述的装置,其中,评估图像集确定子模块包括:
第一位置确定单元,用于对所述子图像进行关键点检测,得到对象中多个关键点的多个关键点位置信息;
第二位置确定单元,用于根据所述多个关键点位置信息,确定所述对象中多个子对象的实际位置信息;
姿态变换单元,用于根据所述多个子对象的实际位置信息和所述多个子对象的目标位置信息,对所述子图像中的对象进行姿态变换;以及
确定单元,用于根据姿态变换后的子图像,确定所述评估图像集。
28.根据权利要求25所述的装置,其中,所述评估图像集还包括第二评估图像集,所述第二评估图像集包括多个图像对,每个图像对与真实结果相对应,所述真实结果表征所述图像对中的两个图像是否针对同一个对象;所述评估结果确定模块包括:
输出结果确定子模块,用于针对每个图像对,
基于所述待评估模型,确定所述每个图像对中两个图像之间的相似度;和
根据所述相似度和所述目标相似度阈值,确定针对所述图像对的输出结果;以及
评估结果确定子模块,用于根据所述多个图像对各自的真实结果和所述多个图像对各自的输出结果,确定针对所述待评估模型的评估结果。
29.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至14中任一项所述的方法。
30.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至14中任一项所述的方法。
31.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至14中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311359770.0A CN117611937A (zh) | 2023-10-19 | 2023-10-19 | 确定图像集合的方法、模型评估方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311359770.0A CN117611937A (zh) | 2023-10-19 | 2023-10-19 | 确定图像集合的方法、模型评估方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117611937A true CN117611937A (zh) | 2024-02-27 |
Family
ID=89943221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311359770.0A Pending CN117611937A (zh) | 2023-10-19 | 2023-10-19 | 确定图像集合的方法、模型评估方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117611937A (zh) |
-
2023
- 2023-10-19 CN CN202311359770.0A patent/CN117611937A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10762376B2 (en) | Method and apparatus for detecting text | |
CN109255352B (zh) | 目标检测方法、装置及*** | |
CN111598164B (zh) | 识别目标对象的属性的方法、装置、电子设备和存储介质 | |
Jian et al. | The extended marine underwater environment database and baseline evaluations | |
JP6458394B2 (ja) | 対象追跡方法及び対象追跡装置 | |
CN112949710B (zh) | 一种图像的聚类方法和装置 | |
Choi et al. | Depth analogy: Data-driven approach for single image depth estimation using gradient samples | |
KR20180104609A (ko) | 다수의 이미지 일치성을 바탕으로 보험클레임 사기 방지를 실현하는 방법, 시스템, 기기 및 판독 가능 저장매체 | |
CN108229418B (zh) | 人体关键点检测方法和装置、电子设备、存储介质和程序 | |
CN111241989A (zh) | 图像识别方法及装置、电子设备 | |
KR20090131626A (ko) | 영상 데이터내의 특정 클래스의 오브젝트를 세그멘테이션하기 위한 시스템 및 방법 | |
CN108198172B (zh) | 图像显著性检测方法和装置 | |
KR20210075140A (ko) | 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체 | |
CN110941978B (zh) | 一种未识别身份人员的人脸聚类方法、装置及存储介质 | |
CN113255501B (zh) | 生成表格识别模型的方法、设备、介质及程序产品 | |
CN115797736B (zh) | 目标检测模型的训练和目标检测方法、装置、设备和介质 | |
CN114898266B (zh) | 训练方法、图像处理方法、装置、电子设备以及存储介质 | |
CN115937546A (zh) | 图像匹配、三维图像重建方法、装置、电子设备以及介质 | |
CN113902956A (zh) | 融合模型的训练方法、图像融合方法、装置、设备及介质 | |
Hueting et al. | Seethrough: finding chairs in heavily occluded indoor scene images | |
Tu et al. | The complex action recognition via the correlated topic model | |
CN114863450B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN117611937A (zh) | 确定图像集合的方法、模型评估方法、装置、设备及介质 | |
CN115115699A (zh) | 姿态估计方法、装置、相关设备和计算机产品 | |
CN113822871A (zh) | 基于动态检测头的目标检测方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |