CN116612341B - 用于对象计数的图像处理方法、装置、设备及存储介质 - Google Patents
用于对象计数的图像处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116612341B CN116612341B CN202310894115.9A CN202310894115A CN116612341B CN 116612341 B CN116612341 B CN 116612341B CN 202310894115 A CN202310894115 A CN 202310894115A CN 116612341 B CN116612341 B CN 116612341B
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- image block
- prototype
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 30
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 81
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 58
- 238000012545 processing Methods 0.000 claims description 46
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000005540 biological transmission Effects 0.000 claims description 17
- 238000013341 scale-up Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 16
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 238000012549 training Methods 0.000 description 48
- 230000008569 process Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 36
- 238000009826 distribution Methods 0.000 description 27
- 238000010801 machine learning Methods 0.000 description 15
- 230000004044 response Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000004720 fertilization Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请关于一种用于对象计数的图像处理方法、装置、设备及存储介质,涉及人工智能技术领域。方法包括:获取目标图像;将目标图像中的M个图像块分别映射至目标特征空间,获得M个图像块各自的图像块特征;基于M个图像块各自的图像块特征,从K个原型特征中确定M个图像块各自匹配的原型特征;基于M个图像块各自匹配的原型特征的指定对象计数值,获取目标图像中的指定对象的数量。该方案能够提高通过AI技术对目标图像中的指定对象进行计数的准确性。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种用于对象计数的图像处理方法、装置、设备及存储介质。
背景技术
基于人工智能(Artificial Intelligence,AI)的对象计数任务能够自动推理出图像中的目标对象的总数,在医学检测、农业产量估计等领域发挥着重要的作用。
在相关技术中,对象计数任务首先将点标注通过高斯模糊的方式转换成热力图,对于目标对象密集分布的区域,热力图上对应区域的像素值会更高,反之会比较低,然后使用深度网络模型通过端到端的方式回归热力图,最终对回归结果进行求积分来获取全图的目标对象的总数。
然而,上述相关技术中的方案需要依赖于大规模的标注数据对模型进行训练,而标注数据的规模限制了模型的准确性,导致对象计数的准确性较差。
发明内容
本申请实施例提供了一种用于对象计数的图像处理方法、装置、设备及存储介质,可以提高基于图像的对象计数的准确性,该技术方案如下。
一方面,提供了一种用于对象计数的图像处理方法,所述方法包括:
获取目标图像,所述目标图像中包含指定对象;
将所述目标图像中的M个图像块分别映射至目标特征空间,获得所述M个图像块各自的图像块特征;所述目标特征空间是基于至少一个第一图像样本和至少一个第二图像样本构建的特征空间;所述第一图像样本是未标注指定对象的图像,所述第二图像样本是标注有指定对象的图像;M为大于或者等于1的整数;
基于所述M个图像块各自的图像块特征,从K个原型特征中确定所述M个图像块各自匹配的原型特征;所述K个原型特征是基于所述至少一个第一图像样本中的第一图像块样本在所述目标特征空间中的图像块样本特征构建的;所述K个原型特征具有各自的指定对象计数值;所述指定对象计数值是基于所述第二图像样本中的第二图像块样本所包含的指定对象的数量确定的;K为大于或者等于2的整数;
基于所述M个图像块各自匹配的原型特征的指定对象计数值,获取所述目标图像中的指定对象的数量。
一方面,提供了一种用于对象计数的图像处理方法,所述方法包括:
获取至少一个第一图像样本和至少一个第二图像样本;所述第一图像样本是未标注指定对象的图像,所述第二图像样本是标注有指定对象的图像;
基于所述至少一个第一图像样本和所述至少一个第二图像样本,对对象计数模型进行参数更新;
其中,所述对象计数模型用于将目标图像中的M个图像块分别映射至目标特征空间,获得所述M个图像块各自的图像块特征;所述M个图像块各自的图像块特征,用于从K个原型特征中确定所述M个图像块各自匹配的原型特征,基于所述M个图像块各自匹配的原型特征的指定对象计数值,获取所述目标图像中的指定对象的数量;所述目标特征空间是基于所述至少一个第一图像样本和所述至少一个第二图像样本构建的特征空间;所述K个原型特征是基于所述至少一个第一图像样本中的第一图像块样本在所述目标特征空间中的图像块样本特征构建的;所述K个原型特征具有各自的指定对象计数值;所述指定对象计数值是基于所述第二图像样本中的第二图像块样本所包含的指定对象的数量确定的;M为大于或者等于1的整数;K为大于或者等于2的整数。
再一方面,提供了一种用于对象计数的图像处理装置,所述装置包括:
图像获取模块,用于获取目标图像,所述目标图像中包含指定对象;
特征获取模块,用于将所述目标图像中的M个图像块分别映射至目标特征空间,获得所述M个图像块各自的图像块特征;所述目标特征空间是基于至少一个第一图像样本和至少一个第二图像样本构建的特征空间;所述第一图像样本是未标注指定对象的图像,所述第二图像样本是标注有指定对象的图像;M为大于或者等于1的整数;
匹配模块,用于基于所述M个图像块各自的图像块特征,从K个原型特征中确定所述M个图像块各自匹配的原型特征;所述K个原型特征是基于所述至少一个第一图像样本中的第一图像块样本在所述目标特征空间中的图像块样本特征构建的;所述K个原型特征具有各自的指定对象计数值;所述指定对象计数值是基于所述第二图像样本中的第二图像块样本所包含的指定对象的数量确定的;K为大于或者等于2的整数;
对象计数模块,用于基于所述M个图像块各自匹配的原型特征的指定对象计数值,获取所述目标图像中的指定对象的数量。
再一方面,提供了一种用于对象计数的图像处理装置,所述装置包括:
样本获取模块,用于获取至少一个第一图像样本和至少一个第二图像样本;所述第一图像样本是未标注指定对象的图像,所述第二图像样本是标注有指定对象的图像;
模型更新模块,用于基于所述至少一个第一图像样本和所述至少一个第二图像样本,对对象计数模型进行参数更新;
其中,所述对象计数模型用于将目标图像中的M个图像块分别映射至目标特征空间,获得所述M个图像块各自的图像块特征;所述M个图像块各自的图像块特征,用于从K个原型特征中确定所述M个图像块各自匹配的原型特征,基于所述M个图像块各自匹配的原型特征的指定对象计数值,获取所述目标图像中的指定对象的数量;所述目标特征空间是基于所述至少一个第一图像样本和所述至少一个第二图像样本构建的特征空间;所述K个原型特征是基于所述至少一个第一图像样本中的第一图像块样本在所述目标特征空间中的图像块样本特征构建的;所述K个原型特征具有各自的指定对象计数值;所述指定对象计数值是基于所述第二图像样本中的第二图像块样本所包含的指定对象的数量确定的;M为大于或者等于1的整数;K为大于或者等于2的整数。
再一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条计算机指令,所述至少一条计算机指令由所述处理器加载并执行以实现上述的用于对象计数的图像处理方法。
又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行以实现上述的用于对象计数的图像处理方法。
又一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述用于对象计数的图像处理方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
预先通过未标注指定对象的第一图像样本和标注有指定对象的第二图像样本构建目标特征空间,同时,通过第一图像样本中的图像块在目标特征空间中的特征构建K个原型特征,并通过第一图像样本中的图像块被标注出的指定对象的数量,确定K个原型特征各自的指定对象计数值;在应用过程中,对于目标图像中的M个图像块,通过M个图像块的图像块特征,确定M个图像块各自在K个原型特征中匹配的原型特征,即可以根据M个图像块各自匹配的原型特征的指定对象计数值,得到目标图像中的指定对象的总的数量;在上述方案中,在通过第一样本图像和第二样本图像构建目标特征空间时,通过未标注的第一图像样本构建原型特征,并通过有标注的第二图像样本确定原型特征的指定对象计数值,即可以通过构建的目标特征空间确定目标图像中每个图像块对应的原型特征,进而确定每个图像块的指定对象计数值,最终得到目标图像的中的指定对象的数量,由于上述目标特征空间和原型特征的构建过程都引入了未标注的图像样本,因此,能够充分利用未标注的图像样本,扩展了目标特征空间的构建数据,提高了该目标特征空间的准确性,进而提高了后续对目标图像中的指定对象进行计数的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请各个实施例涉及的***构成图;
图2是一个实施例示出的用于对象计数的图像处理方法的流程示意图;
图3是另一实施例提供的用于对象计数的图像处理方法的流程示意图;
图4是又一实施例提供的用于对象计数的图像处理方法的流程示意图;
图5是本申请涉及的一种U型网络的结构示意图;
图6是再一个实施例提供的用于对象计数的图像处理方法的流程示意图;
图7是本申请涉及的计数值区间划分示意图;
图8是本申请实施例涉及的一种模型应用的框架图;
图9是本申请实施例涉及的另一种模型应用的框架图;
图10是一个实施例示出的用于对象计数的图像处理装置的结构方框图;
图11是另一实施例示出的用于对象计数的图像处理装置的结构方框图;
图12是根据一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在对本申请所示的各个实施例进行说明之前,首先对本申请涉及到的几个概念进行介绍。
1)AI:AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
2)计算机视觉技术(Computer Vision,CV):计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
3)ML(Machine Learning,机器学习):机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
4)对象计数任务:在本申请各个实施例中,对象计数任务是指通过机器学习模型对输入的图像进行处理,以估计图像中的指定对象(包括但不限于细胞、动物、人、车辆、农作物等对象)的数量。目前,对象计数任务在医学检测、农业产量检测、智慧交通、公共安全管理等领域发挥着重要的作用。
请参考图1,其示出了本申请各个实施例涉及的一种***构成图。如图1所示,该***包括图像采集设备120、终端140、以及服务器160;可选的,该***还可以包括数据库180。
图像采集设备120可以是用于采集图像的设备。
比如,以图像采集设备120是固定摄像头、移动摄像头(比如安装在无人机或无人车辆上的摄像头)、移动终端设备(比如手机、手持或肩扛式摄像机)等等。上述图像采集设备120可以采集二维图像。
图像采集设备120可以包含图像输出接口,比如通用串行总线(Universal SerialBus,USB)接口、高清多媒体接口(High Definition Multimedia Interface,HDMI)接口或者以太网接口等等;或者,上述图像输出接口也可以是无线接口,比如无线局域网(Wireless Local Area Network,WLAN)接口、蓝牙接口等等。
相应的,根据上述图像输出接口的类型的不同,操作人员将图像导出的方式也可以有多种,比如,通过有线或者短距离无线方式将图像导入至终端140,或者,也可以通过局域网或者互联网将图像导入至终端140或者服务器160。
终端140可以是具有一定的处理能力以及界面展示功能的终端设备,比如,终端140可以是手机、平板电脑、电子书阅读器、智能眼镜、膝上型便携计算机和台式计算机等等。
终端140可以包括开发人员使用的终端,以及用户(比如执行图像采集的用户、企业人员或者机构人员)使用的终端。
当终端140实现为开发人员使用的终端时,开发人员可以通过终端140开发用于通过图像进行对象计数的机器学习模型,并将机器学习模型部署到服务器160或者用户使用的终端中。
当终端140实现为用户使用的终端时,终端140中可以安装有获取对图像进行对象计数并呈现计数结果的应用程序,终端140获取到图像采集设备120采集到的图像后,可以通过上述应用程序获取对图像进行对象计数得到的计数结果,并对计数结果进行呈现,以便用户进行参考或应用。
在图1所示的***中,终端140和图像采集设备120是物理上分离的实体设备。可选的,在另一种可能的实现方式中,当终端140实现为用户(比如医疗人员)使用的终端时,终端140和图像采集设备120也可以集成为单个实体设备;比如,该终端140可以是具有图像采集功能的终端设备。
其中,服务器160可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,上述服务器160可以是为终端140中安装的应用程序提供后台服务的服务器,该后台服务器可以是应用程序的版本管理、对应用程序获取到的图像进行后台处理并返回处理结果、对开发人员开发的机器学习模型进行后台训练等等。
上述数据库180可以是Redis数据库,或者,也可以是其它类型数据库。其中,数据库180用于存储各类数据。
可选的,终端140与服务器160之间通过通信网络相连。可选的,图像采集设备120与服务器160之间通过通信网络相连。可选的,该通信网络是有线网络或无线网络。
可选的,该***还可以包括管理设备(图1未示出),该管理设备与服务器160之间通过通信网络相连。可选的,通信网络是有线网络或无线网络。
图2是根据一示例性实施例示出的一种用于对象计数的图像处理方法的流程示意图。该方法可以由计算机设备执行,比如,该计算机设备可以是服务器,或者,该计算机设备也可以是终端,或者,该计算机设备可以包括服务器和终端,其中,该服务器可以是上述图1所示的实施例中的服务器160,该终端可以是上述图1所示的实施例中由用户使用的终端140。该计算机设备可以实现为进行对象计数的模型应用设备。如图2所示,该用于对象计数的图像处理方法可以包括如下步骤。
步骤210:获取目标图像,目标图像中包含指定对象。
其中,上述目标图像可以是由用户通过图像采集设备采集并上传或导入计算机设备的二维图像。
或者,上述目标图像也可以是用户通过计算机设备内置或外接的图像采集组件(比如摄像头)采集的二维图像。
步骤220:将目标图像中的M个图像块分别映射至目标特征空间,获得M个图像块各自的图像块特征;目标特征空间是基于至少一个第一图像样本和至少一个第二图像样本构建的特征空间;第一图像样本是未标注指定对象的图像,第二图像样本是标注有指定对象的图像。
M为大于或者等于1的整数。上述M的数量可以由开发人员预先设置。
在机器学习中,对输入的原始数据进行一次或多次特征映射后,会得到更高维度的抽象表达,该抽象表达可以称为原始数据在机器学习概念中的特征,由所有可能的输入数据进行一次或多次特征映射后得到的特征所构成的空间,即为特征空间。换句话说,特征空间中的特征是对所有可能的输入数据的更高维度的表达。
在本申请实施例中,在构建目标特征空间时,除了使用有标注的图像样本进行特征空间的构建之外,还通过未标注的图像样本进行特征空间的构建。
其中,上述将图像块映射至目标特征空间的过程,可以是通过机器学习模型对图像块进行特征提取处理,并输出对应的特征的过程。
在一些实施例中,上述将目标图像中的M个图像块分别映射至目标特征空间,获得M个图像块各自的图像块特征,可以包括:
通过对象计数模型对目标图像中的M个图像块分别进行处理,获得M个图像块各自的图像块特征。
相应的,上述目标特征空间的构建过程,可以是对机器学习模型的训练过程。
在一些实施例中,上述对象计数模型是通过至少一个第一图像样本和至少一个第二图像样本进行参数更新,得到的机器学习模型。
比如,模型训练设备可以使用上述至少一个第一图像样本和至少一个第二图像样本作为训练数据,对上述对象计数模型的参数进行迭代更新,直至满足收敛条件。
本申请实施例所示的方案,通过对象计数模型来提取输入图像/图像样本中的图像块/图像块样本中的特征,提高了对象计数模型的泛用性和准确性。
其中,从目标图像中划分出M个图像块的过程可以由计算机设备在将目标图像输入对象计数模型之前执行,也可以由对象计数模型来执行。
比如,上述收敛条件可以包括且不限于以下至少一种:
1)对象计数模型的训练轮数(通过至少一个第一图像样本和至少一个第二图像样本对上述对象计数模型进行一次训练,可以称为一轮训练)达到指定轮数;
2)对象计数模型在验证集上的准确性达到准确性阈值;
3)对象计数模型的参数在本轮更新前后的差异小于差异阈值。
步骤230:基于M个图像块各自的图像块特征,从K个原型特征中确定M个图像块各自匹配的原型特征;K个原型特征是基于至少一个第一图像样本中的第一图像块样本在目标特征空间中的图像块样本特征构建的;K个原型特征具有各自的指定对象计数值;指定对象计数值是基于第二图像样本中的第二图像块样本所包含的指定对象的数量确定的。
其中,K为大于或者等于2的整数。
在本申请实施例中,可以预先设置K个原型特征。计算机设备可以将M个图像块分别与K个原型特征进行匹配,确定出M个图像块各自匹配的原型特征。
在一些实施例中,上述将M个图像块分别与K个原型特征进行匹配的过程可以如下:
对于M个图像块中的每个图像块,计算该图像块的图像块特征分别与K个原型特征之间的特征距离,将K个原型特征中,与上述图像块特征之间的特征距离最小的原型特征,获取为该图像块匹配的圆形特征;对于M个图像块分别执行上述匹配过程,即可以得到M个图像块各自匹配的原型特征。
其中,上述特征距离可以通过特征向量的夹角、欧式距离、曼哈顿距离、切比雪夫距离、相关度距离、信息熵等形式来表示。
比如,以上述图像块特征和原型特征分别是多维向量为例,上述图像块特征与原型特征之间的特征距离,可以是图像块特征与原型特征之间的夹角余弦值或者欧式距离等等。
再比如,以上述图像块特征和原型特征分别是矩阵为例,上述图像块特征与原型特征之间的特征距离,可以是图像块特征与原型特征之间的曼哈顿距离(两个矩阵之差的1范数)、欧式距离(两个矩阵之差的2范数)等等。
其中,上述原型特征是指包含指定对象的数量落在K个数量区间中的某个数量区间内的各个图像块的特征中,具有代表性的特征;比如说,对于任一图像块,当该图像块包含指定对象的数量处于该数量区间内时,该图像块对应的图像块特征与该数量区间对应的原型特征之间的差异,将小于该图像块对应的图像块特征与其它任意数量区间对应的原型特征之间的差异。
在本申请实施例中,可以预先通过第一图像样本中的各个第一图像块样本在目标特征空间中的图像块样本特征,构建K个原型特征,并基于第二图像样本中的第二图像块样本所包含的指定对象的数量(可以根据标注人员预先在第二图像样本中标注出的指定对象的位置来确定),来确定K个原型特征各自对应的指定对象计数值。
其中,由于上述原型特征对应的是特征相近的图像块中包含的指定对象的数量,因此,上述原型特征也可以称为对象分布原型。
步骤240:基于M个图像块各自匹配的原型特征的指定对象计数值,获取目标图像中的指定对象的数量。
在一些实施例中,计算机设备根据M个图像块各自匹配的原型特征,可以得到M个图像块各自匹配的原型特征的指定对象计数值,也就是说,M个图像块中每个图像块对应一个指定对象计数值,将M个图像块中每个图像块对应一个指定对象计数值进行累加,即可以得到上述目标图像中的指定对象的数量。
综上所述,本申请实施例所示的方案,预先通过未标注指定对象的第一图像样本和标注有指定对象的第二图像样本构建目标特征空间,同时,通过第一图像样本中的图像块在目标特征空间中的特征构建K个原型特征,并通过第一图像样本中的图像块被标注出的指定对象的数量,确定K个原型特征各自的指定对象计数值;在应用过程中,对于目标图像中的M个图像块,通过M个图像块的图像块特征,确定M个图像块各自在K个原型特征中匹配的原型特征,即可以根据M个图像块各自匹配的原型特征的指定对象计数值,得到目标图像中的指定对象的总的数量;在上述方案中,在通过第一样本图像和第二样本图像构建目标特征空间时,通过未标注的第一图像样本构建原型特征,并通过有标注的第二图像样本确定原型特征的指定对象计数值,即可以通过构建的目标特征空间确定目标图像中每个图像块对应的原型特征,进而确定每个图像块的指定对象计数值,最终得到目标图像的中的指定对象的数量,由于上述目标特征空间和原型特征的构建过程都引入了未标注的图像样本,因此,能够充分利用未标注的图像样本,扩展了目标特征空间的构建数据,提高了该目标特征空间的准确性,进而提高了后续对目标图像中的指定对象进行计数的准确性。
图3是根据一示例性实施例示出的一种用于对象计数的图像处理方法的流程示意图。该方法可以由计算机设备执行,比如,该计算机设备可以是服务器,或者,该计算机设备也可以是终端,或者,该计算机设备可以包括服务器和终端,其中,该服务器可以是上述图1所示的实施例中的服务器160,该终端可以是上述图1所示的实施例中由开发人员使用的终端140。该计算机设备可以实现为进行对象计数的模型训练设备。如图3所示,该用于对象计数的图像处理方法可以包括如下步骤。
步骤310:获取至少一个第一图像样本和至少一个第二图像样本;第一图像样本是未标注指定对象的图像,第二图像样本是标注有指定对象的图像。
步骤320:基于至少一个第一图像样本和至少一个第二图像样本,对对象计数模型进行参数更新。
其中,对象计数模型用于将目标图像中的M个图像块分别映射至目标特征空间,获得M个图像块各自的图像块特征;M个图像块各自的图像块特征,用于从K个原型特征中确定M个图像块各自匹配的原型特征,基于M个图像块各自匹配的原型特征的指定对象计数值,获取目标图像中的指定对象的数量;目标特征空间是基于至少一个第一图像样本和至少一个第二图像样本构建的特征空间;K个原型特征是基于至少一个第一图像样本中的第一图像块样本在目标特征空间中的图像块样本特征构建的;K个原型特征具有各自的指定对象计数值;指定对象计数值是基于第二图像样本中的第二图像块样本所包含的指定对象的数量确定的。
其中,上述对象计数模型训练完成后,可以应用在上述图2所示实施例的步骤220中,以对目标图像中的M个图像块进行处理,从而提取得到M个图像块各自的图像块特征。
综上所述,本申请实施例所示的方案,预先通过未标注指定对象的第一图像样本和标注有指定对象的第二图像样本训练用于将图像块映射至目标特征空间的对象计数模型,同时,通过第一图像样本中的图像块在目标特征空间中的特征构建K个原型特征,并通过第一图像样本中的图像块被标注出的指定对象的数量,确定K个原型特征各自的指定对象计数值;在应用过程中,对于目标图像中的M个图像块,通过对象计数模型对M个图像块的图像块特征进行处理,即可以确定M个图像块各自在K个原型特征中匹配的原型特征,即可以根据M个图像块各自匹配的原型特征的指定对象计数值,得到目标图像中的指定对象的总的数量;在上述方案中,在通过第一样本图像和第二样本图像训练对象计数模型时,通过未标注的第一图像样本构建原型特征,并通过有标注的第二图像样本确定原型特征的指定对象计数值,即可以通过训练的对象计数模型确定目标图像中每个图像块对应的原型特征,进而确定每个图像块的指定对象计数值,最终得到目标图像的中的指定对象的数量,由于上述对象计数模型的训练过程和原型特征的构建过程都引入了未标注的图像样本,因此,能够充分利用未标注的图像样本,扩展了对象计数模型的训练数据,提高了该对象计数模型的准确性,进而提高了后续对目标图像中的指定对象进行计数的准确性。
基于上述图3所示的实施例所示的方案完成上述对象计数模型的训练、原型特征的构建、以及原型特征的指定对象计数值的确定后,该对象计数模型、原型特征、以及原型特征的指定对象计数值可以应用于各种估计图像中的指定对象的数量的任务场景,比如,医学检测场景、农业产量检测场景、智慧交通场景、公共安全管理场景等等。具体例如:
1)医学检测场景。
比如,在训练过程中,用户预先收集未标注的医学显微图像样本(对应上述第一图像样本),以及有标注的医学显微图像样本(标注了图像中的指定类型细胞/组织的位置,对应上述第二图像样本),并将收集到的样本传输至模型训练设备(比如服务器或者终端),由模型训练设备按照图3所示实施例的方案进行训练,得到上述对象计数模型、K个原型特征以及每个原型特征的指定类型细胞/组织计数值。
在应用过程中,用户将医学显微图像输入模型应用设备,模型应用设备按照图2所示实施例的方案,将医学显微图像输入对象计数模型,得到对象计数模型输出的,该医学显微图像中的M图像块各自的图像块特征;对于每个图像块的图像块特征,从K个原型特征中确定出最接近的原型特征,进而确定该原型特征对应的指定类型细胞/组织计数值;将每个图像块对应的指定类型细胞/组织计数值进行累加,即可以得到该医学显微图像中的指定类型细胞/组织的总数量;该指定类型细胞/组织的总数量可以显示给用户(比如医生)进行辅助医疗决策/诊断;或者,该指定类型细胞/组织的总数量也可以输出给后续的处理任务(比如图像分类任务),由后续的处理任务执行辅助医疗决策/诊断。
2)农业产量检测场景。
比如,在训练过程中,用户预先收集未标注的无人机航拍图像样本(对应上述第一图像样本),以及有标注的无人机航拍图像样本(标注了图像中的指定农作物(比如玉米、苹果等)的位置,对应上述第二图像样本),并将收集到的样本传输至模型训练设备(比如服务器或者终端),由模型训练设备按照图3所示实施例的方案进行训练,得到上述对象计数模型、K个原型特征以及每个原型特征的指定农作物计数值。
在应用过程中,用户将无人机航拍图像输入模型应用设备,模型应用设备按照图2所示实施例的方案,将无人机航拍图像输入对象计数模型,得到对象计数模型输出的,该无人机航拍图像中的M图像块各自的图像块特征;对于每个图像块的图像块特征,从K个原型特征中确定出最接近的原型特征,进而确定该原型特征对应的指定农作物计数值;将每个图像块对应的指定农作物计数值进行累加,即可以得到该无人机航拍图像中的指定农作物的总数量;该指定农作物的总数量可以显示给用户(比如农业管理)进行产量预测、施肥量估计等;或者,该指定农作物的总数量也可以输出给后续的处理任务(比如图像分类任务),由后续的处理任务执行产量预测、施肥量估计等操作。
3)智慧交通场景。
比如,在训练过程中,用户预先收集未标注的交通道路图像样本(对应上述第一图像样本),以及有标注的交通道路图像样本(标注了图像中的车辆的位置,对应上述第二图像样本),并将收集到的样本传输至模型训练设备(比如服务器或者终端),由模型训练设备按照图3所示实施例的方案进行训练,得到上述对象计数模型、K个原型特征以及每个原型特征的车辆计数值。
在应用过程中,用户将实时的交通道路图像输入模型应用设备,模型应用设备按照图2所示实施例的方案,将交通道路图像输入对象计数模型,得到对象计数模型输出的,该交通道路图像中的M图像块各自的图像块特征;对于每个图像块的图像块特征,从K个原型特征中确定出最接近的原型特征,进而确定该原型特征对应的车辆计数值;将每个图像块对应的车辆计数值进行累加,即可以得到该交通道路图像中的车辆的总数量;该车辆的总数量可以显示给用户进行道路拥堵情况评估、辅助路线选择等;或者,该车辆的总数量也可以输出给后续的处理任务,由后续的处理任务执行交通调度等操作。
4)公共安全管理场景。
比如,在训练过程中,用户预先收集未标注的场所图像样本(比如景区、商场等场所的图像样本,对应上述第一图像样本),以及有标注的场所图像样本(标注了图像中的人员的位置,对应上述第二图像样本),并将收集到的样本传输至模型训练设备(比如服务器或者终端),由模型训练设备按照图3所示实施例的方案进行训练,得到上述对象计数模型、K个原型特征以及每个原型特征的人员计数值。
在应用过程中,用户将实时的场所图像输入模型应用设备,模型应用设备按照图2所示实施例的方案,将场所图像输入对象计数模型,得到对象计数模型输出的,该场所图像中的M图像块各自的图像块特征;对于每个图像块的图像块特征,从K个原型特征中确定出最接近的原型特征,进而确定该原型特征对应的人员计数值;将每个图像块对应的人员计数值进行累加,即可以得到该场所图像中的人员的总数量;该人员的总数量可以显示给用户进行场所安全性评估(比如踩踏概率评估)、安保人员调度等;或者,该人员的总数量也可以输出给后续的处理任务,由后续的处理任务执行场所安全性评估、安保人员调度等操作。
基于上述图3所示的实施例,请参考图4,其示出了本申请一示例性实施例提供的一种用于对象计数的图像处理方法的流程示意图。如图4所示,图3中的步骤320可以包括步骤320a至步骤320d。
步骤320a:对至少一个第一图像样本,通过对象计数模型对第一图像样本中的各个第一图像块样本分别进行处理,获得各个第一图像块样本各自的图像块样本特征。
在本申请实施例中,计算机设备在训练上述对象计数模型的过程中,对于每一个第一图像样本,可以通过对象计数模型对第一图像样本中的全部或者部分第一图像块样本分别进行特征提取处理,获得各个第一图像块样本各自的图像块样本特征。
在本申请实施例中,对象计数模型可以是深度学习模型,其以单张图像为输入,通过深度卷积网络提取图像中的图像块的特征。
在本申请实施例中,对象计数模型可以提取具有高语义信息的上下文特征,也可以提取局部的细节信息,也就是说,上述对象计数模型可以获得同时具有高级语义信息和细节信息的高分辨率特征图。
在一些实施例中,上述对象计数模型使用先下采样然后上采样的U型网络结构,并引入跳跃链接来为上采样引入细节信息,最后输出图像块特征/图像块样本特征;如图5所示,其示出了本申请实施例涉及的一种U型网络的结构示意图。如图5所示,该模型结构的左侧部分为VGG16前端网络,图中每个ConvBlock由多个连续卷积层组成,对于ConvBlock1到ConvBlock4,其内部卷积层数分别为2,2,3,3,3。同一个ConvBlock中所有卷积的通道数是一致的,对于ConvBlock1到ConvBlock4,其卷积通道数分别为64,128,256,512,512。每个ConvBlock之间通过Maxpool实现空间下采样,增加了网络感受野和局部平移不变形。
上述对象计数模型可以是图5所示的结构,或者,也可以在图5所示的框架基础上,加入更多有益于最终计数精度的模块,如多尺度多感受野融合模块、跨特征层密集连接模块等等。
此外,上述对象计数模型的主干部分也可以采用U型网络之外的其它网络模型,比如基于Transformer的ViT模型、残差网络模型、移动网络模型、AlexNet模型等等。
步骤320b:基于各个第一图像块样本各自的图像块样本特征,获取各个第一图像块样本分别与K个原型特征之间的匹配关系。
在一些实施例中,基于各个第一图像块样本各自的图像块特征,获取各个第一图像块样本分别与K个原型特征之间的匹配关系,包括:
基于最优传输问题的求解方式,获取各个第一图像块样本分别与K个原型特征之间的匹配矩阵,得到匹配关系;匹配矩阵用于指示各个第一图像块样本分别与K个原型特征中的每个原型特征是否匹配。
在本申请实施例中,计算机设备将各个第一图像块样本各自的图像块样本特征,与K个原型特征进行匹配时,可以参考最优传输问题来实现各个第一图像块样本各自的图像块样本特征与K个原型特征进行匹配。
最优传输问题是可分度量空间中,讨论概率测度间最优传输变换的一类优化问题,涉及到偏微分方程和凸几何等多种理论,是多学科交叉的研究领域。一个直观的解释是:假设有两个工地A和B,工地A上有M堆土,工地B上有K个坑,要将工地A上的M堆土全部移动到工地B上的K个坑中,如何移动才能使做工最少。在最优传输方案下做的功就是最少的功,这在工程上被称为推土机距离。最优传输问题在图像处理领域发展迅速,已经吸引了越来越多的重视和关注。
在一些实施例中,计算机基于最优传输问题的求解方式,获取各个第一图像块样本分别与K个原型特征之间的匹配矩阵,得到匹配关系的过程可以如下:
通过各个第一图像块样本各自的图像块样本特征以及K个原型特征,构建各个第一图像块样本分别与K个原型特征之间的匹配关系的最优传输问题的表示矩阵;
基于上述表示矩阵,构建可梯度求导的实数矩阵;
基于上述实数矩阵进行迭代求解,获取上述匹配矩阵。
具体地,假设对于输入图像,其中某一个图像块i对应的经过主干网络提取的特征
为,其中,那么该图像对应的所有特征为,M表示图
像中总的图像块数量,即。相应地,设置一个对象分布原型的集合P,用,,表示其中第k个对象分布原型(即上述原型特征),总共有K个对象分布原型,
那么有,也即。对于无标签数据的自监督训练,本方
案的目标是将具有相似对象分布特点(此处具体指的是图像块中的目标总数相近)的图像
块归到同一个对象分布原型中,即使得他们对应的特征都尽可能接近。同时不同的对
象分布原型要尽可能分得开,即图像块中目标总数差异较大的特征所对应的最近的对
象分布原型要分得开。将图像块和对象分布原型之间的匹配关系用表示,其中为one-hot编码,表示图像块的特征(或
者说第i个图像块)的匹配结果,然后将该问题抽象为一个最优传输问题来优化:
s.t.,,
其中表示全为1的M维向量,唯一匹配限制表示每个图像块只能与
一个对象分布原型进行匹配,均等匹配限制强制匹配到每个对象分布原型
的图像块数量尽可能一致,即在每个训练batch(图像块)中每个对象分布原型平均被匹配次,这有利于避免优化过程中的崩溃解(所有图像块都分配给同一个对象分布原型),从
而保证每个对象分布原型的代表性。为了优化以上问题,我们可以将放松对的限制,使其
变为一个可梯度求导的实数矩阵,即:
s.t.,,
其中表示分配的熵,一般希望熵越大则分配越集中,
而k则为预设常数,用来正则化分配向量的平滑程度。至此,该问题就转换为了最优传输距
离的一种典型形式,使用Sinkhorn-Knopp迭代求解可获得最优的L。
在本申请实施例所示的方案中,通过最优传输问题来对各个第一图像块样本与K个原型特征进行匹配,从而能够提高各个第一图像块样本与K个原型特征的匹配对模型优化的效果,提高了通过未标注的图像样本对上述对象计数模型的训练效果。
步骤320c:基于各个第一图像块样本各自的图像块样本特征、匹配关系、以及K个原型特征,获取第一损失函数值。
在一种可能的实现方式中,第一损失函数值包括第一损失函数子值;
第一损失函数子值用于拉近第一图像块样本的图像块样本特征,与第一图像块样本匹配的原型特征之间的距离;并且,第一损失函数子值用于拉远第一图像块样本的图像块样本特征,与第一图像块样本不匹配的原型特征之间的距离。
根据匹配矩阵L,可以获得图像块i或者图像块i的特征匹配到最优对象分布原
型,利用以下对比损失,我们将与拉近,并与其它对象分布原型尽可能拉远:
其中表示温度系数,用于平衡同一原型对应的图像块特征的集中程度。以上过程
可以通过在线的端到端方式进行迭代优化。
在上述方案中,计算机设备通过第一损失函数子值,使得第一图像块样本的图像块样本特征,与第一图像块样本匹配的原型特征之间的距离尽可能的近,并且,使得第一图像块样本的图像块样本特征,与第一图像块样本不匹配的原型特征尽可能的远,从而保证在应用过程中,使得图像块特征能够尽可能的准确的匹配到对应的原型特征,进而提高后续的对象计数的准确性。
在一种可能的实现方式中,计算机设备还基于第一图像块样本的图像块样本特征,以及第一图像块样本匹配的原型特征,对第一图像块样本匹配的原型特征进行更新。
在每次迭代优化完成后,我们根据匹配结果对所有对象分布原型进行更新,此更
新采用动量更新的形式:,其中表示的L2归一化结果,
而表示动量系数一般取为0.999来稳定训练过程。
在本申请实施例中,在每轮训练过程中,在确定第一图像块样本的图像块样本特征后,还可以对匹配的原型特征进行更新,从而进一步提高原型特征的表示效果,进而提高后续的对象计数的准确性。
在一种可能的实现方式中,第一损失函数值包括第二损失函数子值;
第二损失函数子值用于拉近第一图像块样本的图像块样本特征,与第一图像块样本匹配的原型特征之间的距离。
除了使用来约束图像块特征与各对象分布原型之间的相对距离,本方
案还可以引入来对图像块特征与其最优匹配的对象分布原型之间的绝对距离:,从而可以使得特征分布更加紧凑,鼓励模型最小化目标计数
相近的一些图像块的特征间距离。
在上述方案中,计算机设备通过第二损失函数子值来使得包含指定对象的数量相近的一些图像块的特征更加接近,从而能够将包含指定对象的数量相近的图像块准确的匹配到同一个原型特征,进而提高后续的对象计数的准确性。
步骤320d:基于第一损失函数值,对对象计数模型进行参数更新。
其中,计算机设备获取到第一损失函数值之后,即可以根据第一损失函数值对上述对象计数模型进行参数更新。比如,计算机设备可以通过第一损失函数值,通过梯度下降、基于学习率衰减、Adam、动量法等参数更新方式,对上述对象计数模型进行参数更新。
可选的,计算机设备可以单独通过第一损失函数值,对上述对象计数模型进行参数更新。
或者,计算机设备也可以将第一损失函数值与其它损失函数值相结合后,对上述对象计数模型进行参数更新。比如,计算机设备将第一损失函数值与其它损失函数值相加,或者加权求和后,对上述对象计数模型进行参数更新。
在本申请实施例中,计算机设备在训练上述对象计数模型的过程中,对于未标注的第一图像样本,通过对象计数模型处理得到第一图像样本中各个第一图像块样本各自的图像块样本特征后,将各个第一图像块样本各自的图像块样本特征与K个原型特征进行匹配,然后基于图像块样本特征、K个原型特征、以及两者之间的匹配关系来计算第一损失函数值,从而实现了利用未标注的图像样本对上述对象计数模型的参数更新,充分利用未标注的图像样本,扩展了对象计数模型的训练数据,提高了该对象计数模型的准确性。
基于上述图3所示的实施例,请参考图6,其示出了本申请一示例性实施例提供的一种用于对象计数的图像处理方法的流程示意图。如图6所示,图3中的步骤320可以包括步骤320e至步骤320j。
步骤320e:对至少一个第二图像样本,获取第二图像样本中的各个第二图像块样本各自被标注的指定对象的数量。
无标注训练可以利用大规模的未标注数据来提升模型的泛化能力,但是没有直接的监督信息,获取的原型特征并不具有计数的能力,甚至不同原型之间并不能感知计数值的差异,因此还需要引入标注数据的联合训练。
在本申请实施例中,在第二图像样本已经具有被标注的指定对象的位置(比如像素位置)的情况下,计算机设备可以基于第二图像样本中被标注的指定对象的位置,分别统计每个第二图像块样本中的被标注的指定对象的数量。
比如,计算机设备可以遍历第二图像样本中被标注的指定对象的位置,确定第二图像样本中被标注的每个指定对象所属的第二图像块样本,并将对应的第二图像块样本中包含的指定对象的数量加1,在遍历完所有被标注的指定对象的位置后,即可以得到第二图像样本中的各个第二图像块样本各自被标注的指定对象的数量。
在一些实施例中,获取第二图像样本中的各个第二图像块样本各自被标注的指定对象的数量,包括:
基于第二图像样本中各个被标注的指定对象的像素位置,生成各个被标注的指定对象各自的第一响应图;第一响应图中对应被标注的指定对象的像素位置的像素值为1,其它像素位置的像素值为0;
将各个被标注的指定对象各自的第一响应图相加,获得第二图像样本的第二响应图;
通过归一化的高斯核对第二响应图进行卷积操作,获得第二图像样本的热力图;
对热力图中对应各个第二图像块样本的位置分别进行密度值求和,得到各个第二图像块样本各自被标注的指定对象的数量。
在本申请实施例中,计算机设备首先要获取每个图像块的真实计数值,本方案通
过在局部对热力图进行积分求和的方法获取,具体地,先进行热力图的生成。热力图反映了
单位像素在实际场景中对应位置的平均目标数量,为了生成该目标分布密度图,考虑图中
的N个目标中心点x1,…,xn。对于每个目标中心点xi,我们生成一张二维的响应图Hi,该响
应图只有目标中心点位置的像素值为1,其余位置均为0,然后将所有目标中心点对应的Hi
相加得到原图中所有目标的响应图H,显而易见,该响应图的积分值即为目标总数。然后,对
于每个目标我们假设其对周围像素点的密度的贡献值按高斯函数衰减,因此我们使用一个
归一化的高斯核对响应图H进行卷积操作即可得到热力图D。由于高斯核是归一化的,因
此对卷积后得到的热力图D进行积分同样也可以得到目标总数。针对热力图上任意一个
patch,将其中每个像素的密度值求和得到这个patch内的目标总数,即为。
在本申请实施例中,计算机设备通过第二图像样本中已经具有被标注的指定对象的位置来构建热力图,并对热力图中每个第二图像块样本进行积分,即可以得到每个第二图像块样本中的指定对象的数量,该方案不需要对每个指定对象的位置进行遍历,从而能够简化每个第二图像块样本中的指定对象的数量的统计过程,提高统计效率,进而提高模型训练的效率。
在一些实施例中,上述第二图像样本也可以包含基于图4所示的方案,从第一图像样本中筛选出的图像样本,比如,在上述图4所示的方案执行之后,计算机设备可以从未标注数据(即第一图像样本)中选出一些代表性的图像块样本,作为新的第二图像块样本进行自动标注,然后加入图6所示的方案的训练过程,可以大幅提高标注效率。
步骤320f:通过对象计数模型对第二图像样本中的各个第二图像块样本分别进行处理,获得各个第二图像块样本各自的图像块样本特征。
在本申请实施例中,计算机设备在训练上述对象计数模型的过程中,对于每一个第二图像样本,可以通过对象计数模型对第二图像样本中的全部或者部分第二图像块样本分别进行特征提取处理,获得各个第二图像块样本各自的图像块样本特征。
该过程与上述步骤320a类似,此处不再赘述。
步骤320g:基于各个第二图像块样本各自的图像块样本特征,获取各个第二图像块样本分别与K个原型特征之间的匹配关系。
在一些实施例中,基于各个第二图像块样本各自的图像块特征,获取各个第二图像块样本分别与K个原型特征之间的匹配关系,包括:
基于最优传输问题的求解方式,获取各个第二图像块样本分别与K个原型特征之间的匹配矩阵,得到匹配关系;匹配矩阵用于指示各个第二图像块样本分别与K个原型特征中的每个原型特征是否匹配。
在一些实施例中,计算机基于最优传输问题的求解方式,获取各个第二图像块样本分别与K个原型特征之间的匹配矩阵的过程可以如下:
通过各个第二图像块样本各自的图像块样本特征以及K个原型特征,构建各个第二图像块样本分别与K个原型特征之间的匹配关系的最优传输问题的表示矩阵;
基于上述表示矩阵,构建可梯度求导的实数矩阵;
基于上述实数矩阵进行迭代求解,获取上述匹配矩阵。
该过程与上述步骤320b类似,此处不再赘述。
步骤320h:基于各个第二图像块样本分别与K个原型特征之间的匹配关系,以及各个第二图像块样本各自被标注的指定对象的数量,获取各个第二图像块样本各自匹配的原型特征的指定对象计数值。
在本申请实施例中,在第二图像样本的数量较多,且第二图像样本覆盖的指定对象的密度分布情况较广的情况下,在每一轮训练过程中,每个原型特征可能与多个第二图像块样本成功匹配,对此,在一轮训练过程中,对于K个原型特征中的任意一个原型特征,计算机设备可以获取到与该原型特征匹配的各个第二图像块样本包含的被标注的指定对象的数量,然后基于各个第二图像块样本包含的被标注的指定对象的数量来确定该原型特征的指定对象计数值。
在一些实施例中,原型特征的指定对象计数值,是与原型特征匹配的第二图像块样本中被标注的指定对象的数量的平均值。
在本申请实施例中,计算机设备可以将与一个原型特征匹配的各个第二图像块样本包含的被标注的指定对象的数量取平均值,得到该原型特征的指定对象计数值,从而能够在一轮训练过程中,为各个原型特征确定唯一的计数值,从而支持后续损失函数计算的可行性,同时提高原型特征对应的计数值的准确性。
步骤320i:基于各个第二图像块样本各自被标注的指定对象的数量,与各个第二图像块样本各自匹配的原型特征的指定对象计数值之间的差异,获取第二损失函数值。
在本申请实施例中,由于一个原型特征的指定对象计数值是唯一的值,而与该原型特征匹配的多个第二图像块样本各自包含的被标注的指定对象的数量通常各不相同,而本申请的模型训练目的之一,是要使得与该原型特征匹配的多个第二图像块样本各自包含的被标注的指定对象的数量,与该原型特征的指定对象计数值尽可能的接近,对此,计算机设备可以基于各个第二图像块样本各自被标注的指定对象的数量,与各个第二图像块样本各自匹配的原型特征的指定对象计数值之间的差异,获取第二损失函数值(比如,通过交叉熵损失函数计算上述第二损失函数值),以便通过该第二损失函数值,使得对象计数模型能够从包含指定对象的数量与该原型特征的指定对象计数值接近的图像块中,提取出与该原型特征接近的图像块特征,从而提高模型的特征提取准确性和后续对象计数的准确性。
步骤320j:基于第二损失函数值,对对象计数模型进行参数更新。
对于标注数据,使用类似无标签数据参与训练的方式来获取每个图像块所属的对
象分布原型,假设图像块(其中的计数值为)对应的最近对象分布原型为,本申请实
施例会统计所对应的数据集中所有图像块的计数值,并以动量更新的方式在线进行更
新,最终获取对应的动量平均计数值。为了方便讨论,请参考图7,其示出了本申请实
施例涉及的计数值区间划分示意图。如图7所示,假设所对应的计数值依次递增,那么可以获取属于的计数值区间[,],其中边界值为和(的动量平均计数值)的算术平均值。根据动量统计好的计数区间范围,可以
将图像块(按照其中的计数值落在哪个区间)归为某一类作为这个patch的真实类别
标签,但是由于之前为匹配到的最近原型所对应的计数值为,二者并不一定是相通
的,因此,在本申请实施例中,可以使用交叉熵损失函数对每个patch学习预测这个类标签。
在本申请中,上述图4和图6对应的实施例可以结合使用。比如,上述计算机设备可以每一轮训练过程中,分别通过图4所示实施例中得到的第一损失函数值,以及图6所示实施例中得到的第二损失函数值,对上述对象计数模型进行参数更新。再比如,上述计算机设备可以每一轮训练过程中,将图4所示实施例中得到的第一损失函数值,以及图6所示实施例中得到的第二损失函数值进行加权后,对上述对象计数模型进行参数更新。
在预测时,针对每一个patch,本申请上述实施例提供的网络会找距离最近的原型
特征,对应该原型特征的计数区间的代理计数值会被作为该patch的预测目标数量,最终
每个patch的预测目标数求和即为该图像中的总目标数。
除了能利用大量未标注数据外,相比于传统的基于MSE回归的密度图预测方式,由于本方案通过对比学习等手段来使得同一原型对应的特征尽可能紧凑,并将不同计数值对应的原型拉开,因此能够对于异常点更为鲁棒,从而在未见场景上有着更好的泛化性。
本申请上述方案提出了一种基于对象分布原型的目标计数方法,本方案从多个角度出发来提升目标计数模型的跨场景泛化能力,特别是在未见背景区域上。首先本方案使用基于图像块分类的计数方法,通过对比学习来拉开背景区域与目标分布区域的特征,从而使得所学习到的特征具有更强的泛化性。其次,本方案通过优化最优传输问题来实现动态的图像块在线聚类,使得含有不同对象分布密集程度的图像块会被鼓励接近同一个特征原型。本方案是一种可以结合大量无标签数据联合训练的目标计数方法,可以直接利用互联网上的海量数据或者针对视频数据进行学习,从而可以获得更好的模型泛化能力,对于开放场景下的目标计数任务有着很高的实用价值。具体地,在模型训练过程中,对于无标签的数据,鼓励模型进行无监督的在线聚类,来发现大量无标签数据中对象分布的共有特点,对于有标签的数据,可以最大化其属于某个计数范围的对象原型的后验概率,从而使得模型可以精准地统计整张图像中的目标数量。
本申请实施例所示的方案可以具有以下应用方式:
1)为用户提供指定对象的计数服务。
请参考图8,其示出了本申请实施例涉及的一种模型应用的框架图。如图8所示,以应用于细胞计数任务为例,开发人员预先收集未标注的医疗显微图像样本,以及标注了指定类型细胞的位置的医疗显微图像样本并输入模型训练设备81,模型训练设备81通过图3、图4以及图6至少一种实施例所示的方案,通过预先收集的未标注的医疗显微图像样本,以及标注了指定类型细胞(比如被染色的细胞)的位置的医疗显微图像样本,训练得到细胞计数模型、K个原型特征、以及K个原型特征各自对应的细胞计数值;将上述细胞计数模型、K个原型特征、以及K个原型特征各自对应的细胞计数值部署到服务器82。
在应用过程中,服务器82接收医疗机构的用户(比如医疗人员)通过终端83上传的医疗显微图像,并通过图2所示的实施例中的方案,通过细胞计数模型对医疗显微图像进行处理,得到医疗显微图像中M个图像块各自的图像块特征,将每个图像块特征与K个原型特征进行匹配,找到最匹配的一个原型特征后,记录该原型特征的细胞计数值,在确定出每个图像块对应的细胞计数值后,将每个图像块对应的细胞计数值累加,得到医疗显微图像中的指定类型细胞的总数量,并将指定类型细胞的总数量返回给终端83。
2)为用户提供用于对象计数的模型训练服务。
请参考图9,其示出了本申请实施例涉及的另一种模型应用的框架图。如图9所示,还是以应用于细胞计数任务为例,开发人员提供模型训练的服务器91;用户预先收集未标注的医疗显微图像样本,以及标注了指定类型细胞的位置的医疗显微图像样本,并通过终端92将未标注的医疗显微图像样本,以及标注了指定类型细胞的位置的医疗显微图像样本上传至服务器91,服务器91通过图3、图4以及图6至少一种实施例所示的方案,通过未标注的医疗显微图像样本,以及标注了指定类型细胞(比如被染色的细胞)的位置的医疗显微图像样本,训练得到细胞计数模型、K个原型特征、以及K个原型特征各自对应的细胞计数值;将上述细胞计数模型、K个原型特征、以及K个原型特征各自对应的细胞计数值返回给终端92,用户将上述细胞计数模型、K个原型特征、以及K个原型特征各自对应的细胞计数值部署至终端93。其中,上述终端92和终端93可以是同一个终端,也可以是不同的终端。
在应用过程中,终端93接收用户(比如医疗人员)通过图像采集设备94上传的医疗显微图像,并通过图2所示的实施例中的方案,通过细胞计数模型对医疗显微图像进行处理,得到医疗显微图像中M个图像块各自的图像块特征,将每个图像块特征与K个原型特征进行匹配,找到最匹配的一个原型特征后,记录该原型特征的细胞计数值,在确定出每个图像块对应的细胞计数值后,将每个图像块对应的细胞计数值累加,得到医疗显微图像中的指定类型细胞的总数量,并将指定类型细胞的总数量进行显示。
图10是根据一示例性实施例示出的一种用于对象计数的图像处理装置的结构方框图。该装置可以实现图2、图3、图4或图6中至少一个实施例提供的方法中的全部或部分步骤,该用于对象计数的图像处理装置包括:
图像获取模块1001,用于获取目标图像,所述目标图像中包含指定对象;
特征获取模块1002,用于将所述目标图像中的M个图像块分别映射至目标特征空间,获得所述M个图像块各自的图像块特征;所述目标特征空间是基于至少一个第一图像样本和至少一个第二图像样本构建的特征空间;所述第一图像样本是未标注指定对象的图像,所述第二图像样本是标注有指定对象的图像;M为大于或者等于1的整数;
匹配模块1003,用于基于所述M个图像块各自的图像块特征,从K个原型特征中确定所述M个图像块各自匹配的原型特征;所述K个原型特征是基于所述至少一个第一图像样本中的第一图像块样本在所述目标特征空间中的图像块样本特征构建的;所述K个原型特征具有各自的指定对象计数值;所述指定对象计数值是基于所述第二图像样本中的第二图像块样本所包含的指定对象的数量确定的;K为大于或者等于2的整数;
对象计数模块1004,用于基于所述M个图像块各自匹配的原型特征的指定对象计数值,获取所述目标图像中的指定对象的数量。
在一些实施例中,所述特征获取模块1002,用于,
通过对象计数模型对所述目标图像中的M个图像块分别进行处理,获得所述M个图像块各自的图像块特征;
所述装置还包括:
参数更新模块,用于在图像获取模块1001获取目标图像之前,基于所述至少一个第一图像样本和所述至少一个第二图像样本,对所述对象计数模型进行参数更新。
在一些实施例中,所述参数更新模块,用于,
对所述至少一个第一图像样本,通过所述对象计数模型对所述第一图像样本中的各个第一图像块样本分别进行处理,获得所述各个第一图像块样本各自的图像块样本特征;
基于所述各个第一图像块样本各自的图像块样本特征,获取所述各个第一图像块样本分别与所述K个原型特征之间的匹配关系;
基于所述各个第一图像块样本各自的图像块样本特征、所述匹配关系、以及所述K个原型特征,获取第一损失函数值;
基于所述第一损失函数值,对所述对象计数模型进行参数更新。
在一些实施例中,所述参数更新模块,用于基于最优传输问题的求解方式,获取所述各个第一图像块样本分别与所述K个原型特征之间的匹配矩阵,得到所述匹配关系;所述匹配矩阵用于指示所述各个第一图像块样本分别与所述K个原型特征中的每个原型特征是否匹配。
在一些实施例中,所述第一损失函数值包括第一损失函数子值;
所述第一损失函数子值用于拉近所述第一图像块样本的图像块样本特征,与所述第一图像块样本匹配的原型特征之间的距离;并且,所述第一损失函数子值用于拉远所述第一图像块样本的图像块样本特征,与所述第一图像块样本不匹配的原型特征之间的距离。
在一些实施例中,所述第一损失函数值包括第二损失函数子值;
所述第二损失函数子值用于拉近所述第一图像块样本的图像块样本特征,与所述第一图像块样本匹配的原型特征之间的距离。
在一些实施例中,所述装置还包括:
原型更新模块,用于基于所述第一图像块样本的图像块样本特征,以及所述第一图像块样本匹配的原型特征,对所述第一图像块样本匹配的原型特征进行更新。
在一些实施例中,所述参数更新模块,用于,
对所述至少一个第二图像样本,获取所述第二图像样本中的各个第二图像块样本各自被标注的指定对象的数量;
通过所述对象计数模型对所述第二图像样本中的各个第二图像块样本分别进行处理,获得所述各个第二图像块样本各自的图像块样本特征;
基于所述各个第二图像块样本各自的图像块样本特征,获取所述各个第二图像块样本分别与所述K个原型特征之间的匹配关系;
基于所述各个第二图像块样本分别与所述K个原型特征之间的匹配关系,以及所述各个第二图像块样本各自被标注的指定对象的数量,获取所述各个第二图像块样本各自匹配的原型特征的指定对象计数值;
基于所述各个第二图像块样本各自被标注的指定对象的数量,与所述各个第二图像块样本各自匹配的原型特征的指定对象计数值之间的差异,获取第二损失函数值;
基于所述第二损失函数值,对所述对象计数模型进行参数更新。
在一些实施例中,所述原型特征的指定对象计数值,是与所述原型特征匹配的第二图像块样本中被标注的指定对象的数量的平均值。
图11是根据一示例性实施例示出的一种用于对象计数的图像处理装置的结构方框图。该装置可以实现图2、图3、图4或图6中至少一个实施例提供的方法中的全部或部分步骤,该用于对象计数的图像处理装置包括:
样本获取模块1101,用于获取至少一个第一图像样本和至少一个第二图像样本;所述第一图像样本是未标注指定对象的图像,所述第二图像样本是标注有指定对象的图像;
模型更新模块1102,用于基于所述至少一个第一图像样本和所述至少一个第二图像样本,对对象计数模型进行参数更新;
其中,所述对象计数模型用于将目标图像中的M个图像块分别映射至目标特征空间,获得所述M个图像块各自的图像块特征;所述M个图像块各自的图像块特征,用于从K个原型特征中确定所述M个图像块各自匹配的原型特征,基于所述M个图像块各自匹配的原型特征的指定对象计数值,获取所述目标图像中的指定对象的数量;所述目标特征空间是基于所述至少一个第一图像样本和所述至少一个第二图像样本构建的特征空间;所述K个原型特征是基于所述至少一个第一图像样本中的第一图像块样本在所述目标特征空间中的图像块样本特征构建的;所述K个原型特征具有各自的指定对象计数值;所述指定对象计数值是基于所述第二图像样本中的第二图像块样本所包含的指定对象的数量确定的;M为大于或者等于1的整数;K为大于或者等于2的整数。
图12是根据一示例性实施例示出的一种计算机设备的结构示意图。该计算机设备可以实现为上述各个方法实施例中用于训练对象计数模块的计算机设备,或者,可以实现为上述各个方法实施例中用于通过对象计数模块进行用于对象计数的图像处理的计算机设备。所述计算机设备1200包括中央处理单元(CPU,Central Processing Unit)1201、包括随机存取存储器(Random Access Memory,RAM)1202和只读存储器(Read-Only Memory,ROM)1203的***存储器1204,以及连接***存储器1204和中央处理单元1201的***总线1205。所述计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***1206,和用于存储操作***1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
所述大容量存储设备1207通过连接到***总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说,所述大容量存储设备1207可以包括诸如硬盘或者光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、闪存或其他固态存储其技术,CD-ROM、或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器1204和大容量存储设备1207可以统称为存储器。
计算机设备1200可以通过连接在所述***总线1205上的网络接口单元1211连接到互联网或者其它网络设备。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理单元1201通过执行该一个或一个以上程序来实现上述各个方法所示的方法的全部或者部分步骤。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括计算机程序(指令)的存储器,上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法。例如,所述非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例所示的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (14)
1.一种用于对象计数的图像处理方法,其特征在于,所述方法包括:
获取目标图像,所述目标图像中包含指定对象;
将所述目标图像中的M个图像块分别映射至目标特征空间,获得所述M个图像块各自的图像块特征;所述目标特征空间是基于至少一个第一图像样本和至少一个第二图像样本构建的特征空间;所述第一图像样本是未标注指定对象的图像,所述第二图像样本是标注有指定对象的图像;M为大于或者等于1的整数;
基于所述M个图像块各自的图像块特征,从K个原型特征中确定所述M个图像块各自匹配的原型特征;所述K个原型特征是基于所述至少一个第一图像样本中的第一图像块样本在所述目标特征空间中的图像块样本特征构建的;所述K个原型特征具有各自的指定对象计数值;所述指定对象计数值是基于所述第二图像样本中的第二图像块样本所包含的指定对象的数量确定的;K为大于或者等于2的整数;
基于所述M个图像块各自匹配的原型特征的指定对象计数值,获取所述目标图像中的指定对象的数量。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标图像中的M个图像块分别映射至目标特征空间,获得所述M个图像块各自的图像块特征,包括:
通过对象计数模型对所述目标图像中的M个图像块分别进行处理,获得所述M个图像块各自的图像块特征;
所述获取目标图像之前,还包括:
基于所述至少一个第一图像样本和所述至少一个第二图像样本,对所述对象计数模型进行参数更新。
3.根据权利要求2所述的方法,其特征在于,所述基于所述至少一个第一图像样本和所述至少一个第二图像样本,对所述对象计数模型进行参数更新,包括:
对所述至少一个第一图像样本,通过所述对象计数模型对所述第一图像样本中的各个第一图像块样本分别进行处理,获得所述各个第一图像块样本各自的图像块样本特征;
基于所述各个第一图像块样本各自的图像块样本特征,获取所述各个第一图像块样本分别与所述K个原型特征之间的匹配关系;
基于所述各个第一图像块样本各自的图像块样本特征、所述匹配关系、以及所述K个原型特征,获取第一损失函数值;
基于所述第一损失函数值,对所述对象计数模型进行参数更新。
4.根据权利要求3所述的方法,其特征在于,所述基于所述各个第一图像块样本各自的图像块特征,获取所述各个第一图像块样本分别与所述K个原型特征之间的匹配关系,包括:
基于最优传输问题的求解方式,获取所述各个第一图像块样本分别与所述K个原型特征之间的匹配矩阵,得到所述匹配关系;所述匹配矩阵用于指示所述各个第一图像块样本分别与所述K个原型特征中的每个原型特征是否匹配。
5.根据权利要求3所述的方法,其特征在于,所述第一损失函数值包括第一损失函数子值;
所述第一损失函数子值用于拉近所述第一图像块样本的图像块样本特征,与所述第一图像块样本匹配的原型特征之间的距离;并且,所述第一损失函数子值用于拉远所述第一图像块样本的图像块样本特征,与所述第一图像块样本不匹配的原型特征之间的距离。
6.根据权利要求3所述的方法,其特征在于,所述第一损失函数值包括第二损失函数子值;
所述第二损失函数子值用于拉近所述第一图像块样本的图像块样本特征,与所述第一图像块样本匹配的原型特征之间的距离。
7.根据权利要求3至6任一所述的方法,其特征在于,所述方法还包括:
基于所述第一图像块样本的图像块样本特征,以及所述第一图像块样本匹配的原型特征,对所述第一图像块样本匹配的原型特征进行更新。
8.根据权利要求2所述的方法,其特征在于,所述基于所述至少一个第一图像样本和所述至少一个第二图像样本,对所述对象计数模型进行参数更新,包括:
对所述至少一个第二图像样本,获取所述第二图像样本中的各个第二图像块样本各自被标注的指定对象的数量;
通过所述对象计数模型对所述第二图像样本中的各个第二图像块样本分别进行处理,获得所述各个第二图像块样本各自的图像块样本特征;
基于所述各个第二图像块样本各自的图像块样本特征,获取所述各个第二图像块样本分别与所述K个原型特征之间的匹配关系;
基于所述各个第二图像块样本分别与所述K个原型特征之间的匹配关系,以及所述各个第二图像块样本各自被标注的指定对象的数量,获取所述各个第二图像块样本各自匹配的原型特征的指定对象计数值;
基于所述各个第二图像块样本各自被标注的指定对象的数量,与所述各个第二图像块样本各自匹配的原型特征的指定对象计数值之间的差异,获取第二损失函数值;
基于所述第二损失函数值,对所述对象计数模型进行参数更新。
9.根据权利要求8所述的方法,其特征在于,所述原型特征的指定对象计数值,是与所述原型特征匹配的第二图像块样本中被标注的指定对象的数量的平均值。
10.一种用于对象计数的图像处理方法,其特征在于,所述方法包括:
获取至少一个第一图像样本和至少一个第二图像样本;所述第一图像样本是未标注指定对象的图像,所述第二图像样本是标注有指定对象的图像;
基于所述至少一个第一图像样本和所述至少一个第二图像样本,对对象计数模型进行参数更新;
其中,所述对象计数模型用于将目标图像中的M个图像块分别映射至目标特征空间,获得所述M个图像块各自的图像块特征;所述M个图像块各自的图像块特征,用于从K个原型特征中确定所述M个图像块各自匹配的原型特征,基于所述M个图像块各自匹配的原型特征的指定对象计数值,获取所述目标图像中的指定对象的数量;所述目标特征空间是基于所述至少一个第一图像样本和所述至少一个第二图像样本构建的特征空间;所述K个原型特征是基于所述至少一个第一图像样本中的第一图像块样本在所述目标特征空间中的图像块样本特征构建的;所述K个原型特征具有各自的指定对象计数值;所述指定对象计数值是基于所述第二图像样本中的第二图像块样本所包含的指定对象的数量确定的;M为大于或者等于1的整数;K为大于或者等于2的整数。
11.一种用于对象计数的图像处理装置,其特征在于,所述装置包括:
图像获取模块,用于获取目标图像,所述目标图像中包含指定对象;
特征获取模块,用于将所述目标图像中的M个图像块分别映射至目标特征空间,获得所述M个图像块各自的图像块特征;所述目标特征空间是基于至少一个第一图像样本和至少一个第二图像样本构建的特征空间;所述第一图像样本是未标注指定对象的图像,所述第二图像样本是标注有指定对象的图像;M为大于或者等于1的整数;
匹配模块,用于基于所述M个图像块各自的图像块特征,从K个原型特征中确定所述M个图像块各自匹配的原型特征;所述K个原型特征是基于所述至少一个第一图像样本中的第一图像块样本在所述目标特征空间中的图像块样本特征构建的;所述K个原型特征具有各自的指定对象计数值;所述指定对象计数值是基于所述第二图像样本中的第二图像块样本所包含的指定对象的数量确定的;K为大于或者等于2的整数;
对象计数模块,用于基于所述M个图像块各自匹配的原型特征的指定对象计数值,获取所述目标图像中的指定对象的数量。
12.一种用于对象计数的图像处理装置,其特征在于,所述装置包括:
样本获取模块,用于获取至少一个第一图像样本和至少一个第二图像样本;所述第一图像样本是未标注指定对象的图像,所述第二图像样本是标注有指定对象的图像;
模型更新模块,用于基于所述至少一个第一图像样本和所述至少一个第二图像样本,对对象计数模型进行参数更新;
其中,所述对象计数模型用于将目标图像中的M个图像块分别映射至目标特征空间,获得所述M个图像块各自的图像块特征;所述M个图像块各自的图像块特征,用于从K个原型特征中确定所述M个图像块各自匹配的原型特征,基于所述M个图像块各自匹配的原型特征的指定对象计数值,获取所述目标图像中的指定对象的数量;所述目标特征空间是基于所述至少一个第一图像样本和所述至少一个第二图像样本构建的特征空间;所述K个原型特征是基于所述至少一个第一图像样本中的第一图像块样本在所述目标特征空间中的图像块样本特征构建的;所述K个原型特征具有各自的指定对象计数值;所述指定对象计数值是基于所述第二图像样本中的第二图像块样本所包含的指定对象的数量确定的;M为大于或者等于1的整数;K为大于或者等于2的整数。
13.一种计算机设备,其特征在于,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条计算机指令,所述至少一条计算机指令由所述处理器加载并执行以实现如权利要求1至10任一所述的用于对象计数的图像处理方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行以实现如权利要求1至10任一所述的用于对象计数的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310894115.9A CN116612341B (zh) | 2023-07-20 | 2023-07-20 | 用于对象计数的图像处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310894115.9A CN116612341B (zh) | 2023-07-20 | 2023-07-20 | 用于对象计数的图像处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116612341A CN116612341A (zh) | 2023-08-18 |
CN116612341B true CN116612341B (zh) | 2023-09-22 |
Family
ID=87676895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310894115.9A Active CN116612341B (zh) | 2023-07-20 | 2023-07-20 | 用于对象计数的图像处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612341B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569081A (zh) * | 2021-01-26 | 2021-10-29 | 腾讯科技(北京)有限公司 | 图像识别方法、装置、设备及存储介质 |
CN114612402A (zh) * | 2022-03-04 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 对象数量的确定方法、装置、设备、介质及程序产品 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019903A (zh) * | 2017-10-10 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 图像处理引擎组件的生成方法、搜索方法及终端、*** |
US10956817B2 (en) * | 2018-04-18 | 2021-03-23 | Element Ai Inc. | Unsupervised domain adaptation with similarity learning for images |
-
2023
- 2023-07-20 CN CN202310894115.9A patent/CN116612341B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569081A (zh) * | 2021-01-26 | 2021-10-29 | 腾讯科技(北京)有限公司 | 图像识别方法、装置、设备及存储介质 |
CN114612402A (zh) * | 2022-03-04 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 对象数量的确定方法、装置、设备、介质及程序产品 |
Non-Patent Citations (1)
Title |
---|
基于图像纹理特征提取方法的人脸识别;姚骋天;中国优秀硕士学位论文全文数据库 信息科技辑(第04期);第I138-498页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116612341A (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN110414432B (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN111401344B (zh) | 人脸识别方法和装置及人脸识别***的训练方法和装置 | |
EP3968179A1 (en) | Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device | |
EP4002161A1 (en) | Image retrieval method and apparatus, storage medium, and device | |
CN109993102B (zh) | 相似人脸检索方法、装置及存储介质 | |
CN111666919B (zh) | 一种对象识别方法、装置、计算机设备和存储介质 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN114298122B (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
US11966829B2 (en) | Convolutional artificial neural network based recognition system in which registration, search, and reproduction of image and video are divided between and performed by mobile device and server | |
CN110765882B (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
US20220237917A1 (en) | Video comparison method and apparatus, computer device, and storage medium | |
CN111582342A (zh) | 一种图像识别方法、装置、设备以及可读存储介质 | |
CN110796204A (zh) | 视频标签确定方法、装置和服务器 | |
CN112668608B (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN113033507B (zh) | 场景识别方法、装置、计算机设备和存储介质 | |
CN106355210A (zh) | 基于深度神经元响应模式的绝缘子红外图像特征表达方法 | |
CN111382807A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN114764870A (zh) | 对象定位模型处理、对象定位方法、装置及计算机设备 | |
CN116612341B (zh) | 用于对象计数的图像处理方法、装置、设备及存储介质 | |
CN117010480A (zh) | 模型训练方法、装置、设备、存储介质及程序产品 | |
CN117011566A (zh) | 一种目标检测方法、检测模型训练方法、装置及电子设备 | |
CN114596435A (zh) | 语义分割标签的生成方法、装置、设备及存储介质 | |
CN115129908A (zh) | 一种模型优化方法、装置、设备、存储介质及程序产品 | |
CN113569809A (zh) | 一种图像处理方法、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |