CN114495241A - 一种图像识别方法及装置、电子设备、存储介质 - Google Patents
一种图像识别方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN114495241A CN114495241A CN202210143151.7A CN202210143151A CN114495241A CN 114495241 A CN114495241 A CN 114495241A CN 202210143151 A CN202210143151 A CN 202210143151A CN 114495241 A CN114495241 A CN 114495241A
- Authority
- CN
- China
- Prior art keywords
- key point
- image
- target
- shot
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012163 sequencing technique Methods 0.000 claims abstract description 29
- 238000001514 detection method Methods 0.000 claims description 67
- 210000001508 eye Anatomy 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013441 quality evaluation Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 210000004709 eyebrow Anatomy 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000001217 buttock Anatomy 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000001513 elbow Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 210000002832 shoulder Anatomy 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
一种图像识别方法及装置、电子设备、存储介质,该方法包括:获取目标对象的多张拍摄图像。对拍摄图像进行关键点识别,得到多种关键点类型以及拍摄图像中每种关键点类型对应的目标关键点及其第一置信度。针对每种关键点类型,根据拍摄图像中相应目标关键点的第一置信度,对所有拍摄图像进行排序,得到第一排序结果,进而计算拍摄图像针对关键点类型的计分值。根据拍摄图像针对不同关键点类型的计分值进行求和计算,得到拍摄图像的质量分数,以确定目标分数范围,并取质量分数在目标分数范围内的拍摄图像作为目标图像,从而对目标图像进行识别,实现了图像质量评分的客观性,也能够对低质量评分的图像进行清洗,提升了后续图像识别的准确性。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种图像识别方法及装置、电子设备、存储介质。
背景技术
动态抓拍是图像识别应用中常见的图像采集方式,现有技术中,将对同一对象(比如用户人脸)动态抓拍的多张图像输入到多种质量检测模型(比如拍摄角度检测模型和清晰度检测模型等)中进行质量评估,可以根据各个质量检测模型设定的质量阈值,从多张图像中筛除低质量图像,从而将较高质量的图像送入图像识别***中进行识别。实践中发现,这种方式下,不同质量检测模型的质量阈值是人为设定,因此存在无法客观反映图像质量的问题,降低了图像识别的准确性。
发明内容
本申请提供一种图像识别方法及装置、电子设备、存储介质,其主要目的在于提升图像识别的准确性。
为实现上述目的,本申请实施例提供了一种图像识别方法,所述方法包括:
获取目标对象的多张拍摄图像;
对所述拍摄图像进行关键点识别,得到多种关键点类型以及所述拍摄图像中每种所述关键点类型对应的目标关键点,并确定所述拍摄图像中所述目标关键点的第一置信度;
针对每种所述关键点类型,根据所述拍摄图像中所述关键点类型对应的目标关键点的第一置信度,对所有所述拍摄图像进行排序,得到第一排序结果,并根据所述第一排序结果,计算所述拍摄图像针对所述关键点类型的计分值;
根据所述拍摄图像针对不同关键点类型的计分值进行求和计算,得到所述拍摄图像的质量分数;
根据每张所述拍摄图像的质量分数,确定目标分数范围,并取质量分数在所述目标分数范围内的拍摄图像作为目标图像;
对所述目标图像进行识别,得到图像识别结果。
为实现上述目的,本申请实施例还提出了一种图像识别装置,所述装置包括:
获取模块,用于获取目标对象的多张拍摄图像;
第一识别模块,用于对所述拍摄图像进行关键点识别,得到多种关键点类型以及所述拍摄图像中每种所述关键点类型对应的目标关键点,并确定所述拍摄图像中所述目标关键点的第一置信度;
排序模块,用于针对每种所述关键点类型,根据所述拍摄图像中所述关键点类型对应的目标关键点的第一置信度,对所有所述拍摄图像进行排序,得到第一排序结果;
计算模块,用于根据所述第一排序结果,计算所述拍摄图像针对所述关键点类型的计分值,以及,根据所述拍摄图像针对不同关键点类型的计分值进行求和计算,得到所述拍摄图像的质量分数;
确定模块,用于根据每张所述拍摄图像的质量分数,确定目标分数范围,并取质量分数在所述目标分数范围内的拍摄图像作为目标图像;
第二识别模块,用于对所述目标图像进行识别,得到图像识别结果。
为实现上述目的,本申请实施例还提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器上存储有程序,所述程序被所述处理器执行时实现前述方法的步骤。
为实现上述目的,本申请提供了一种存储介质,用于计算机可读存储,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现前述方法的步骤。
本申请提出的图像识别方法及装置、电子设备、存储介质,通过获取目标对象的多张拍摄图像,从每张拍摄图像识别出多种关键点类型以及拍摄图像中每种关键点类型对应的目标关键点,并确定目标关键点的第一置信度。之后,针对每种关键点类型,根据拍摄图像中关键点类型所对应目标关键点的第一置信度,对所有拍摄图像进行排序,得到第一排序结果,并根据第一排序结果,计算每张拍摄图像针对同一关键点类型的计分值,能够结合拍摄图像的关键点特征,基于同一目标对象的多张拍摄图像之间针对不同关键点类型的关联性,进行独立的关键点置信度的对比排序以及质量评分,最后将各个关键点类型的排序评分结果融合以得到拍摄图像的质量分数,实现了图像质量评分的客观性。基于此,根据实际计算的质量分数确定目标分数范围,从而推选出质量评分满足目标分数范围的拍摄图像以进行人脸识别,也能够对多张拍摄图像中低质量评分的图像进行清洗,有利于提升后续图像识别的准确性。
附图说明
图1是本申请实施例所应用的一种电子设备的结构框图;
图2是本申请实施例一提供的一种图像识别方法的流程示意图;
图3是本申请实施例二提供的一种图像识别方法的流程示意图;
图4是本申请实施例中一种预测模型的模型结构示意图;
图5是本申请实施例所应用的一种图像识别装置的结构框图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。其中,人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术,而人工智能软件技术主要包括计算机视觉技术(比如图像识别)、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
动态抓拍是图像识别应用中常见的图像采集方式,现有技术中,将对同一对象(比如用户人脸)动态抓拍的多张图像输入到多种质量检测模型(比如拍摄角度检测模型和清晰度检测模型等)中进行质量评估,可以根据各个质量检测模型设定的质量阈值,从多张图像中筛除低质量图像,从而将较高质量的图像送入图像识别***中进行识别。实践中发现,这种方式存在以下问题:一方面,采用多个质量检测模型进行图像质量评估,容易导致整体识别效率较低。另一方面,不同质量检测模型的质量阈值是人为设定,因此无法客观反映图像质量,降低了图像识别的准确性。
为了解决上述问题,本申请提供一种图像识别方法,应用于一种电子设备。参照图1所示,图1是本申请实施例所应用的一种电子设备的结构框图。
在本实施例中,电子设备可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子设备包括:存储器11、处理器12、网络接口13及数据总线14。
存储器11包括至少一种类型的可读存储介质,至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备的内部存储单元,例如该电子设备的硬盘。在另一些实施例中,可读存储介质也可以是电子设备的外部存储器,例如电子设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备的图像识别程序、多种样本集及预先训练好的模型等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行图像识别程序等。
网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子设备与其他电子设备之间建立通信连接。
数据总线14用于实现这些组件之间的连接通信。
可选的,该电子设备还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选的,该电子设备还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
可选的,该电子设备还包括触摸传感器。触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子设备的显示器的面积可以与触摸传感器的面积相同,也可以不同。可选地,将显示器与触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
下面对本申请实施例公开的一种图像识别方法进行具体说明。
实施例一
如图2所示,图2是本申请实施例一提供的一种图像识别方法的流程示意图。基于图1所示的电子设备实施例,处理器12执行存储器11中存储的程序时实现如下步骤:
步骤S200:获取目标对象的多张拍摄图像。
本申请实施例可应用于人脸识别、人体行为识别、交通控制***、卫星图像物体定位、行人检测以及医学影像处理等多种图像识别场景。其中,拍摄图像可以是包含至少一个可识别对象的图像,可识别对象是任意具有特定性质(包括形状、灰度及纹理等)的对象,比如人脸、人体、医学影像的肿瘤及器官、组织等其他病理定位对象以及交通检测场景的车辆等。可以理解,可识别对象与目标对象具有对应关系,比如,目标对象为用户A,可识别对象为用户A的人脸,则拍摄图像为用户A的人脸图像。实际应用中,可以直接利用电子设备对目标对象动态抓拍多张拍摄图像。或者,也可以从不同数据源获取对目标对象预先采集的多张拍摄图像,根据实际需求,数据源包括但不限于设备相册、图像数据库、医学影像装置或道路监控***等。
步骤S210:对拍摄图像进行关键点识别,得到多种关键点类型以及拍摄图像中每种关键点类型对应的目标关键点,并确定拍摄图像中目标关键点的第一置信度。
在本申请实施例中,关键点类型及其数量可以与识别任务有关。识别任务可以是人为指定,也可以根据拍摄图像的图像类型所确定,比如,针对人脸图像,分类任务为人脸识别或疾病诊断;针对医疗图像,分类任务为病灶识别;针对人体图像,分类任务为人体行为识别等。不同分类任务所需识别的目标关键点类型也有所不同,并可以由人为设定及调整。相应的,人脸识别任务中,关键点类型包括但不限于眼角、鼻尖、嘴角、脸庞和眉毛等人脸关键点;人体行为识别任务中,关键点类型包括但不限于鼻子、眼睛、耳朵、肩部、肘部、手腕、臀部、膝部和脚踝等人体关键点。
通过确定识别任务,可以采用与识别任务匹配的关键点识别模型对拍摄图像进行关键点识别,关键点识别模型是预先训练得到,其包括但不限于基于卷积神经网络、无监督学习或循环神经网络的关键点检测器。
实际应用中,将拍摄图像输入关键点识别模型中,得到从拍摄图像中识别的多种关键点类型对应的目标关键点以及目标关键点的第一置信度。第一置信度表示在拍摄图像中定位目标关键点的偏差程度,第一置信度越高,说明拍摄图像中的目标关键点更容易定位,而第一置信度越低,说明目标关键点在拍摄图像中的定位偏差越大。比如,如果人脸图像存在侧脸角度过大、面部遮挡或像素较低等问题,导致人脸特征缺失、不易区分或关键点偏移,此时人脸图像的目标关键点的第一置信度变低。
步骤S220:针对每种关键点类型,根据拍摄图像中关键点类型对应的目标关键点的第一置信度,对所有拍摄图像进行排序,得到第一排序结果,并根据第一排序结果,计算拍摄图像针对关键点类型的计分值。
步骤S230:根据拍摄图像针对不同关键点类型的计分值进行求和计算,得到拍摄图像的质量分数。
示例性的,假设针对3张人脸图像p1、p2、p3,每张人脸图像包括眼角和嘴角两种关键点类型。根据3张人脸图像中眼角关键点的第一置信度,对3张人脸图像各自的眼角关键点进行排序,可以得到眼角关键点类型对应的第一排序结果:p3>p2>p1。根据3张人脸图像中嘴角关键点的第一置信度,对3张人脸图像各自的嘴角关键点进行排序,可以得到嘴角关键点类型对应的第一排序结果:p1>p3>p2。
相应的,步骤S220中,可以根据每种关键点类型对应的第一排序结果,确定每张拍摄图像针对该关键点类型的排序数。之后,根据拍摄图像针对关键点类型的排序数,计算拍摄图像针对该关键点类型的计分值。
其中,根据排序数计算拍摄图像针对关键点类型的计分值,包括但不限于以下方式:若按照第一置信度从小到大的次序对所有拍摄图像的第一关键点进行排序,则可以直接取拍摄图像针对每种关键点类型的排序数作为拍摄图像针对该关键点类型的计分值,或者,取排序数对应的归一化值作为拍摄图像针对该关键点类型的计分值,归一化值=2×排序数÷(n2+n);若按照第一置信度从大到小的次序对所有拍摄图像的第一关键点进行排序,则可以取排序数的倒数作为拍摄图像针对该关键点类型的计分值。
仍以上述3张人脸图像为例,人脸图像p1针对眼角关键点类型和嘴角关键点类型的计分值分别可以是1/3和1,则人脸图像p1的质量分数为1/3+1=4/3。人脸图像p2针对眼角关键点类型和嘴角关键点类型的计分值分别可以是1/2和1/3,则人脸图像p2的质量分数为1/2+1/3=5/6。人脸图像p3针对眼角关键点类型和嘴角关键点类型的计分值分别可以是1和1/2,则人脸图像p3的质量分数为1+1/2=3/2。
可见,针对不同关键点类型分别对拍摄图像进行关键点置信度的对比排序以及质量评分,能够进一步提升图像质量评估的精确性。
作为另一种可选的实施方式,步骤S210之后,还可以对拍摄图像中多种关键点类型对应的目标关键点的第一置信度进行求和计算,得到拍摄图像对应的求和值。根据每张拍摄图像对应的求和值,对所有拍摄图像进行排序,得到目标排序结果。示例性的,假设关键点类型的数量为n种(n为正整数),第i种关键点类型对应的目标关键点i的第一置信度为ri,则拍摄图像的求和值其中,ai为目标关键点i对应的权重,其与第i种关键点类型相关,比如所有关键点类型的权重均取值为1。
进一步的,直接根据目标排序结果确定每张拍摄图像对应的排序数,再根据排序数,计算每张拍摄图像的质量分数,并执行步骤S240。计算质量分数的方式包括但不限于:将拍摄图像的排序数确定为拍摄图像的质量分数,比如,拍摄图像的排序数为2,则相应的质量分数为2。
步骤S240:根据每张拍摄图像的质量分数,确定目标分数范围,并取质量分数在目标分数范围内的拍摄图像作为目标图像。
在本申请实施例中,通过步骤S240,从多种拍摄图像中筛除了质量分数不属于目标分数范围内的拍摄图像,并保留质量分数在目标分数范围内的目标图像,有效保证了目标图像的置信水平。目标分数范围可以与关键点类型的数量有关,并由人为指定及调整;或者,也可以对所有拍摄图像的质量分数从大到小进行排序,取排序第k位的质量分数为目标阈值d0,k为正整数并由人为指定,再根据目标阈值d0确定预设阈值范围,比如,预设阈值范围为[d0,dmax],dmax为排序第一位的质量分数;对目标分数范围的确定方式不做具体限定。
步骤S250:对目标图像进行识别,得到图像识别结果。
在本申请实施例中,可以根据识别任务,确定不同的图像识别方法以对目标图像进行识别,能够适用于多样化的图像识别场景。示例性的,在人脸识别的场景下,采用基于几何特征、主成分分析法、神经网络、支持向量机或隐马尔可夫模型等人脸识别方法,对目标图像进行人脸识别,得到对目标对象的人脸识别结果。在人体行为识别的场景下,采用基于无监督学习、卷积神经网络或循环神经网络等行为识别方法,对目标图像进行人体姿态检测及行为识别,得到目标对象的行为识别结果。
可见,实施上述方法实施例,能够结合拍摄图像的关键点特征,基于同一目标对象的多张拍摄图像之间针对不同关键点类型的关联性,进行独立的关键点置信度的对比排序以及质量评分,最后将各个关键点类型的排序评分结果融合以得到拍摄图像的质量分数,实现了图像质量评分的客观性。基于此,根据实际计算的质量分数确定目标分数范围,从而推选出质量评分满足目标分数范围的拍摄图像以进行人脸识别,也能够对多张拍摄图像中低质量评分的图像进行清洗,有利于提升后续图像识别的准确性。
实施例二
如图3所示,图3是本申请实施例二提供的一种图像识别方法的流程示意图。基于图1所示的电子设备实施例,处理器12执行存储器11中存储的程序时实现如下步骤:
步骤S300:获取目标对象的多张拍摄图像。
步骤S310:将拍摄图像输入预设模型的特征提取网络中,得到拍摄图像的特征数据,并分别执行步骤S320和步骤S330。
在本申请实施例中,特征数据可以是拍摄图像的特征图(feature map),也即维度为W*H*C的矩阵。
一些可选的实施方式中,可以构建并训练一个预设模型。如图4所示,预设模型可以包括特征提取网络、检测框预测分支和关键点预测分支,检测框预测分支的输入和关键点预测分支的输入均与特征提取网络的输出相连。
具体的,特征提取网络可以采用卷积神经网络,卷积神经网络中包括多个卷积层,比如5个卷积层。实际应用中,将拍摄图像输入预设模型中,特征提取网络用于从拍摄图像中提取出特征数据,此时,特征数据中W、H和C的具体取值与拍摄图像大小和特征提取网络的卷积参数设置相关。检测框预测分支用于根据特征数据生成拍摄图像的检测框数据。关键点预测分支用于根据特征数据进行目标关键点的回归和分类,输出关键点数据,关键点数据包括但不限于目标关键点的关键点类型、在拍摄图像中的坐标及第一置信度。更具体的,关键点预测分支还可以包括不同关键点类型对应的预测分支,比如,关键点预测分支包括5条预测分支,分别为左眼关键点预测分支、右眼关键点预测分支、鼻尖关键点预测分支、唇左侧关键点预测分支和唇右侧关键点预测分支。
预设模型的训练步骤可以包括:获取一定数量的图像训练样本和图像训练样本的标注信息,标注信息包括对图像训练样本的检测框标注数据和关键点标注数据。利用图像训练样本对构建的预设模型进行训练,并利用标注信息对预设模型的输出结果进行验证,若验证准确率小于预设准确率,则根据输出结果与标注信息计算模型损失值,通过模型损失值调整预设模型的参数,并增加图像训练样本重新执行训练步骤;若准确率大于或者等于预设准确率,则训练结束。
可见,只需采用一个预设模型,且预设模型中检测框预测分支和关键点预测分支共用同一特征提取网络,实现对拍摄图像的特征提取、检测框生成以及关键点预测,能够节省整体图像识别流程的响应和处理时间,提升图像识别效率。
步骤S320:将特征数据输入预设模型的检测框预测分支中,得到拍摄图像的检测框数据。
在本申请实施例中,检测框数据用于确定特征检测框,检测框数据包括但不限于检测框大小(比如检测框长度和宽度等形状特征)以及定位坐标(比如特征检测框的中心坐标或左上角坐标等)等。特征检测框用于在拍摄图像中定位出包含可识别对象的特征检测区域,能够减少无关特征对图像识别的干扰。比如,特征检测框可以是人脸检测框、人体检测框、病灶检测框或车辆检测框等。
步骤S330:将特征数据输入预设模型的关键点预测分支中,得到多种关键点类型、拍摄图像中每种关键点类型对应的目标关键点以及目标关键点的第一置信度。
步骤S340:针对每种关键点类型,根据拍摄图像中关键点类型对应的目标关键点的第一置信度,对所有拍摄图像进行排序,得到第一排序结果,并根据第一排序结果,计算拍摄图像针对关键点类型的计分值。
作为一种可选的实施方式,步骤S330之后,还可以包括以下步骤(1)至(4):
(1)从拍摄图像中多种关键点类型对应的目标关键点中,获取指定关键点,指定关键点对应于人为指定用于筛查图像质量的关键点类型,比如人脸图像中的左眼关键点、右眼关键点、唇左侧关键点、唇右侧关键点和人脸外轮廓关键点等,人体图像中的骨骼关键点等。
(2)识别指定关键点在拍摄图像中对应的实际定位特征。其中,实际定位特征包括但不限于以下至少一种:单个指定关键点的坐标;不同指定关键点之间的坐标间距;不同指定关键点之间坐标间距的比较特征。
(3)利用预设验证规则对实际定位特征进行验证,得到拍摄图像的验证结果。
一种实现方式中,若拍摄图像为人脸图像,指定关键点包括左眼关键点、右眼关键点、唇左侧关键点和唇右侧关键点。步骤(2)具体还可以为:
在拍摄图像中确定左眼关键点的第一定位坐标(x1,y1)、右眼关键点的第二定位坐标(x2,y2)、唇左侧关键点的第三定位坐标(x3,y3)和唇右侧关键点的第四定位坐标(x4,y4)。根据第一定位坐标和第二定位坐标,确定眉心定位坐标以及双眼之间的第一间距信息。根据眉心定位坐标、第三定位坐标和第四定位坐标,确定眉心与唇中心之间的第二间距信息。根据第一间距信息和第二间距信息,计算间距特征值,并取间距特征值作为指定关键点在拍摄图像中对应的实际定位特征。
可选的,眉心定位坐标可以是(x5,y5)=(x2-x1,y2-y1),第一间距信息d1满足:
第二间距信息d2满足:
还可选的,指定关键点还可以包括鼻尖关键点,并可以在拍摄图像中确定鼻尖关键点的第六定位坐标(x6,y6),从而根据眉心定位坐标、第三定位坐标、第四定位坐标和第六定位坐标,确定眉心与唇中心之间的第二间距信息,提升定位眉心与唇心之间间距的精确性。比如,第二间距信息还满足:
相应的,步骤(3)可以为:利用预设的间距取值范围对间距特征值进行验证,若间距特征值属于间距取值范围,则验证成功,若间距特征值不属于间距取值范围,则验证失败。也就是说,如果间距特征值未落入预设的间距取值范围内,说明存在人脸角度过大或者图像模糊等因素,导致关键点位定位不准,因此,通过对间距特征值进行验证,能够基于关键点位间距进一步实现对拍摄图像的监督和筛查。示例性的,可以对多张(比如5000张)角度正常的人脸图像以及多张(比如5000张)角度过大的人脸图像进行分析,统计出角度正常的情况下d1/d2对应的间距取值范围。
(4)从多张拍摄图像中,取验证结果为验证成功的拍摄图像为第一图像。
相应的,步骤S340具体为:根据第一图像中关键点类型对应的目标关键点的第一置信度,对所有第一图像进行排序,得到第一排序结果。可见,加入基于关键点定位特征的图像筛查机制,能够进一步保障筛选图像的质量。
步骤S350:根据拍摄图像针对不同关键点类型的计分值进行求和计算,得到拍摄图像的质量分数。
作为一种可选的实施方式,步骤S320之后,还可以获得拍摄图像中检测框数据对应的第二置信度。根据拍摄图像中检测框数据对应的第二置信度,对所有拍摄图像进行排序,得到第二排序结果,并根据第二排序结果,计算每张拍摄图像的第一分数。而,根据第二置信度对所有拍摄图像进行排序,也可以参照对上述步骤S220的说明,在此不再赘述。
基于此,步骤S350具体为:根据拍摄图像针对不同关键点类型的计分值进行求和计算,得到拍摄图像的第二分数。根据拍摄图像的第一分数和第二分数进行求和计算,得到拍摄图像的质量分数。可选的,参照实施例一中对步骤S230的说明,根据第一排序结果和第二排序结果,可以分别计算第一分数和第二分数,之后,对第一分数和第二分数进行加权求和计算,得到拍摄图像的质量分数。比如,拍摄图像的质量分数=q1×第一分数+q2×第二分数,q1和q2均为实验测得。
步骤S360:根据每张拍摄图像的质量分数,确定目标分数范围,并取质量分数在目标分数范围内的拍摄图像作为目标图像。
步骤S370:从检测框数据中确定检测框大小以及定位坐标,根据定位坐标,在目标图像中定位目标位置,并在目标位置处生成与检测框大小匹配的特征检测框。
步骤S380:从目标图像中截取与特征检测框对应的图像区域,得到特征检测区域。
步骤S390:对特征检测区域进行识别,得到图像识别结果。
作为一种可选的实施方式,还可以获取为目标对象指定的检测框类别和关键点类别,两者具体可与识别任务相对应。相应的,步骤S320为:将特征数据输入预设模型中与检测框类别对应的检测框预测分支,得到拍摄图像的检测框数据。步骤S330为:将特征数据输入预设模型中与关键点类别对应的关键点预测分支中,得到拍摄图像的目标关键点,比如,将特征数据分别输入左眼关键点预测分支、右眼关键点预测分支、鼻尖关键点预测分支、唇左侧关键点预测分支和唇右侧关键点预测分支中进行关键点识别。相应的,步骤S390为:根据识别任务,对特征检测区域进行识别,得到图像识别结果。可见,只需调整识别任务,即可产生多种检测框及关键点类型的预测组合,灵活可变,进一步拓展了图像识别场景的多样性。
可以理解的是,本实施例中步骤S300至S390的具体实现方式还可以参照上述实施例一中对步骤S200至S250的描述,在此不再赘述。
可见,实施上述方法实施例,能够结合拍摄图像的关键点特征,基于同一目标对象的多张拍摄图像之间针对不同关键点类型的关联性,进行独立的关键点置信度的对比排序以及质量评分,最后将各个关键点类型的排序评分结果融合以得到拍摄图像的质量分数,实现了图像质量评分的客观性。基于此,根据实际计算的质量分数确定目标分数范围,从而推选出质量评分满足目标分数范围的拍摄图像以进行人脸识别,也能够对多张拍摄图像中低质量评分的图像进行清洗,有利于提升后续图像识别的准确性。
本申请实施例还提供一种图像识别装置。请参阅图5,图5是本申请实施例所应用的一种图像识别装置的结构框图。如图5所示,该图像识别装置500包括获取模块510、第一识别模块520、排序模块530、计算模块540、确定模块550和第二识别模块560,其中:
获取模块510,用于获取目标对象的多张拍摄图像。
第一识别模块520,用于对拍摄图像进行关键点识别,得到多种关键点类型以及拍摄图像中每种关键点类型对应的目标关键点,并确定拍摄图像中目标关键点的第一置信度。
排序模块530,用于针对每种关键点类型,根据拍摄图像中关键点类型对应的目标关键点的第一置信度,对所有拍摄图像进行排序,得到第一排序结果。
计算模块540,用于根据第一排序结果,计算拍摄图像针对关键点类型的计分值,以及,根据拍摄图像针对不同关键点类型的计分值进行求和计算,得到拍摄图像的质量分数。
确定模块550,用于根据每张拍摄图像的质量分数,确定目标分数范围,并取质量分数在目标分数范围内的拍摄图像作为目标图像。
第二识别模块560,用于对目标图像进行识别,得到图像识别结果。
需要说明的是,本实施例的具体实现过程可参见上述方法实施例的具体实现过程,亦不再赘述。
本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器,存储器上存储有程序,程序被处理器执行时实现上述图像识别方法。
本申请实施例还提供了一种存储介质,用于计算机可读存储,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述图像识别方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上参照附图说明了本申请的优选实施例,并非因此局限本申请的权利范围。本领域技术人员不脱离本申请的范围和实质内所作的任何修改、等同替换和改进,均应在本申请的权利范围之内。
Claims (10)
1.一种图像识别方法,其特征在于,所述方法包括:
获取目标对象的多张拍摄图像;
对所述拍摄图像进行关键点识别,得到多种关键点类型以及所述拍摄图像中每种所述关键点类型对应的目标关键点,并确定所述拍摄图像中所述目标关键点的第一置信度;
针对每种所述关键点类型,根据所述拍摄图像中所述关键点类型对应的目标关键点的第一置信度,对所有所述拍摄图像进行排序,得到第一排序结果,并根据所述第一排序结果,计算所述拍摄图像针对所述关键点类型的计分值;
根据所述拍摄图像针对不同关键点类型的计分值进行求和计算,得到所述拍摄图像的质量分数;
根据每张所述拍摄图像的质量分数,确定目标分数范围,并取质量分数在所述目标分数范围内的拍摄图像作为目标图像;
对所述目标图像进行识别,得到图像识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取目标对象的多张拍摄图像之后,所述方法还包括:
将所述拍摄图像输入预设模型的特征提取网络中,得到所述拍摄图像的特征数据;
将所述特征数据输入所述预设模型的检测框预测分支中,得到所述拍摄图像的检测框数据;
所述对所述拍摄图像进行关键点识别,得到多种关键点类型以及所述拍摄图像中每种所述关键点类型对应的目标关键点,并确定所述拍摄图像中所述目标关键点的第一置信度,包括:
将所述特征数据输入所述预设模型的关键点预测分支中,得到多种关键点类型、所述拍摄图像中每种所述关键点类型对应的目标关键点以及所述目标关键点的第一置信度;
所述对所述目标图像进行识别,得到图像识别结果,包括:
从所述检测框数据中获取检测框大小以及定位坐标;
根据所述定位坐标,在所述目标图像中定位目标位置,并在所述目标位置处生成与所述检测框大小匹配的特征检测框;
从所述目标图像中截取与所述特征检测框对应的图像区域,得到特征检测区域;
对所述特征检测区域进行识别,得到图像识别结果。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取为所述目标对象指定的检测框类别和关键点类别;
所述将所述特征数据输入所述预设模型的检测框预测分支中,得到所述拍摄图像的检测框数据,包括:
将所述特征数据输入预设模型中与所述检测框类别对应的检测框预测分支,得到所述拍摄图像的检测框数据;
所述将所述特征数据输入所述预设模型的关键点预测分支中,得到多种关键点类型、所述拍摄图像中每种所述关键点类型对应的目标关键点以及所述目标关键点的第一置信度,包括:
将所述特征数据输入所述预设模型中与所述关键点类别对应的关键点预测分支中,得到多种关键点类型、所述拍摄图像中每种所述关键点类型对应的目标关键点以及所述目标关键点的第一置信度。
4.根据权利要求2所述的方法,其特征在于,所述将所述特征数据输入所述预设模型的检测框预测分支中之后,所述方法还包括;
获得所述拍摄图像中所述检测框数据对应的第二置信度;
根据所述拍摄图像中所述检测框数据对应的第二置信度,对所有所述拍摄图像进行排序,得到第二排序结果;
根据所述第二排序结果,计算每张所述拍摄图像的第一分数;
所述根据所述拍摄图像针对不同关键点类型的计分值进行求和计算,得到所述拍摄图像的质量分数,包括:
根据所述拍摄图像针对不同关键点类型的计分值进行求和计算,得到所述拍摄图像的第二分数;
根据所述拍摄图像的第一分数和第二分数进行求和计算,得到所述拍摄图像的质量分数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一排序结果,计算所述拍摄图像针对所述关键点类型的计分值,包括:
从所述第一排序结果中获取所述拍摄图像对应的排序数;
取所述排序数的倒数作为所述拍摄图像针对所述关键点类型的计分值。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述对所述拍摄图像进行关键点识别,得到多种关键点类型以及所述拍摄图像中每种所述关键点类型对应的目标关键点之后,所述方法还包括:
从所述拍摄图像中多种所述关键点类型对应的目标关键点中,获取指定关键点,并识别所述指定关键点在所述拍摄图像中对应的实际定位特征;
利用预设验证规则对所述实际定位特征进行验证,得到所述拍摄图像的验证结果;
从所述多张拍摄图像中,取验证结果为验证成功的拍摄图像为第一图像;
所述根据所述拍摄图像中所述关键点类型对应的目标关键点的第一置信度,对所有所述拍摄图像进行排序,得到第一排序结果,包括:
根据所述第一图像中所述关键点类型对应的目标关键点的第一置信度,对所有所述第一图像进行排序,得到第一排序结果。
7.根据权利要求6所述的方法,其特征在于,所述拍摄图像为人脸图像,所述指定关键点包括左眼关键点、右眼关键点、唇左侧关键点和唇右侧关键点;所述识别所述指定关键点在所述拍摄图像中对应的实际定位特征,包括:
在所述拍摄图像中确定左眼关键点的第一定位坐标、右眼关键点的第二定位坐标、唇左侧关键点的第三定位坐标和唇右侧关键点的第四定位坐标;
根据所述第一定位坐标和所述第二定位坐标,确定眉心定位坐标以及双眼之间的第一间距信息;
根据所述眉心定位坐标、所述第三定位坐标和所述第四定位坐标,确定眉心与唇中心之间的第二间距信息;
根据所述第一间距信息和所述第二间距信息,计算间距特征值,并取所述间距特征值作为所述指定关键点在所述拍摄图像中对应的实际定位特征;
所述利用所述预设验证规则对所述实际定位特征进行验证,得到所述拍摄图像的验证结果,包括:
利用预设的间距取值范围对所述间距特征值进行验证,若所述间距特征值属于所述间距取值范围,则验证成功,若所述间距特征值不属于所述间距取值范围,则验证失败。
8.一种图像识别装置,其特征在于,所述装置包括:
获取模块,用于获取目标对象的多张拍摄图像;
第一识别模块,用于对所述拍摄图像进行关键点识别,得到多种关键点类型以及所述拍摄图像中所述关键点类型对应的目标关键点,并确定所述拍摄图像中所述目标关键点的第一置信度;
排序模块,用于针对每种所述关键点类型,根据所述拍摄图像中所述关键点类型对应的目标关键点的第一置信度,对所有所述拍摄图像进行排序,得到第一排序结果;
计算模块,用于根据所述第一排序结果,计算所述拍摄图像针对所述关键点类型的计分值,以及,根据所述拍摄图像针对不同关键点类型的计分值进行求和计算,得到所述拍摄图像的质量分数;
确定模块,用于根据每张所述拍摄图像的质量分数,确定目标分数范围,并取质量分数在所述目标分数范围内的拍摄图像作为目标图像;
第二识别模块,用于对所述目标图像进行识别,得到图像识别结果。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1至7任一项所述的图像识别方法的步骤。
10.一种存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至7中任一项所述的图像识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210143151.7A CN114495241A (zh) | 2022-02-16 | 2022-02-16 | 一种图像识别方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210143151.7A CN114495241A (zh) | 2022-02-16 | 2022-02-16 | 一种图像识别方法及装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114495241A true CN114495241A (zh) | 2022-05-13 |
Family
ID=81483288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210143151.7A Pending CN114495241A (zh) | 2022-02-16 | 2022-02-16 | 一种图像识别方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114495241A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116386123A (zh) * | 2023-06-07 | 2023-07-04 | 深圳市慧为智能科技股份有限公司 | 人脸质量分析方法、装置、计算机设备及存储介质 |
CN116596919A (zh) * | 2023-07-11 | 2023-08-15 | 浙江华诺康科技有限公司 | 内镜图像质控方法、装置、***、计算机设备和存储介质 |
CN116912950A (zh) * | 2023-09-12 | 2023-10-20 | 湖北星纪魅族科技有限公司 | 一种识别方法、头戴设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8254647B1 (en) * | 2012-04-16 | 2012-08-28 | Google Inc. | Facial image quality assessment |
CN110059637A (zh) * | 2019-04-22 | 2019-07-26 | 上海云从企业发展有限公司 | 一种人脸对齐的检测方法及装置 |
CN111210399A (zh) * | 2018-11-22 | 2020-05-29 | 杭州海康威视数字技术股份有限公司 | 一种成像质量评价方法、装置及设备 |
CN111639602A (zh) * | 2020-05-29 | 2020-09-08 | 华中科技大学 | 一种行人遮挡及朝向检测方法 |
CN112287802A (zh) * | 2020-10-26 | 2021-01-29 | 汇纳科技股份有限公司 | 人脸图像检测方法、***、存储介质及设备 |
CN112528850A (zh) * | 2020-12-11 | 2021-03-19 | 北京百度网讯科技有限公司 | 人体识别方法、装置、设备和存储介质 |
CN113326775A (zh) * | 2021-05-31 | 2021-08-31 | Oppo广东移动通信有限公司 | 图像处理方法及装置、终端及可读存储介质 |
WO2021204037A1 (zh) * | 2020-11-12 | 2021-10-14 | 平安科技(深圳)有限公司 | 人脸关键点的检测方法、装置、存储介质及电子设备 |
-
2022
- 2022-02-16 CN CN202210143151.7A patent/CN114495241A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8254647B1 (en) * | 2012-04-16 | 2012-08-28 | Google Inc. | Facial image quality assessment |
CN111210399A (zh) * | 2018-11-22 | 2020-05-29 | 杭州海康威视数字技术股份有限公司 | 一种成像质量评价方法、装置及设备 |
CN110059637A (zh) * | 2019-04-22 | 2019-07-26 | 上海云从企业发展有限公司 | 一种人脸对齐的检测方法及装置 |
CN111639602A (zh) * | 2020-05-29 | 2020-09-08 | 华中科技大学 | 一种行人遮挡及朝向检测方法 |
CN112287802A (zh) * | 2020-10-26 | 2021-01-29 | 汇纳科技股份有限公司 | 人脸图像检测方法、***、存储介质及设备 |
WO2021204037A1 (zh) * | 2020-11-12 | 2021-10-14 | 平安科技(深圳)有限公司 | 人脸关键点的检测方法、装置、存储介质及电子设备 |
CN112528850A (zh) * | 2020-12-11 | 2021-03-19 | 北京百度网讯科技有限公司 | 人体识别方法、装置、设备和存储介质 |
CN113326775A (zh) * | 2021-05-31 | 2021-08-31 | Oppo广东移动通信有限公司 | 图像处理方法及装置、终端及可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116386123A (zh) * | 2023-06-07 | 2023-07-04 | 深圳市慧为智能科技股份有限公司 | 人脸质量分析方法、装置、计算机设备及存储介质 |
CN116596919A (zh) * | 2023-07-11 | 2023-08-15 | 浙江华诺康科技有限公司 | 内镜图像质控方法、装置、***、计算机设备和存储介质 |
CN116596919B (zh) * | 2023-07-11 | 2023-11-07 | 浙江华诺康科技有限公司 | 内镜图像质控方法、装置、***、计算机设备和存储介质 |
CN116912950A (zh) * | 2023-09-12 | 2023-10-20 | 湖北星纪魅族科技有限公司 | 一种识别方法、头戴设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11455807B2 (en) | Training neural networks for vehicle re-identification | |
CN111291841B (zh) | 图像识别模型训练方法、装置、计算机设备和存储介质 | |
CN111666857B (zh) | 基于环境语义理解的人体行为识别方法、装置及存储介质 | |
US11842487B2 (en) | Detection model training method and apparatus, computer device and storage medium | |
EP3779774B1 (en) | Training method for image semantic segmentation model and server | |
EP3674852B1 (en) | Method and apparatus with gaze estimation | |
CN108520229A (zh) | 图像检测方法、装置、电子设备和计算机可读介质 | |
CN114495241A (zh) | 一种图像识别方法及装置、电子设备、存储介质 | |
CN109657533A (zh) | 行人重识别方法及相关产品 | |
CN107679475B (zh) | 门店监控评价方法、装置及存储介质 | |
CN110889446A (zh) | 人脸图像识别模型训练及人脸图像识别方法和装置 | |
CN115661943B (zh) | 一种基于轻量级姿态评估网络的跌倒检测方法 | |
CN112149602B (zh) | 动作计数方法、装置、电子设备及存储介质 | |
EP2892007A2 (en) | Static posture based person identification | |
CN110738650B (zh) | 一种传染病感染识别方法、终端设备及存储介质 | |
CN112052746A (zh) | 目标检测方法、装置、电子设备和可读存储介质 | |
CN113179421B (zh) | 视频封面选择方法、装置、计算机设备和存储介质 | |
CN113780145A (zh) | ***形态检测方法、装置、计算机设备和存储介质 | |
CN114902299A (zh) | 图像中关联对象的检测方法、装置、设备和存储介质 | |
CN114519401A (zh) | 一种图像分类方法及装置、电子设备、存储介质 | |
JP2016045884A (ja) | パターン認識装置およびパターン認識方法 | |
CN114299546A (zh) | 识别宠物身份的方法、装置、存储介质及电子设备 | |
KR101961462B1 (ko) | 객체 인식 방법 및 장치 | |
CN116310976A (zh) | 学习习惯养成方法、装置、电子设备及存储介质 | |
Das | Activity recognition using histogram of oriented gradient pattern history |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |