CN111310705A - 图像识别方法、装置、计算机设备及存储介质 - Google Patents

图像识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111310705A
CN111310705A CN202010127177.3A CN202010127177A CN111310705A CN 111310705 A CN111310705 A CN 111310705A CN 202010127177 A CN202010127177 A CN 202010127177A CN 111310705 A CN111310705 A CN 111310705A
Authority
CN
China
Prior art keywords
image
predicted
face
module
positioning data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010127177.3A
Other languages
English (en)
Inventor
胡艺飞
徐国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010127177.3A priority Critical patent/CN111310705A/zh
Publication of CN111310705A publication Critical patent/CN111310705A/zh
Priority to PCT/CN2021/071172 priority patent/WO2021169637A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Ophthalmology & Optometry (AREA)
  • Geometry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像识别方法、装置、计算机设备及存储介质,属于人脸识别领域。本发明通过对获取的待检测图像进行人脸检测,得到人脸图像及人脸图像的定位数据,根据定位数据对人脸图像进行校正以获取用于图像识别的待预测图像,减低了计算量,采用人眼视线预测神经网络模型对待预测图像进行识别,从而确定人眼视线方向,识别速度快,耗时短,采用的人眼视线预测神经网络模型占用内存空间低,运算速度快。

Description

图像识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及人脸识别领域,尤其涉及一种图像识别方法、装置、计算机设备及存储介质。
背景技术
情感分析伴随着网络社会媒体(如评论、论坛、博客和微博)的兴起而快速发展,通过对人的情感分析可以分析出其表达的观点、情感、评价、态度、情绪及倾向等。由于人在发生心理变化时,会引起一些生理参数(如:皮肤电、心跳、血压、呼吸脑电波、声音及视线等)的变化,因此,可通过检测这些变化来评估被分析者的情感变化。考虑到情感分析通常在非接触、便于采集及处理的场景下进行,因此随着人脸识别技术的不断发展采用图像识别技术对被评估者的情绪变化进行分析的技术越来越被大众所青睐。
现有的图像识别***主要分为两类,一类是利用红外摄像头采集图像进行图像识别,例如:外星人电脑(alienware)的眼动追踪***(Tobi Eye Tracking);另一类是利用单目摄像头采集图像进行图像识别。关于采用红外摄像头采集图像进行图像识别的类技术其存在的缺陷主要有:设备配备成本昂贵,同时需要对每个使用人进行事先定标,这样没法用在银行网点等对非特定用户进行眼神分析的场景。对于利用单目摄像头采集图像进行图像识别方法为:检测人脸,估计人体头部转动角度,对人脸进行68个关键点识别从而得到眼睛部位图片,进行眼神方向识别。但是上述方法存在的缺陷是:图像识别模型构建过程复杂,在使用模型时,计算资源及耗时过高。对一张图片的眼神识别需要利用4个模型,模型所占存储空间大,手机端部署难度大;采用人脸关键点识别模型进行的很多计算都是与眼神判断无关的,且现有的方法计算过程耗时长,无法做到实时分析。
综上所述,现有的图像识别方法成本高、效率低、占用存储空间大,应用场景受限。
发明内容
针对现有图像识别方法效率低、占用存储空间大的问题,现提供一种旨在可提高识别效率,占用存储空间小的图像识别方法、装置、计算机设备及存储介质。
本发明提供了一种图像识别方法,包括:
获取待检测图像;
对所述待检测图像进行人脸检测,获取人脸图像及所述人脸图像的定位数据;
基于所述定位数据对所述人脸图像进行校正,获取待预测图像;
采用人眼视线预测神经网络模型对所述待预测图像进行识别,确定人眼视线方向。
优选的,所述对所述待检测图像进行人脸检测,获取人脸图像及所述人脸图像的定位数据包括:
采用多任务卷积神经网络对所述待检测图像进行人脸检测,获取人脸图像及所述人脸图像的定位数据。
优选的,所述定位数据包括:两个眼部椭圆形中心点坐标、鼻头坐标和嘴角两端的坐标。
优选的,所述基于所述定位数据对所述人脸图像进行校正,获取待预测图像包括:
将所述定位数据与所述标准坐标数据进行比对,根据比对结果对所述人脸图像进行相似变换,生成待预测图像。
优选的,所述人眼视线预测神经网络模型包括:可分离卷积模块、注意力机制模块和分类模块;
所述采用人眼视线预测神经网络模型对所述待预测图像进行识别,确定人眼视线方向包括:
通过所述可分离卷积模块对所述待预测图像进行第一面部特征提取;
通过所述注意力机制模块对所述第一面部特征的权重进行调整,获取增强眼部特征权重的特征权重;
将所述第一面部特征和所述特征权重结合生成第二面部特征,通过所述分类模块对所述第二面部特征进行处理,获取人眼视线方向。
优选的,所述可分离卷积模块与正向残差模块结合对待预测图像进行所述第一面部特征提取;采用所述正向残差模块将所述可分离卷积模块获得的特征和初始特征在相同位置进行相加,以获取所述第一面部特征提取。
优选的,所述可分离卷积模块与反向残差模块结合对待预测图像进行所述第一面部特征提取;将所述反向残差模块与所述可分离卷积模块结合,在每两个逐点卷积通道之间加入1×1的跨通道卷积进行通道间信息融合,以获取第一面部特征提取。
本发明还提供了一种图像识别装置,包括:
接收单元,用于获取待检测图像;
检测单元,用于对所述待检测图像进行人脸检测,获取人脸图像及所述人脸图像的定位数据;
校正单元,用于基于所述定位数据对所述人脸图像进行校正,获取待预测图像;
识别单元,用于采用人眼视线预测神经网络模型对所述待预测图像进行识别,确定人眼视线方向。
本发明还提供了一种计算机设备,所述计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的图像识别方法、装置、计算机设备及存储介质,通过对获取的待检测图像进行人脸检测,得到人脸图像及人脸图像的定位数据,根据定位数据对人脸图像进行校正以获取用于图像识别的待预测图像,减低了计算量,采用人眼视线预测神经网络模型对待预测图像进行识别,从而确定人眼视线方向,识别速度快,耗时短,采用的人眼视线预测神经网络模型占用内存空间低,运算速度快。
附图说明
图1为本发明所述的图像识别方法的一种是实施例的流程图;
图2为本发明采用人眼视线预测神经网络模型对所述待预测图像进行识别的一种是实施例的流程图;
图3为本发明所述的图像识别装置的一种实施例的模块图;
图4为本发明计算机设备的一个实施例的硬件架构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提供的图像识别方法、装置、计算机设备及存储介质可应用于银行、保险等业务领域。本发明通过对获取的待检测图像进行人脸检测,得到人脸图像及人脸图像的定位数据,根据定位数据对人脸图像进行校正以获取用于图像识别的待预测图像,减低了计算量,采用人眼视线预测神经网络模型对待预测图像进行识别,从而确定人眼视线方向,识别速度快,耗时短,采用的人眼视线预测神经网络模型占用内存空间低,运算速度快。
实施例一
请参阅图1,本实施例的一种图像识别方法,包括下述步骤:
S1.获取待检测图像;
在本实施例中,多于采集图像的设备没有严格的要求,可采用单目摄像头采集待检测图像,对采集设备的要求低,可有效的降低设备成本。
S2.对所述待检测图像进行人脸检测,获取人脸图像及所述人脸图像的定位数据;
其中,所述定位数据可包括:两个眼部椭圆形中心点坐标、鼻头坐标和嘴角两端的坐标。
在本实施例中的定位数据包括5个关键点坐标,分别为两个眼部椭圆形中心点坐标、鼻头坐标和嘴角两端的坐标,相比于现有技术需通过获取68个关键点进行视线预测而言,大大降低了计算量,提高了计算处理速度。图像识别方法可广泛应用于多种应用场景中,例如:银行网点、移动终端(如:手机端)、广告牌等场景中。需要说明的是,本实施例的人脸检测网络可一次检测多张人脸,并同时得到每一个人脸图像及相应的定位数据。
进一步地,步骤S2对所述待检测图像进行人脸检测,获取人脸图像及所述人脸图像的定位数据包括:
采用多任务卷积神经网络(Multi-task Cascaded Convolutional Networks,简称MTCNN)对所述待检测图像进行人脸检测,获取人脸图像及所述人脸图像的定位数据。
多任务卷积神经网络是利用三层级联架构结合卷积神经网络算法对人脸进行检测和关键点(两个眼部椭圆形中心点坐标、鼻头坐标和嘴角两端的坐标)的定位。多任务卷积神经网络包括三个部分:神经网络P-Net(Proposal Network)、R-Net(Refine Network)和O-Net(Output Network),采用全卷积神经网络P-Net对待检测图像进行识别获得第一候选窗体(在待检测图像中标识人脸位置的窗体)和边界回归向量,依据边界回归向量计算每一个第一候选窗体的偏移量,从而确定边界窗口,依据边界窗口对第一候选窗体进行校准,利用非极大值抑制(Non-Maximum Suppression,简称NMS)去除重叠窗体,获取第二候选窗体;由于神经网络P-Net的检测比较粗略,因此采用神经网络R-Net对获取第二候选窗体进一步优化,神经网络R-Net和神经网络P-Net类似,将第二候选窗体输入神经网络R-Net进行识别,过滤虚假窗体以实现对人脸区域的进一步定位,生成第三候选窗体;采用比R-Net多一层卷积的神经网络O-Net对第三候选窗体进行监督,去除重叠窗口,从而确认脸部区域,同时可基于确认的脸部区域定位五个面部关键点的位置坐标。
S3.基于所述定位数据对所述人脸图像进行校正,获取待预测图像;
在本实施例中,为了方便后续(步骤S4)对待预测图像进行视线识别,因此需要将人脸图像转换为便于识别的头部摆正(如:眼睛正视前方)的待预测图像,以提高视线识别的准确度。
进一步地,步骤S3基于所述定位数据对所述人脸图像进行校正,获取待预测图像包括:
将所述定位数据与所述标准坐标数据进行比对,根据比对结果对所述人脸图像进行相似变换,生成待预测图像。
需要说明的是,标准坐标数据为预先存储的5个关键点标准坐标。5个关键点标准坐标包括:两个眼部椭圆形中心点标注坐标、鼻头标注坐标和嘴角两端的标注坐标。
在实施例中,将定位数据与标准坐标数据进行比对获取关系变化量,基于关系变化量对人脸图像进行旋转、平移、缩放等相似变换,将人脸图像转换为待预测图像,以使待预测图像达到视线识别的要求。相比现有的校正方法需要采用深度神经网络模型计算头部转动角度,在本实施例中采用的校正方法有效的减少了计算量,而且无需用训练头部转动角度估计的模型,大大的降低了计算成本。
S4.采用人眼视线预测神经网络模型对所述待预测图像进行识别,确定人眼视线方向。
需要说明的是,所述人眼视线预测神经网络模型包括:可分离卷积模块、注意力机制模块和分类模块;
如图2所示,进一步地,步骤S4所述采用人眼视线预测神经网络模型对所述待预测图像进行识别,确定人眼视线方向可包括:
S41.通过所述可分离卷积模块对所述待预测图像进行第一面部特征提取;
在本步骤中,采用可分离卷积和代替标准卷积神经网络的卷积核大大减小了计算量,降低计算的复杂度。以输入的待预测图像为d×c×m,输出的第一面部特征是d×c×n,卷积层为k×k为例:
标准的卷积核计算量为d×d×m×n×k×k;
可分离卷积核的计算量为d×d×m×(n+k×k);
其中,d表示待预测图像的宽,c表示待预测图像的高,m和n均为通道数,k表示卷积层的尺寸;
由此可见,可分离卷积减少模型的参数量和卷积过程的计算量。
在步骤S41中,可将可分离卷积模块与正向残差模块结合对待预测图像进行第一面部特征提取。
利用正向残差模块将可分离卷积模块获得的特征和初始特征在相同位置进行相加。使网络学习到高阶特征的同时,不会遗忘有用的低阶特征。
在步骤S41中,可将可分离卷积模块与反向残差模块结合对待预测图像进行第一面部特征提取。
通过可分离卷积模块的深度卷积(depthwise convolution)对待预测图像的每个输入通道利用单个卷积核进行卷积获取第一特征图;再采用逐点卷积(pointwiseconvolution)通过1×1卷积将上一步的第一特征图在深度方向进行加权组合,获得更多特征。将反向残差模块与可分离卷积模块结合,在每两个逐点卷积通道之间加入1×1的跨通道卷积进行通道间信息融合,以保证提取更有效的第二特征图,将所有的第二特征图进行拼接获取第一面部特征。在本实施例中通过反残差模块在使神经网络学习到高阶特征的同时,不会遗忘有用的低阶特征,同时相比正向的残差模块参数量更少、计算速度更快,极大的减少内存占用空间。
S42.通过所述注意力机制模块对所述第一面部特征的权重进行调整,获取增强眼部特征权重的特征权重;
在本步骤中,注意力机制模块采用自注意力机制。其中,自注意力机制是一种在计算同一序列表示时,权重和序列的位置相关机制,被证明在机器阅读理解,抽象概要和图片描述生成中非常有效。
在本实施例中,可包括多个注意力机制模块,注意力机制模块与可分离卷积模块的卷积层对应,注意力机制模块位于相应的卷积层后面,通过注意力机制模块提取眼部周围的卷积特征,每一注意力机制模块的输出作为下一个注意力机制模块的输入,最后一个注意力机制模块提纯后的卷积特征作为特征权重(即:增强眼部特征权重的特征权重)。通过注意力机制调节权重的方式在第一面部特征的基础上增强对眼部周围特征的提取,进而根据眼球特征及眼部肌肉的特征生成眼部特征,获取可增强眼部特征的特征权重。
S43.将所述第一面部特征和所述特征权重结合生成第二面部特征,通过所述分类模块对所述第二面部特征进行处理,获取人眼视线方向。
在本步骤中,分类模块采用全连接层。将第一面部特征和特征权重相乘生成第二面部特征,将第二面部特征输入全连接层,全连接层通过权值矩阵将第二面部特征进行整合,基于整合后的神经元计算偏移概率信息,每一偏移概率信息对应的视线上下偏移量和左右的偏移量,根据上下偏移量和左右的偏移量获取人眼视线方向。
在步骤S4中,人眼视线预测神经网络模型的输入待预测图像是整张人脸,相对于现有技术主要有两个优势:一是对于预测的准确性上,人眼周围的肌肉变化能辅助进行眼神方向判断,而现有方法只是输入眼睛图片,无法利用周围的信息;二是现有方法为了得到眼睛图片,需要构建68个人脸关键点的检测模型,得到眼框的坐标,计算量大,且成本高,采用本技术方案计算量小,占用的存储空间低且成本低。
在本实施例中,图像识别方法通过对获取的待检测图像进行人脸检测,得到人脸图像及人脸图像的定位数据,根据定位数据对人脸图像进行校正以获取用于图像识别的待预测图像,减低了计算量,采用人眼视线预测神经网络模型对待预测图像进行识别,从而确定人眼视线方向,识别速度快,耗时短,采用的人眼视线预测神经网络模型占用内存空间低,运算速度快。
在实际应用中,图像识别方法相较于采用红外摄像头的人眼识别***,只需要一个单目摄像头即可完成图像采集,减低了设备成本;同时,不需要对人为参与进行定标,可以广泛的利用在各种场景,如银行网点,个人手机等。图像识别方法相较于其他使用单目摄像头的人眼识别***而言,只需要两个模型,而且人眼视线预测神经网络模型比现有的人眼识别模型参数量更少,极大加快了一次眼神识别的计算,在英伟达1080型号GPU上能做到实时分析;眼神预测神经网络模型的模型占用内存空间在8MB以内,而现有的人眼识别模型的空间内存通常在100MB以上。
本实施例中的图像识别方法可应用于情绪分析,如:紧张或撒谎时眼神飘忽,可用于反欺诈判断的一个特征;还可用于对广告牌等客户感兴趣区域分析;还可应用在小游戏中,进行人眼识别或游戏互动等。
实施例二
如图3所示,本发明还提供了一种图像识别装置1,包括:接收单元11、检测单元12、校正单元13和识别单元14,其中:
接收单元11,用于获取待检测图像;
在本实施例中,多于采集图像的设备没有严格的要求,可采用单目摄像头采集待检测图像,对采集设备的要求低,可有效的降低设备成本。
检测单元12,用于对所述待检测图像进行人脸检测,获取人脸图像及所述人脸图像的定位数据;
其中,所述定位数据可包括:两个眼部椭圆形中心点坐标、鼻头坐标和嘴角两端的坐标。
在本实施例中的定位数据包括5个关键点坐标,分别为两个眼部椭圆形中心点坐标、鼻头坐标和嘴角两端的坐标,相比于现有技术需通过获取68个关键点进行视线预测而言,大大降低了计算量,提高了计算处理速度。图像识别方法可广泛应用于多种应用场景中,例如:银行网点、移动终端(如:手机端)、广告牌等场景中。需要说明的是,本实施例的人脸检测网络可一次检测多张人脸,并同时得到每一个人脸图像及相应的定位数据。
具体地,检测单元12可采用多任务卷积神经网络(Multi-task CascadedConvolutional Networks,简称MTCNN)对所述待检测图像进行人脸检测,获取人脸图像及所述人脸图像的定位数据。
多任务卷积神经网络是利用三层级联架构结合卷积神经网络算法对人脸进行检测和关键点(两个眼部椭圆形中心点坐标、鼻头坐标和嘴角两端的坐标)的定位。多任务卷积神经网络包括三个部分:神经网络P-Net(Proposal Network)、R-Net(Refine Network)和O-Net(Output Network),采用全卷积神经网络P-Net对待检测图像进行识别获得第一候选窗体(在待检测图像中标识人脸位置的窗体)和边界回归向量,依据边界回归向量计算每一个第一候选窗体的偏移量,从而确定边界窗口,依据边界窗口对第一候选窗体进行校准,利用非极大值抑制(Non-Maximum Suppression,简称NMS)去除重叠窗体,获取第二候选窗体;由于神经网络P-Net的检测比较粗略,因此采用神经网络R-Net对获取第二候选窗体进一步优化,神经网络R-Net和神经网络P-Net类似,将第二候选窗体输入神经网络R-Net进行识别,过滤虚假窗体以实现对人脸区域的进一步定位,生成第三候选窗体;采用比R-Net多一层卷积的神经网络O-Net对第三候选窗体进行监督,去除重叠窗口,从而确认脸部区域,同时可基于确认的脸部区域定位五个面部关键点的位置坐标。
校正单元13,用于基于所述定位数据对所述人脸图像进行校正,获取待预测图像;
在本实施例中,为了方便后续对待预测图像进行视线识别,因此需要将人脸图像转换为便于识别的头部摆正(如:眼睛正视前方)的待预测图像,以提高视线识别的准确度。
校正单元13将所述定位数据与所述标准坐标数据进行比对,根据比对结果对所述人脸图像进行相似变换,生成待预测图像。
需要说明的是,标准坐标数据为预先存储的5个关键点标准坐标。5个关键点标准坐标包括:两个眼部椭圆形中心点标注坐标、鼻头标注坐标和嘴角两端的标注坐标。
在实施例中,将定位数据与标准坐标数据进行比对获取关系变化量,基于关系变化量对人脸图像进行旋转、平移、缩放等相似变换,将人脸图像转换为待预测图像,以使待预测图像达到视线识别的要求。相比现有的校正方法需要采用深度神经网络模型计算头部转动角度,在本实施例中采用的校正方法有效的减少了计算量,而且无需用训练头部转动角度估计的模型,大大的降低了计算成本。
识别单元14,用于采用人眼视线预测神经网络模型对所述待预测图像进行识别,确定人眼视线方向。
需要说明的是,所述人眼视线预测神经网络模型包括:可分离卷积模块、注意力机制模块和分类模块;
识别单元14通过所述可分离卷积模块对所述待预测图像进行第一面部特征提取;可将可分离卷积模块与正向残差模块结合对待预测图像进行第一面部特征提取。利用正向残差模块将可分离卷积模块获得的特征和初始特征在相同位置进行相加。使网络学习到高阶特征的同时,不会遗忘有用的低阶特征。
可将可分离卷积模块与反向残差模块结合对待预测图像进行第一面部特征提取。通过可分离卷积模块的深度卷积(depthwise convolution)对待预测图像的每个输入通道利用单个卷积核进行卷积获取第一特征图;再采用逐点卷积(pointwise convolution)通过1×1卷积将上一步的第一特征图在深度方向进行加权组合,获得更多特征。将反向残差模块与可分离卷积模块结合,在每两个逐点卷积通道之间加入1×1的跨通道卷积进行通道间信息融合,以保证提取更有效的第二特征图,将所有的第二特征图进行拼接获取第一面部特征。在本实施例中通过反残差模块在使神经网络学习到高阶特征的同时,不会遗忘有用的低阶特征,同时相比正向的残差模块参数量更少、计算速度更快,极大的减少内存占用空间。
识别单元14通过所述注意力机制模块对所述第一面部特征的权重进行调整,获取增强眼部特征权重的特征权重;注意力机制模块采用自注意力机制。其中,自注意力机制是一种在计算同一序列表示时,权重和序列的位置相关机制,被证明在机器阅读理解,抽象概要和图片描述生成中非常有效。
在本实施例中,可包括多个注意力机制模块,注意力机制模块与可分离卷积模块的卷积层对应,注意力机制模块位于相应的卷积层后面,通过注意力机制模块提取眼部周围的卷积特征,每一注意力机制模块的输出作为下一个注意力机制模块的输入,最后一个注意力机制模块提纯后的卷积特征作为特征权重(即:增强眼部特征权重的特征权重)。通过注意力机制调节权重的方式在第一面部特征的基础上增强对眼部周围特征的提取,进而根据眼球特征及眼部肌肉的特征生成眼部特征,获取可增强眼部特征的特征权重。
识别单元14将所述第一面部特征和所述特征权重结合生成第二面部特征,通过所述分类模块对所述第二面部特征进行处理,获取人眼视线方向。
分类模块采用全连接层。将第一面部特征和特征权重相乘生成第二面部特征,将第二面部特征输入全连接层,全连接层通过权值矩阵将第二面部特征进行整合,基于整合后的神经元计算偏移概率信息,每一偏移概率信息对应的视线上下偏移量和左右的偏移量,根据上下偏移量和左右的偏移量获取人眼视线方向。
人眼视线预测神经网络模型的输入待预测图像是整张人脸,相对于现有技术主要有两个优势:一是对于预测的准确性上,人眼周围的肌肉变化能辅助进行眼神方向判断,而现有方法只是输入眼睛图片,无法利用周围的信息;二是现有方法为了得到眼睛图片,需要构建68个人脸关键点的检测模型,得到眼框的坐标,计算量大,且成本高,采用本技术方案计算量小,占用的存储空间低且成本低。
在本实施例中,图像识别装置1通过对获取的待检测图像进行人脸检测,得到人脸图像及人脸图像的定位数据,根据定位数据对人脸图像进行校正以获取用于图像识别的待预测图像,减低了计算量,采用人眼视线预测神经网络模型对待预测图像进行识别,从而确定人眼视线方向,识别速度快,耗时短,采用的人眼视线预测神经网络模型占用内存空间低,运算速度快。
在实际应用中,图像识别方法相较于采用红外摄像头的人眼识别***,只需要一个单目摄像头即可完成图像采集,减低了设备成本;同时,不需要对人为参与进行定标,可以广泛的利用在各种场景,如银行网点,个人手机等。图像识别方法相较于其他使用单目摄像头的人眼识别***而言,只需要两个模型,而且人眼视线预测神经网络模型比现有的人眼识别模型参数量更少,极大加快了一次眼神识别的计算,在英伟达1080型号GPU上能做到实时分析;眼神预测神经网络模型的模型占用内存空间在8MB以内,而现有的人眼识别模型的空间内存通常在100MB以上。
本实施例中的图像识别装置1可应用于情绪分析,如:紧张或撒谎时眼神飘忽,可用于反欺诈判断的一个特征;还可用于对广告牌等客户感兴趣区域分析;还可应用在小游戏中,进行人眼识别或游戏互动等。
实施例三
为实现上述目的,本发明还提供一种计算机设备2,该计算机设备2包括多个计算机设备2,实施例二的图像识别装置1的组成部分可分散于不同的计算机设备2中,计算机设备2可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备2至少包括但不限于:可通过***总线相互通信连接的存储器21、处理器23、网络接口22以及图像识别装置1(参考图4)。需要指出的是,图4仅示出了具有组件-的计算机设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作***和各类应用软件,例如实施例一的图像识别方法的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器23在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器23通常用于控制计算机设备2的总体操作例如执行与所述计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器23用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的图像识别装置1等。
所述网络接口22可包括无线网络接口或有线网络接口,该网络接口22通常用于在所述计算机设备2与其他计算机设备2之间建立通信连接。例如,所述网络接口22用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图4仅示出了具有部件21-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述图像识别装置1还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器23)所执行,以完成本发明。
实施例四
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器23执行时实现相应功能。本实施例的计算机可读存储介质用于存储图像识别装置1,被处理器23执行时实现实施例一的图像识别方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种图像识别方法,其特征在于,包括:
获取待检测图像;
对所述待检测图像进行人脸检测,获取人脸图像及所述人脸图像的定位数据;
基于所述定位数据对所述人脸图像进行校正,获取待预测图像;
采用人眼视线预测神经网络模型对所述待预测图像进行识别,确定人眼视线方向。
2.根据权利要求1所述的图像识别方法,其特征在于,所述对所述待检测图像进行人脸检测,获取人脸图像及所述人脸图像的定位数据包括:
采用多任务卷积神经网络对所述待检测图像进行人脸检测,获取人脸图像及所述人脸图像的定位数据。
3.根据权利要求1或2所述的图像识别方法,其特征在于,所述定位数据包括:两个眼部椭圆形中心点坐标、鼻头坐标和嘴角两端的坐标。
4.根据权利要求1所述的图像识别方法,其特征在于,所述基于所述定位数据对所述人脸图像进行校正,获取待预测图像包括:
将所述定位数据与所述标准坐标数据进行比对,根据比对结果对所述人脸图像进行相似变换,生成待预测图像。
5.根据权利要求1所述的图像识别方法,其特征在于,所述人眼视线预测神经网络模型包括:可分离卷积模块、注意力机制模块和分类模块;
所述采用人眼视线预测神经网络模型对所述待预测图像进行识别,确定人眼视线方向包括:
通过所述可分离卷积模块对所述待预测图像进行第一面部特征提取;
通过所述注意力机制模块对所述第一面部特征的权重进行调整,获取增强眼部特征权重的特征权重;
将所述第一面部特征和所述特征权重结合生成第二面部特征,通过所述分类模块对所述第二面部特征进行处理,获取人眼视线方向。
6.根据权利要求5所述的图像识别方法,其特征在于,所述可分离卷积模块与正向残差模块结合对待预测图像进行所述第一面部特征提取;采用所述正向残差模块将所述可分离卷积模块获得的特征和初始特征在相同位置进行相加,以获取所述第一面部特征提取。
7.根据权利要求5所述的图像识别方法,其特征在于,所述可分离卷积模块与反向残差模块结合对待预测图像进行所述第一面部特征提取;将所述反向残差模块与所述可分离卷积模块结合,在每两个逐点卷积通道之间加入1×1的跨通道卷积进行通道间信息融合,以获取第一面部特征提取。
8.一种图像识别装置,其特征在于,包括:
接收单元,用于获取待检测图像;
检测单元,用于对所述待检测图像进行人脸检测,获取人脸图像及所述人脸图像的定位数据;
校正单元,用于基于所述定位数据对所述人脸图像进行校正,获取待预测图像;
识别单元,用于采用人眼视线预测神经网络模型对所述待预测图像进行识别,确定人眼视线方向。
9.一种计算机设备,所述计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202010127177.3A 2020-02-28 2020-02-28 图像识别方法、装置、计算机设备及存储介质 Pending CN111310705A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010127177.3A CN111310705A (zh) 2020-02-28 2020-02-28 图像识别方法、装置、计算机设备及存储介质
PCT/CN2021/071172 WO2021169637A1 (zh) 2020-02-28 2021-01-12 图像识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010127177.3A CN111310705A (zh) 2020-02-28 2020-02-28 图像识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111310705A true CN111310705A (zh) 2020-06-19

Family

ID=71149407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010127177.3A Pending CN111310705A (zh) 2020-02-28 2020-02-28 图像识别方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN111310705A (zh)
WO (1) WO2021169637A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111710109A (zh) * 2020-07-01 2020-09-25 中国银行股份有限公司 取款控制方法、装置和***
CN112464793A (zh) * 2020-11-25 2021-03-09 大连东软教育科技集团有限公司 一种在线***行为检测方法、***和存储介质
CN112749655A (zh) * 2021-01-05 2021-05-04 风变科技(深圳)有限公司 视线追踪方法、装置、计算机设备和存储介质
CN112801069A (zh) * 2021-04-14 2021-05-14 四川翼飞视科技有限公司 一种人脸关键特征点检测装置、方法和存储介质
CN113111745A (zh) * 2021-03-30 2021-07-13 四川大学 基于openpose的产品关注度的眼动识别的方法
WO2021169637A1 (zh) * 2020-02-28 2021-09-02 深圳壹账通智能科技有限公司 图像识别方法、装置、计算机设备及存储介质
WO2021217919A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 人脸动作单元识别方法、装置、电子设备及存储介质
CN114706484A (zh) * 2022-04-18 2022-07-05 Oppo广东移动通信有限公司 视线坐标确定方法及装置、计算机可读介质和电子设备
CN114898447A (zh) * 2022-07-13 2022-08-12 北京科技大学 一种基于自注意力机制的个性化注视点检测方法及装置
CN117132869A (zh) * 2023-08-28 2023-11-28 广州视景医疗软件有限公司 视线偏差估算模型的训练、视线偏差值的校正方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114115535A (zh) * 2021-11-12 2022-03-01 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于银河锐华移动操作***的眼动追踪、识别方法及***
CN116912924B (zh) * 2023-09-12 2024-01-05 深圳须弥云图空间科技有限公司 一种目标图像识别方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978548A (zh) * 2014-04-02 2015-10-14 汉王科技股份有限公司 一种基于三维主动形状模型的视线估计方法与装置
CN107748858A (zh) * 2017-06-15 2018-03-02 华南理工大学 一种基于级联卷积神经网络的多姿态眼睛定位方法
CN109492514A (zh) * 2018-08-28 2019-03-19 初速度(苏州)科技有限公司 一种单相机采集人眼视线方向的方法及***
US20190110003A1 (en) * 2017-10-11 2019-04-11 Wistron Corporation Image processing method and system for eye-gaze correction
CN109740491A (zh) * 2018-12-27 2019-05-10 北京旷视科技有限公司 一种人眼视线识别方法、装置、***及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930278A (zh) * 2012-10-16 2013-02-13 天津大学 一种人眼视线估计方法及其装置
WO2021016873A1 (zh) * 2019-07-30 2021-02-04 珠海全志科技股份有限公司 基于级联神经网络的注意力检测方法、计算机装置及计算机可读存储介质
CN111310705A (zh) * 2020-02-28 2020-06-19 深圳壹账通智能科技有限公司 图像识别方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978548A (zh) * 2014-04-02 2015-10-14 汉王科技股份有限公司 一种基于三维主动形状模型的视线估计方法与装置
CN107748858A (zh) * 2017-06-15 2018-03-02 华南理工大学 一种基于级联卷积神经网络的多姿态眼睛定位方法
US20190110003A1 (en) * 2017-10-11 2019-04-11 Wistron Corporation Image processing method and system for eye-gaze correction
CN109492514A (zh) * 2018-08-28 2019-03-19 初速度(苏州)科技有限公司 一种单相机采集人眼视线方向的方法及***
CN109740491A (zh) * 2018-12-27 2019-05-10 北京旷视科技有限公司 一种人眼视线识别方法、装置、***及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021169637A1 (zh) * 2020-02-28 2021-09-02 深圳壹账通智能科技有限公司 图像识别方法、装置、计算机设备及存储介质
WO2021217919A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 人脸动作单元识别方法、装置、电子设备及存储介质
CN111710109A (zh) * 2020-07-01 2020-09-25 中国银行股份有限公司 取款控制方法、装置和***
CN112464793A (zh) * 2020-11-25 2021-03-09 大连东软教育科技集团有限公司 一种在线***行为检测方法、***和存储介质
CN112749655A (zh) * 2021-01-05 2021-05-04 风变科技(深圳)有限公司 视线追踪方法、装置、计算机设备和存储介质
CN113111745A (zh) * 2021-03-30 2021-07-13 四川大学 基于openpose的产品关注度的眼动识别的方法
CN112801069A (zh) * 2021-04-14 2021-05-14 四川翼飞视科技有限公司 一种人脸关键特征点检测装置、方法和存储介质
CN114706484A (zh) * 2022-04-18 2022-07-05 Oppo广东移动通信有限公司 视线坐标确定方法及装置、计算机可读介质和电子设备
CN114898447A (zh) * 2022-07-13 2022-08-12 北京科技大学 一种基于自注意力机制的个性化注视点检测方法及装置
CN117132869A (zh) * 2023-08-28 2023-11-28 广州视景医疗软件有限公司 视线偏差估算模型的训练、视线偏差值的校正方法及装置

Also Published As

Publication number Publication date
WO2021169637A1 (zh) 2021-09-02

Similar Documents

Publication Publication Date Title
WO2021169637A1 (zh) 图像识别方法、装置、计算机设备及存储介质
US10713532B2 (en) Image recognition method and apparatus
US10635890B2 (en) Facial recognition method and apparatus, electronic device, and storage medium
CN109359548B (zh) 多人脸识别监控方法及装置、电子设备及存储介质
US10318797B2 (en) Image processing apparatus and image processing method
CN109657554B (zh) 一种基于微表情的图像识别方法、装置以及相关设备
CA2934514C (en) System and method for identifying faces in unconstrained media
CN112419170B (zh) 遮挡检测模型的训练方法及人脸图像的美化处理方法
WO2020199611A1 (zh) 活体检测方法和装置、电子设备及存储介质
EP4099217A1 (en) Image processing model training method and apparatus, device, and storage medium
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN111598038B (zh) 脸部特征点检测方法、装置、设备及存储介质
US20230081982A1 (en) Image processing method and apparatus, computer device, storage medium, and computer program product
Yang et al. PipeNet: Selective modal pipeline of fusion network for multi-modal face anti-spoofing
EP3685288B1 (en) Apparatus, method and computer program product for biometric recognition
EP4085369A1 (en) Forgery detection of face image
CN111108508B (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
CN107844742A (zh) 人脸图像眼镜去除方法、装置及存储介质
CN113591763B (zh) 人脸脸型的分类识别方法、装置、存储介质及计算机设备
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN113298158A (zh) 数据检测方法、装置、设备及存储介质
CN111126515A (zh) 基于人工智能的模型训练方法和相关装置
CN116311370A (zh) 一种基于多角度特征的牛脸识别方法及其相关设备
CN114861241A (zh) 基于智能检测的防窥屏方法及其相关设备
CN112070744B (zh) 一种人脸识别的方法、***、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200619