CN111178307A - 注视方向识别方法、装置及电子设备和存储介质 - Google Patents
注视方向识别方法、装置及电子设备和存储介质 Download PDFInfo
- Publication number
- CN111178307A CN111178307A CN201911424093.XA CN201911424093A CN111178307A CN 111178307 A CN111178307 A CN 111178307A CN 201911424093 A CN201911424093 A CN 201911424093A CN 111178307 A CN111178307 A CN 111178307A
- Authority
- CN
- China
- Prior art keywords
- image
- eye
- sight line
- line direction
- gaze direction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012512 characterization method Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 16
- 238000012937 correction Methods 0.000 claims description 13
- 230000004438 eyesight Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Ophthalmology & Optometry (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请实施例公开了一种注视方向识别方法、装置及电子设备和存储介质,采集图像后,在图像中检测人脸区域,并从人脸区域中裁剪出眼部区域图像;降低眼部区域图像的分辨率;将降低分辨率后的眼部区域图像输入注视方向识别模型,得到图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,得到图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值;根据图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定图像中的眼部的注视方向,该方案不需要定位普尔钦斑点,也不需要红外摄像头,只需要一般的摄像头即可,因而以较低的成本实现了注视方向的识别。
Description
技术领域
本申请涉及信息处理技术领域,更具体地说,涉及一种注视方向识别方法、装置及电子设备和存储介质。
背景技术
随着对电子设备的智能性要求的提高,越来越多的应用提供人眼控制功能。人眼控制功能可以提供给用户更方便的交互和用户体验。
人眼控制的核心是获得人眼的注视点,也就是获取用的注视方向。目前普遍通过普尔钦斑点和镜头几何结构来获取注视方向。但这种方法需要使用红外摄像头,使得电子设备的成本较高。
因此,如何以较低的成本实现注视方向的识别成为亟待解决的技术问题。
发明内容
本申请的目的是提供一种注视方向识别方法、装置及电子设备和存储介质,包括如下技术方案:
一种注视方向识别方法,包括:
采集图像;
在所述图像中检测人脸区域,并从所述人脸区域中裁剪出眼部区域图像;
对所述眼部区域图像进行处理,以降低所述眼部区域图像的分辨率;
将降低分辨率后的眼部区域图像输入注视方向识别模型,得到所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,得到所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值;
根据所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向。
上述方法,优选的,从所述人脸区域中裁剪出眼部区域图像包括:从所述人脸区域中裁剪出一帧双眼图像;
所述根据所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向,包括:
将表征最大可能性的可能性表征值对应的视线方向确定为所述图像中的眼部的注视方向。
上述方法,优选的,所述从所述人脸区域中裁剪出一帧双眼图像,包括:
从所述人脸区域中裁剪出两帧单眼图像;
将所述两帧单眼图像拼接为一帧双眼图像。
上述方法,优选的,从所述人脸区域中裁剪出眼部区域图像包括:从所述人脸区域中裁剪出两帧单眼图像;
所述根据所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向,包括:
将两帧单眼图像中的眼睛视线方向属于同一视线方向的可能性表征值加权求和,得到所述眼部的眼睛视线方向属于各个视线方向的可能性表征值;
将表征最大可能性的可能性表征值对应的视线方向确定为所述图像中的眼部的注视方向。
上述方法,优选的,所述从所述人脸区域中裁剪出眼部区域图像包括:
对所述人脸区域进行几何校正,得到校正后的脸部区域;
从所述校正后的脸部区域中截取眼部图像。
上述方法,优选的,还包括:
记录对所述人脸区域进行几何校正时,所述人脸区域的旋转角度和旋转方向;
在确定所述眼部的视线方向之后,还包括:
将所述眼部的视线方向按照所述旋转方向的逆方向旋转所述旋转角度。
上述方法,优选的,所述注视方向识别模型为三阶段卷积神经网络模型,每个阶段具有一个卷积层,各个卷积层中的卷积核的数量相同,相邻两个阶段的卷积层中,后一阶段的卷积层中卷积核的大小小于前一阶段的卷积层中卷积核的大小。
一种注视方向识别装置,包括:
采集模块,用于采集图像;
检测模块,用于在所述图像中检测人脸区域,并从所述人脸区域中裁剪出眼部区域图像;
分辨率处理模块,用于对所述眼部区域图像进行处理,以降低所述眼部区域图像的分辨率;
注视方向识别模块,用于将降低分辨率后的眼部区域图像输入注视方向识别模型,得到所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,得到所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值;
注视方向确定模块,用于根据所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向。
一种电子设备,包括:
图像采集装置,用于采集图像;
存储器,用于至少存储一组指令集;
处理器,用于调用并执行所述存储器中的所述指令集,通过执行所述指令集进行以下操作:
通过所述图像采集装置采集图像;
在所述图像中检测人脸区域,并从所述人脸区域中裁剪出眼部区域图像;
对所述眼部区域图像进行处理,以降低所述眼部区域图像的分辨率;
将降低分辨率后的眼部区域图像输入注视方向识别模型,得到所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,得到所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值;
根据所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的注视方向识别方法的各个步骤。
通过以上方案可知,本申请提供的一种注视方向识别方法、装置及电子设备和存储介质,采集图像后,在图像中检测人脸区域,并从人脸区域中裁剪出眼部区域图像;降低眼部区域图像的分辨率;将降低分辨率后的眼部区域图像输入注视方向识别模型,得到图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,得到图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值;根据图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定图像中的眼部的注视方向,该方案不需要定位普尔钦斑点,也不需要红外摄像头,只需要一般的摄像头即可,因而以较低的成本实现了注视方向的识别。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的注视方向识别方法的一种实现流程图;
图2为本申请实施例提供的根据图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定图像中的眼部的注视方向的一种实现流程图;
图3为本申请实施例提供的从人脸区域中裁剪出眼部区域图像的一种实现流程图;
图4为本申请实施例提供的注视方向识别模型的一种网络架构示意图;
图5为本申请实施例提供的注视方向识别装置的一种结构示意图;
图6为本申请实施例提供的电子设备的一种结构示意图。
说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,能够以除了在这里图示的以外的顺序实施。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的注视方向识别方法可以应用于电子设备中,该电子设备能够采集图像。
本申请提供的注视方向识别方法的一种实现流程图如图1所示,可以包括:
步骤S11:采集图像。
由于要对用户的注视方向进行跟踪,所以这里是实时采集用户图像,每采集到一帧图像,可以执行以下步骤。
步骤S12:在图像中检测人脸区域,并从人脸区域中裁剪出眼部区域图像。
为方便寻找眼部特征,本申请实施例中,不是直接从图像中检测眼部区域,而是先从图像中检测人脸区域,然后从人脸区域中检测眼部区域并裁剪出眼部区域图像。
可选的,可以使用基于回归树的人脸对齐算法对图像中的人脸进行对齐,以确定人脸区域,在确定人脸区域后,可以使用基于几何比例的方法提取眼部特征区域,根据眼部特征区域裁剪出眼部区域图像。眼部特征可以包括但不限于以下至少一种:眉毛、眼角、眼睛轮廓、瞳孔轮廓或虹膜轮廓等。在提取眼部特征区域后,可以根据眼部区域与眼部特征区域的相对位置关系,确定眼部区域图像。
步骤S13:对眼部区域图像进行处理,以降低眼部区域图像的分辨率。
为了提高计算效率,本申请实施例中,在获得眼部区域图像后,对眼部区域图像的分辨率进行重整,从而降低眼部区域的分辨率,进而使得后续计算的计算量降低,提高计算效率。
比如,可以将眼部区域图像的分辨率降为50×50大小。当然,这里只是举例说明,还可以是其它大小,本方案并不对此进行具体限定。
可选的,可以将眼部区域图像划分为若干图像块(比如,2×2大小的图像块),将每个图像块内的像素的均值作为该图像块的像素值,实现调低眼部区域图像的分辨率的目的。在一可选的实施例中,如果执行一次分辨率调整操作后,未达到目标分辨率,还可以再次对降低分辨率后的眼部区域图像进行分辨率调整,从而进一步降低眼部区域图像的分辨率。也就是说,本申请实施例中,可以通过对眼部区域图像进行至少一次降低分辨率的处理,使得眼部区域图像的分辨率达到目标分辨率。
步骤S14:将降低分辨率后的眼部区域图像输入注视方向识别模型,得到图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,得到图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值。
本申请实施例中,注视方向识别模型可以直接预测两只眼睛的综合视线方向属于各个视线方向的可能性表征值,或者,分别预测每只眼睛的视线方向属于各个视线方向的可能性表征值。
眼部的视线方向属于各个视线方向的可能性表征值可以是指:眼部的视线方向属于各个视线方向的评分,或者,眼部的视线方向属于各个视线方向的概率。通常,眼部的视线方向属于某个视线方向的评分或概率越高,眼部的视线方向为该某个视线方向的可能性越高。
眼部的注视方向可以包括但不限于以下几种:中心,中心偏左,中心偏右,左上,右上,左下,右下,中心偏上,中心偏下等。
步骤S15:根据图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定图像中的眼部的注视方向。
本申请实施例中,“眼部的视线方向”是指两只眼睛构成的整体的视线方向。
本申请实施例提供的注视方向识别方法,不需要定位普尔钦斑点,也不需要红外摄像头,只需要一般的摄像头即可,因而以较低的成本实现了注视方向的识别、跟踪。而且,在识别过程中,对眼部区域图像进行降低分辨率的处理,在保证识别精度的同时降低了识别过程的计算量。
在一可选的实施例中,上述从人脸区域中裁剪出眼部区域图像包括:从人脸区域中裁剪出一帧双眼图像。具体的,
可以直接从人脸区域中裁剪出一帧双眼图像。但这样裁剪得到的眼部区域中会包含较多的无关信息,比如两眼之间的区域,这样会导致后续计算量大,也影响识别精度。
在一优选的实施例中,可以先从人脸区域中裁剪出两帧单眼图像,然后将两帧单眼图像拼接为一帧双眼图像。由于裁剪的单眼图像通常只包含眼部区域,精度通常较高,因此,两帧单眼图像拼接得到的双眼图像去除了大量的无关信息,在减少计算量的同时,提高识别精度。
在一可选的实施例中,在裁剪出两帧单眼图像后,也可以不进行拼接,而是直接将两帧单眼图像输入注视方向识别模型。
本实施例中,不管输入注视方向识别模型的是一帧双眼图像,还是两帧单眼图像,注视方向识别模型输出的是图像中的眼部的视线方向属于各个视线方向的可能性表征值。
相应的,根据图像中的眼部的视线方向属于各个视线方向的可能性表征值,确定图像中的眼部的注视方向,包括:
将表征最大可能性的可能性表征值对应的视线方向确定为图像中的眼部的注视方向。
本申请实施例中,将降低分辨率后的双眼图像输入注视方向识别模型,由注视方向识别模型直接预测双眼的综合视线方向属于各个视线方向的可能性表征值。此时,可以将表征最大可能性的可能性表征值对应的视线方向确定为图像中的眼部的注视方向。
比如,假设注视方向识别模型输出的眼部的视线方向属于中心,中心偏左,中心偏右,左上,右上,左下,右下,中心偏上,中心偏下这九种视线方向中各个视线方向的评分依次为:2、3、4、9、1、5、8、7、6,显然,眼部的视线方向属于左上方向的评分(9分)最高,则可以确定图像中的眼部的注视方向为左上方向。
在一可选的实施例中,上述从人脸区域中裁剪出眼部区域图像的一种实现方式可以为:从人脸区域中裁剪出两帧单眼图像。
本申请实施例中,输入注视方向识别模型的是降低分辨率后的两帧单眼图像,则注视方向识别模型输出的是每只眼睛的视线方向属于各个视线方向的可能性表征值。
在一可选的实施例中,输入注视方向识别模型的也可以是从人脸区域中裁剪出的一帧双眼图像。
本实施例中,不管输入注视方向识别模型的是一帧双眼图像,还是两帧单眼图像,注视方向识别模型输出的是图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值。
相应的,上述根据图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定图像中的眼部的注视方向的一种实现流程图如图2所示,可以包括:
步骤S21:将两帧单眼图像中的眼睛视线方向属于同一视线方向的可能性表征值加权求和,得到眼部的眼睛视线方向属于各个视线方向的可能性表征值。
可选的,可以计算两帧单眼图像中的眼睛视线方向属于同一视线方向的可能性表征值的平均值,得到眼部的眼睛视线方向属于各个视线方向的可能性表征值。
比如,假设注视方向识别模型输出的左眼的视线方向属于中心,中心偏左,中心偏右,左上,右上,左下,右下,中心偏上,中心偏下这九种视线方向中各个视线方向的评分依次为:2、3、4、6、1、5、8、7、9,右眼的视线方向属于中心,中心偏左,中心偏右,左上,右上,左下,右下,中心偏上,中心偏下这九种视线方向中各个视线方向的评分依次为:2、3、3、6、1、5、9、7、7,则两帧单眼图像中的眼睛视线方向属于中心方向的可能性表征值的平均值为(2+2)/2=2,属于中心偏左方向的可能性表征值的平均值为(3+3)/2=3,属于中心偏右方向的可能性表征值的平均值为(4+3)/2=3.5,属于左上方向的可能性表征值的平均值为(6+6)/2=6,属于右上方向的可能性表征值的平均值为(1+1)/2=1,属于左下方向的可能性表征值的平均值为(5+5)/2=5,属于右下方向的可能性表征值的平均值为(8+9)/2=8.5,属于中心偏上方向的可能性表征值的平均值为(7+7)/2=7,属于中心偏下方向的可能性表征值的平均值为(9+7)/2=8。
步骤S22:将表征最大可能性的可能性表征值对应的视线方向确定为图像中的眼部的注视方向。
上述示例中,两帧单眼图像中的眼睛视线方向属于右下方向的可能性表征值的平均值(8.5)最高,因此,可以确定图像中眼部的注视方向为右下方向。
在实际应用中,由于用户头部并不是固定不动的,因而,所采集的图像可能并不是正脸,而是有一定倾斜角度的,或者,图像上人脸有一定的变形,这都对人眼检测造成干扰,影响寻找眼部特征的效率,甚至会影响注视方向的识别精度。基于此,在一可选的实施例中,本申请实施例提供的从人脸区域中裁剪出眼部区域图像的一种实现流程图如图3所示,可以包括:
步骤S31:对人脸区域进行几何校正,得到校正后的脸部区域。
可选的,对脸部区域进行几何校正包括对人脸区域的旋转,使得人脸区域是正向人脸。
步骤S32:从校正后的脸部区域中截取眼部图像。
校正后的脸部区域中截取眼部图像,一方面可以方便眼部区域的定位,另一方面可以减少后续计算的计算量,提高注视方向的识别精度。
而对人脸区域进行几何校正后,眼部区域也相应的进行了几何校正,这会改变眼部的注视方向,因此,在对人脸区域进行几何校正时,需要记录对脸部区域进行几何校正时,脸部区域的旋转角度和旋转方向;
在确定眼部的视线方向之后,还包括:
将眼部的视线方向按照所述旋转方向的逆方向旋转所述旋转角度。避免脸部区域的几何校正对注视方向的影响。
在一可选的实施例中,上述注视方向识别模型可以为三阶段卷积神经网络模型,每个阶段具有一个卷积层,各个卷积层中的卷积核的数量相同,相邻两个阶段的卷积层中,后一阶段的卷积层中卷积核的大小小于前一阶段的卷积层中卷积核的大小。
请参阅图4,图4为本申请实施例提供的注视方向识别模型的一种网络架构示意图。该示例图中,注视方向识别模型包括三个卷积层,一个全连接层和一个输出层。每个卷积层均包含24个卷积核,随着网络深度的加深,卷积核的大小逐渐变小,比如,第一个卷积层中卷积核的大小为7×7,第二个卷积层中卷积核的大小为5×5,第三个卷积层中卷积核的大小为3×3。
每个卷积层后边还设置有激活函数和池化层。其中,激活函数可以是ReLU激活函数,或者ReLU的变体,比如,Leaky ReLU、PReLU、RReLU等。池化层可以是最大池化层,或者,可以是均值池化层。
本申请实施例通过一个浅层的卷积神经网络实现了注视方向的精确跟踪定位。
与方法实施例相对应,本申请实施例还提供一种注视方向识别装置,该注视方向识别装置的一种结构示意图如图5所示,可以包括:
采集模块51,检测模块52,分辨率处理模块53,注视方向识别模块54和注视方向确定模块55;其中,
采集模块51用于采集图像;
检测模块52用于在所述图像中检测人脸区域,并从所述人脸区域中裁剪出眼部区域图像;
分辨率处理模块53用于对所述眼部区域图像进行处理,以降低所述眼部区域图像的分辨率;
注视方向识别模块54用于将降低分辨率后的眼部区域图像输入注视方向识别模型,得到所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,得到所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值;
注视方向确定模块55用于根据所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向。
本申请实施例提供的注视方向识别装置,不需要定位普尔钦斑点,也不需要红外摄像头,只需要一般的摄像头即可,因而以较低的成本实现了注视方向的识别、跟踪。而且,在识别过程中,对眼部区域图像进行降低分辨率的处理,在保证识别精度的同时降低了识别过程的计算量。
在一可选的实施例中,检测模块52在从人脸区域中裁剪出眼部区域图像时,具体用于:从所述人脸区域中裁剪出一帧双眼图像;
所述注视方向确定模块55根据所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向时,具体用于:
将表征最大可能性的可能性表征值对应的视线方向确定为所述图像中的眼部的注视方向。
在一可选的实施例中,检测模块52可以包括:
裁剪单元,用于从所述人脸区域中裁剪出两帧单眼图像;
拼接单元,用于将所述两帧单眼图像拼接为一帧双眼图像。
在一可选的实施例中,检测模块52在从人脸区域中裁剪出眼部区域图像时,具体用于:从所述人脸区域中裁剪出两帧单眼图像;
所述注视方向确定模块55根据所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向时,具体用于:
将两帧单眼图像中的眼睛视线方向属于同一视线方向的可能性表征值加权求和,得到所述眼部的眼睛视线方向属于各个视线方向的可能性表征值;
将表征最大可能性的可能性表征值对应的视线方向确定为所述图像中的眼部的注视方向。
在一可选的实施例中,检测模块52在从人脸区域中裁剪出眼部区域图像时,具体用于:
对所述人脸区域进行几何校正,得到校正后的脸部区域;
从所述校正后的脸部区域中截取眼部图像。
在一可选的实施例中,检测模块52还用于:记录对所述人脸区域进行几何校正时,所述人脸区域的旋转角度和旋转方向;
所述注视方式识别装置还包括校正模块,用于在注视方向确定模块55确定所述眼部的视线方向之后,将所述眼部的视线方向按照所述旋转方向的逆方向旋转所述旋转角度。
在一可选的实施例中,所述注视方向识别模型为三阶段卷积神经网络模型,每个阶段具有一个卷积层,各个卷积层中的卷积核的数量相同,相邻两个阶段的卷积层中,后一阶段的卷积层中卷积核的大小小于前一阶段的卷积层中卷积核的大小。
与方法实施例相对应,本申请还提供一种电子设备,该电子设备的一种结构示意图如图6所示,可以包括:
图像采集装置60,用于采集图像
存储器61,用于至少存储一组指令集;
处理器62,用于调用并执行所述存储器中的所述指令集,通过执行所述指令集进行以下操作:
通过图像采集装置60采集图像;
在所述图像中检测人脸区域,并从所述人脸区域中裁剪出眼部区域图像;
对所述眼部区域图像进行处理,以降低所述眼部区域图像的分辨率;
将降低分辨率后的眼部区域图像输入注视方向识别模型,得到所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,得到所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值;
根据所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向。
可选的,所述指令集的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
采集图像;
在所述图像中检测人脸区域,并从所述人脸区域中裁剪出眼部区域图像;
对所述眼部区域图像进行处理,以降低所述眼部区域图像的分辨率;
将降低分辨率后的眼部区域图像输入注视方向识别模型,得到所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,得到所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值;
根据所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向。
可选的,所述指令集的细化功能和扩展功能可参照上文描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种注视方向识别方法,包括:
采集图像;
在所述图像中检测人脸区域,并从所述人脸区域中裁剪出眼部区域图像;
对所述眼部区域图像进行处理,以降低所述眼部区域图像的分辨率;
将降低分辨率后的眼部区域图像输入注视方向识别模型,得到所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,得到所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值;
根据所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向。
2.根据权利要求1所述的方法,从所述人脸区域中裁剪出眼部区域图像包括:从所述人脸区域中裁剪出一帧双眼图像;
所述根据所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向,包括:
将表征最大可能性的可能性表征值对应的视线方向确定为所述图像中的眼部的注视方向。
3.根据权利要求2所述的方法,所述从所述人脸区域中裁剪出一帧双眼图像,包括:
从所述人脸区域中裁剪出两帧单眼图像;
将所述两帧单眼图像拼接为一帧双眼图像。
4.根据权利要求1所述的方法,从所述人脸区域中裁剪出眼部区域图像包括:从所述人脸区域中裁剪出两帧单眼图像;
所述根据所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向,包括:
将两帧单眼图像中的眼睛视线方向属于同一视线方向的可能性表征值加权求和,得到所述眼部的眼睛视线方向属于各个视线方向的可能性表征值;
将表征最大可能性的可能性表征值对应的视线方向确定为所述图像中的眼部的注视方向。
5.根据权利要求1-4任意一项所述的方法,所述从所述人脸区域中裁剪出眼部区域图像包括:
对所述人脸区域进行几何校正,得到校正后的脸部区域;
从所述校正后的脸部区域中截取眼部图像。
6.根据权利要求5所述的方法,还包括:
记录对所述人脸区域进行几何校正时,所述人脸区域的旋转角度和旋转方向;
在确定所述眼部的视线方向之后,还包括:
将所述眼部的视线方向按照所述旋转方向的逆方向旋转所述旋转角度。
7.根据权利要求1所述的方法,所述注视方向识别模型为三阶段卷积神经网络模型,每个阶段具有一个卷积层,各个卷积层中的卷积核的数量相同,相邻两个阶段的卷积层中,后一阶段的卷积层中卷积核的大小小于前一阶段的卷积层中卷积核的大小。
8.一种注视方向识别装置,包括:
采集模块,用于采集图像;
检测模块,用于在所述图像中检测人脸区域,并从所述人脸区域中裁剪出眼部区域图像;
分辨率处理模块,用于对所述眼部区域图像进行处理,以降低所述眼部区域图像的分辨率;
注视方向识别模块,用于将降低分辨率后的眼部区域图像输入注视方向识别模型,得到所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,得到所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值;
注视方向确定模块,用于根据所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向。
9.一种电子设备,包括:
图像采集装置,用于采集图像;
存储器,用于至少存储一组指令集;
处理器,用于调用并执行所述存储器中的所述指令集,通过执行所述指令集进行以下操作:
通过所述图像采集装置采集图像;
在所述图像中检测人脸区域,并从所述人脸区域中裁剪出眼部区域图像;
对所述眼部区域图像进行处理,以降低所述眼部区域图像的分辨率;
将降低分辨率后的眼部区域图像输入注视方向识别模型,得到所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,得到所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值;
根据所述图像中的眼部的视线方向属于各个视线方向的可能性表征值,或者,所述图像中的每只眼睛的视线方向属于各个视线方向的可能性表征值,确定所述图像中的眼部的注视方向。
10.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的注视方向识别方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911424093.XA CN111178307A (zh) | 2019-12-31 | 2019-12-31 | 注视方向识别方法、装置及电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911424093.XA CN111178307A (zh) | 2019-12-31 | 2019-12-31 | 注视方向识别方法、装置及电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111178307A true CN111178307A (zh) | 2020-05-19 |
Family
ID=70652573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911424093.XA Pending CN111178307A (zh) | 2019-12-31 | 2019-12-31 | 注视方向识别方法、装置及电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178307A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767820A (zh) * | 2020-06-23 | 2020-10-13 | 京东数字科技控股有限公司 | 对象被关注的识别方法、装置、设备及存储介质 |
CN113361441A (zh) * | 2021-06-18 | 2021-09-07 | 山东大学 | 基于头部姿态和空间注意力的视线区域估计方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091155A (zh) * | 2014-07-04 | 2014-10-08 | 武汉工程大学 | 光照鲁棒的虹膜快速定位方法 |
US20160267713A1 (en) * | 2015-03-11 | 2016-09-15 | Oculus Vr, Llc | Display device with dual data drivers |
CN107909057A (zh) * | 2017-11-30 | 2018-04-13 | 广东欧珀移动通信有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN108345848A (zh) * | 2018-01-31 | 2018-07-31 | 广东欧珀移动通信有限公司 | 用户注视方向识别方法及相关产品 |
CN109240504A (zh) * | 2018-09-25 | 2019-01-18 | 北京旷视科技有限公司 | 控制方法、模型训练方法、装置及电子设备 |
-
2019
- 2019-12-31 CN CN201911424093.XA patent/CN111178307A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091155A (zh) * | 2014-07-04 | 2014-10-08 | 武汉工程大学 | 光照鲁棒的虹膜快速定位方法 |
US20160267713A1 (en) * | 2015-03-11 | 2016-09-15 | Oculus Vr, Llc | Display device with dual data drivers |
CN107909057A (zh) * | 2017-11-30 | 2018-04-13 | 广东欧珀移动通信有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN108345848A (zh) * | 2018-01-31 | 2018-07-31 | 广东欧珀移动通信有限公司 | 用户注视方向识别方法及相关产品 |
CN109240504A (zh) * | 2018-09-25 | 2019-01-18 | 北京旷视科技有限公司 | 控制方法、模型训练方法、装置及电子设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767820A (zh) * | 2020-06-23 | 2020-10-13 | 京东数字科技控股有限公司 | 对象被关注的识别方法、装置、设备及存储介质 |
CN113361441A (zh) * | 2021-06-18 | 2021-09-07 | 山东大学 | 基于头部姿态和空间注意力的视线区域估计方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11430205B2 (en) | Method and apparatus for detecting salient object in image | |
WO2020015468A1 (zh) | 一种图像传输方法、装置、终端设备及存储介质 | |
US9508004B2 (en) | Eye gaze detection apparatus, computer-readable recording medium storing eye gaze detection program and eye gaze detection method | |
US11132544B2 (en) | Visual fatigue recognition method, visual fatigue recognition device, virtual reality apparatus and storage medium | |
US20130004082A1 (en) | Image processing device, method of controlling image processing device, and program for enabling computer to execute same method | |
WO2021016873A1 (zh) | 基于级联神经网络的注意力检测方法、计算机装置及计算机可读存储介质 | |
JP5235691B2 (ja) | 情報処理装置及び情報処理方法 | |
CN111598038B (zh) | 脸部特征点检测方法、装置、设备及存储介质 | |
CN106056064A (zh) | 一种人脸识别方法及人脸识别装置 | |
CN110059666B (zh) | 一种注意力检测方法及装置 | |
WO2019223068A1 (zh) | 虹膜图像局部增强方法、装置、设备及存储介质 | |
US20190066311A1 (en) | Object tracking | |
EP3699808B1 (en) | Facial image detection method and terminal device | |
CN111178307A (zh) | 注视方向识别方法、装置及电子设备和存储介质 | |
WO2022227594A1 (zh) | 眼球追踪方法及虚拟现实设备 | |
JP2019517079A (ja) | 形状検知 | |
CN110569840B (zh) | 目标检测方法及相关装置 | |
US20060126940A1 (en) | Apparatus and method for detecting eye position | |
JP2022039984A5 (zh) | ||
CN113409056A (zh) | 支付方法、装置、本地识别设备、人脸支付***及设备 | |
CN108604128B (zh) | 一种处理方法及移动设备 | |
CN114255494A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111124109B (zh) | 一种交互方式的选择方法、智能终端、设备及存储介质 | |
EP2128820A1 (en) | Information extracting method, registering device, collating device and program | |
US20230004223A1 (en) | Eye tracking system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |