CN113780234B - 一种边缘指导的人眼图像解析方法 - Google Patents
一种边缘指导的人眼图像解析方法 Download PDFInfo
- Publication number
- CN113780234B CN113780234B CN202111121554.3A CN202111121554A CN113780234B CN 113780234 B CN113780234 B CN 113780234B CN 202111121554 A CN202111121554 A CN 202111121554A CN 113780234 B CN113780234 B CN 113780234B
- Authority
- CN
- China
- Prior art keywords
- human eye
- image
- detection
- contour
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003703 image analysis method Methods 0.000 title abstract description 7
- 238000001514 detection method Methods 0.000 claims abstract description 145
- 230000011218 segmentation Effects 0.000 claims abstract description 59
- 210000001747 pupil Anatomy 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000010191 image analysis Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 230000005484 gravity Effects 0.000 claims description 29
- 210000000744 eyelid Anatomy 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000003708 edge detection Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 210000001508 eye Anatomy 0.000 description 170
- 210000000554 iris Anatomy 0.000 description 34
- 230000006870 function Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000004087 cornea Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 210000003786 sclera Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Ophthalmology & Optometry (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本公开的实施例公开了边缘指导的人眼图像解析方法。该方法的一具体实施方式包括:利用摄像机采集人眼图像作为待检测图像;将待检测图像输入预先训练的轮廓生成网络,得到人眼检测轮廓图;将待检测图像和人眼检测轮廓图输入预先训练的边缘指导解析网络,得到语义分割检测图和初始人眼图像检测拟合参数;基于语义分割检测图,对初始人眼图像检测拟合参数进行迭代搜索以确定目标人眼图像检测拟合参数;将语义分割检测图和目标人眼图像检测拟合参数作为图像解析结果发送至显示终端以供显示。该实施方式提高了瞳孔虹膜区域划分边界处的准确度。使得瞳孔虹膜区域划分结果椭圆结构性整体性增加。此外,迭代搜索可以获得更精准的椭圆参数拟合结果。
Description
技术领域
本公开的实施例涉及图像解析技术领域,具体涉及边缘指导的人眼图像解析方法。
背景技术
视线追踪技术是指估计用户视线的技术。它为虚拟现实、增强现实领域提供了一个高效的人机交互方式,目前应用日益广泛。人眼图像解析方法大致分为两种:传统方法和基于深度学习的方法。现有的方法存在着一些问题。一方面,近眼图像巩膜和虹膜的分界极为不明显,且受变化照明、角膜折射等影响,在进行语义分割图时,图像的边界往往较为粗糙,同时,也难以保证区域椭圆结构的完整性。另一方面,方法会将图像中的一些干扰项误判成瞳孔和虹膜区域,如眼角、眼镜鼻托、眼镜反射的场景等。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了边缘指导的人眼图像解析方法,来解决以上背景技术部分提到的技术问题中的一项或多项。
本公开的一些实施例提供了一种边缘指导的人眼图像解析方法,该方法包括:利用摄像机采集人眼图像作为待检测图像,其中,上述待检测图像包括以下至少一项:瞳孔区域、虹膜区域、上眼皮区域和下眼皮区域;将上述待检测图像输入至预先训练的轮廓生成网络,得到人眼检测轮廓图;将上述待检测图像和上述人眼检测轮廓图输入至预先训练的边缘指导解析网络,得到语义分割检测图和初始人眼图像检测拟合参数;基于上述语义分割检测图,对上述初始人眼图像检测拟合参数进行迭代搜索以确定目标人眼图像检测拟合参数;将上述语义分割检测图和上述目标人眼图像检测拟合参数作为图像解析结果发送至显示终端以供显示。
根据上述实际需求和技术难点,本发明的目的是提出一种边缘指导的人眼图像解析方法。该方法以人眼图片作为输入,通过提取图片中上下眼皮、瞳孔和虹膜的图像轮廓信息来指导解析过程,以保证瞳孔虹膜区域划分椭圆结构完整性和边界准确性。通过综合瞳孔虹膜区域划分结果,以获得更精准的瞳孔虹膜椭圆参数化表示。即方法最终获得人眼瞳孔虹膜区域划分和椭圆参数(椭圆中心、长短半轴和旋转角)。本公开的上述各个实施例具有如下有益效果:(1)提高了瞳孔虹膜区域划分边界处的准确度。利用人眼图片的关键轮廓信息(上下眼皮、瞳孔和虹膜),提高了边界处平滑性和准确率。(2)瞳孔虹膜区域划分结果椭圆结构性整体性增加。借助于关键轮廓信息指导,减少了部分椭圆区域缺失或冗余的情况。(3)综合整合了瞳孔虹膜区域划分和参数拟合结果。利用像素级瞳孔虹膜区域划分结果,迭代搜索获得了更精准的椭圆参数拟合结果。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的一些实施例的边缘指导的人眼图像解析方法的一个应用场景的示意图;
图2是根据本公开的边缘指导的人眼图像解析方法的一些实施例的流程图;
图3是根据本公开的人眼图像的示意图;
图4是根据本公开的预先训练的轮廓生成网络的工作流程图;
图5是根据本公开的预先训练的边缘指导解析网络的工作流程图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
图1是根据本公开的一些实施例的边缘指导的人眼图像解析方法的一个应用场景的示意图。
在图1的应用场景中,首先,计算设备101利用摄像机采集人眼图像作为待检测图像102,其中,上述待检测图像102包括以下至少一项:瞳孔区域、虹膜区域、上眼皮区域和下眼皮区域。然后,计算设备101可以将上述待检测图像102输入至预先训练的轮廓生成网络103,得到人眼检测轮廓图104。之后,计算设备101可以将上述待检测图像102和上述人眼检测轮廓图104输入至预先训练的边缘指导解析网络105,得到语义分割检测图106和初始人眼图像检测拟合参数107。接着,计算设备101可以基于上述语义分割检测图106,对上述初始人眼图像检测拟合参数107进行迭代搜索以确定目标人眼图像检测拟合参数108。最后,计算设备101可以将上述语义分割检测图106和上述目标人眼图像检测拟合参数108作为图像解析结果发送至显示终端109以供显示。
需要说明的是,上述计算设备101可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的计算设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的计算设备。
继续参考图2,示出了根据本公开的边缘指导的人眼图像解析方法的一些实施例的流程200。该边缘指导的人眼图像解析方法,包括以下步骤:
步骤201,利用摄像机采集人眼图像作为待检测图像。
在一些实施例中,边缘指导的人眼图像解析方法的执行主体(如图1所示的计算设备101)可以利用摄像机采集人眼图像作为待检测图像。其中,上述待检测图像可以包括但不限于以下至少一项:瞳孔区域、虹膜区域、上眼皮区域和下眼皮区域,例如图3左侧的人眼图像。
视线追踪技术需要首先计算视线相关的眼部特征信息,如瞳孔虹膜中心位置、椭圆参数信息等,利用这些特征信息建模求解用户视线位置。人眼图像解析可以根据设备拍摄的用户眼部图像,解析眼睛信息,包括瞳孔虹膜区域划分、瞳孔虹膜椭圆参数(椭圆中心、长短半轴和旋转角)。瞳孔和虹膜在图片上表现为一个标准的椭圆,过去很多方法对人眼图片进行椭圆检测来拟合瞳孔和虹膜,但是鲁棒性一般较差。随着近些年卷积神经网络在图像处理能力上的体现和数据集的不断扩充,基于深度学习的方法越来越受欢迎。对于瞳孔虹膜区域划分任务,使用计算机视觉中经典的语义分割网络U-Net进行分割;对于瞳孔虹膜参数拟合任务,也可以使用卷积神经网络对图片进行特征提取,将特征伸展送入全连接层直接得到椭圆参数结果。
步骤202,将待检测图像输入至预先训练的轮廓生成网络,得到人眼检测轮廓图。
在一些实施例中,上述执行主体可以将上述待检测图像输入至预先训练的轮廓生成网络,得到人眼检测轮廓图。预先训练的轮廓生成网络的工作过程如图4所示。将待检测图像输入至轮廓生成器,得到人眼检测轮廓图,再将人眼检测轮廓图输入至轮廓判别器进行判别。
在一些实施例的一些可选的实现方式中,上述预先训练的轮廓生成网络可以通过以下方式训练得到:
第一步,获取人眼数据集,其中,上述人眼数据集中的人眼数据包括人眼图像和与上述人眼图像对应的关键轮廓标签;
第二步,基于上述人眼数据集,执行以下训练步骤:
将上述人眼数据集中的至少一个人眼数据包括的人眼图像分别输入至初始轮廓生成器,得到上述至少一个人眼数据中的每个人眼图像对应的人眼轮廓图。其中,上述初始轮廓生成器使用双向级联卷积神经网络。上述双向级联卷积神经网络包括多个卷积神经网络。每个卷积神经网络对图像进行一个尺度的轮廓提取。多个卷积神经网络提取的图像的不同尺度的轮廓融合后作为人眼轮廓图。
基于上述至少一个人眼数据中的每个人眼图像对应的关键轮廓标签和上述至少一个人眼数据中的每个人眼图像对应的人眼轮廓图,确定上述至少一个人眼数据对应的人眼轮廓图的第一损失值。
响应于确定上述第一损失值收敛于第一预定阈值,将上述初始轮廓生成器作为训练完成的初始轮廓生成器。
响应于确定上述第一损失值不收敛于第一预定阈值,调整初始轮廓生成器的网络参数。以及使用未用过的人眼数据集组成训练人眼数据集,将调整后的初始轮廓生成器作为初始轮廓生成器,再次执行上述训练步骤。
可选的,上述人眼数据集中的人眼数据包括的关键轮廓标签,可以通过以下步骤得到:
第一步,获取语义标签图。其中,上述语义标签图可以是人眼图像。
第二步,对上述语义标签图进行边缘检测,得到图像边缘图。其中,上述图像边缘图可以包括但不限于以下至少一项:瞳孔边缘、虹膜边缘、上眼皮边缘和下眼皮边缘。例如图3中间的人眼图像。
第三步,对上述图像边缘图包括的至少一项:瞳孔边缘、虹膜边缘、上眼皮边缘和下眼皮边缘进行高斯平滑处理以生成关键边缘图作为关键轮廓标签。例如图3右侧的人眼图像。
可选的,上述基于上述至少一个人眼数据中的每个人眼图像对应的关键轮廓标签和上述至少一个人眼数据中的每个人眼图像对应的人眼轮廓图,确定上述至少一个人眼数据对应的人眼轮廓图的第一损失值。其中,上述至少一个人眼数据对应的人眼轮廓图的第一损失值包括:轮廓生成器损失值和轮廓判别器损失值。可以包括以下步骤:
第一步,将上述至少一个人眼数据包括的人眼图像对应的人眼轮廓图分别输入至初始轮廓判别器,得到上述至少一个人眼数据对应的每个人眼轮廓图的第一置信度值。其中,上述初始轮廓判别器使用卷积神经网络,人眼轮廓图经多次卷积、池化、激活操作后产生判别结果。
第二步,将上述至少一个人眼数据包括的人眼图像对应的关键轮廓标签分别输入至初始轮廓判别器,得到上述至少一个人眼数据对应的每个关键轮廓标签的第二置信度值。
第三步,根据上述至少一个人眼数据中的每个人眼图像对应的关键轮廓标签、上述至少一个人眼数据中的每个人眼图像对应的人眼轮廓图、上述至少一个人眼数据对应的每个人眼轮廓图的第一置信度值和上述至少一个人眼数据对应的每个关键轮廓标签的第二置信度值,利用以下公式,得到第一损失值:
其中,LG(ε)表示关于ε的轮廓生成器损失值。LG()表示轮廓生成器损失值。ε表示参数。α表示第一超参数。∑表示求和。表示求第i个关键轮廓标签和第i个人眼轮廓图差异的函数。U()表示求差异的函数。i表示序号。/>表示第i个人眼轮廓图。/>表示至少一个人眼轮廓图。Ei表示第i个关键轮廓标签。E表示至少一个关键轮廓标签。β表示第二超参数。/>表示/>的第二置信度值。LS(ε)表示关于ε的轮廓判别器损失值。LS()表示轮廓判别器损失值。Dε(Ei)表示Ei的第一置信度值。
步骤203,将待检测图像和人眼检测轮廓图输入至预先训练的边缘指导解析网络,得到语义分割检测图和初始人眼图像检测拟合参数。
在一些实施例中,上述执行主体可以将上述待检测图像和上述人眼检测轮廓图输入至预先训练的边缘指导解析网络,得到语义分割检测图和初始人眼图像检测拟合参数。预先训练的边缘指导解析网络的工作过程如图5所示。以预先训练的轮廓生成网络的输出结果作为指导,将上述待检测图像和上述人眼检测轮廓图输入至图像解码器,得到编码后的待检测图像和编码后的人眼检测轮廓图,然后,将编码后的待检测图像输入图像解码器,得到语义分割检测图。同时,将编码后的人眼检测轮廓图输入至多层感知器,得到初始人眼图像检测拟合参数。对初始人眼图像检测拟合参数进行迭代搜索以确定目标人眼图像检测拟合参数。
在一些实施例的一些可选的实现方式中,上述预先训练的边缘指导解析网络包括:初始图像编码器、初始图像解码器、风格编码器和多层感知器。上述预先训练的边缘指导解析网络可以通过以下方式训练得到:
第一步,获取图像数据集,其中,上述图像数据集中的图像数据包括人眼图像、人眼轮廓图和与上述人眼图像、上述人眼轮廓图分别对应的语义分割图标签和人眼图像拟合参数标签,上述图像数据集中的图像数据包括的人眼轮廓图是上述预先训练的轮廓生成网络输出的人眼轮廓图;
第二步,基于上述图像数据集,执行以下训练步骤:
将上述图像数据集中的至少一个图像数据包括的人眼图像和人眼轮廓图分别输入至初始图像编码器,得到上述至少一个图像数据中的每个人眼图像和每个人眼轮廓图分别对应的人眼图像特征和人眼轮廓特征。其中,初始图像编码器由多层卷积神经网络组成,多层卷积神经网络的卷积核不断变大,分别提取图片低层次到高层次特征。
对上述至少一个图像数据中的每个人眼图像和每个人眼轮廓图分别对应的人眼图像特征和人眼轮廓特征进行特征融合以生成融合后的特征,得到融合后的特征集合。
将上述融合后的特征集合中的每个融合后的特征输入至初始图像解码器,得到语义分割图集合。其中,上述语义分割图集合中的语义分割图包括瞳孔区域、虹膜区域和皮肤区域。
将上述融合后的特征集合中的每个融合后的特征展开伸平后输入至多层感知器,得到人眼图像拟合参数集合。
作为示例,融合后的特征可以是展开伸平后的特征可以是/>
基于上述至少一个图像数据中的每个人眼图像和每个人眼轮廓图分别对应的语义分割图标签和人眼图像拟合参数标签、上述语义分割图集合和上述人眼图像拟合参数集合,确定上述至少一个图像数据对应的语义分割图集合和人眼图像拟合参数集合的第二损失值。其中,上述第二损失值可以包括分割损失值和拟合损失值。拟合损失值可以使用回归损失函数L1-Loss得到。分割损失值可以使用交叉熵损失和广义骰子损失(GDL,Generalized Dice Loss)得到。
响应于确定上述第二损失值收敛于第二预定阈值,将上述初始图像编码器、上述初始图像解码器、上述风格编码器和上述多层感知器作为训练完成的边缘指导解析网络。
响应于确定上述第二损失值不收敛于第二预定阈值,调整初始图像编码器、初始图像解码器、风格编码器和多层感知器的网络参数。以及使用未用过的图像数据集组成训练图像数据集。将调整后的初始图像编码器、初始图像解码器、风格编码器和多层感知器作为初始图像编码器和、初始图像解码器、风格编码器和多层感知器,再次执行上述训练步骤。
可选的,上述对上述至少一个图像数据中的每个人眼图像和每个人眼轮廓图分别对应的人眼图像特征和人眼轮廓特征进行特征融合以生成融合后的特征,可以包括以下步骤:
第一步,对上述人眼图像和上述人眼轮廓图对应的人眼图像特征I(C1×W1×H1)和人眼轮廓特征G(C2×W2×H2)按照通道进行拼接,得到拼接特征。其中,C1表示上述人眼图像的通道数目。H1表示上述人眼图像的高。W1表示上述人眼图像的宽。C2表示上述人眼轮廓图的通道数目。H2表示上述人眼轮廓图的高。W2表示上述人眼轮廓图的宽。
利用公式Q=concat(I,E)进行拼接。其中,I表示人眼图像特征。E表示人眼轮廓特征。concat(,)表示拼接函数。Q表示拼接特征。
第二步,将上述拼接特征输入至风格编码器,得到均值和方差。其中,上述风格编码器可以是能够输出特征的均值和方差的解码器。
第三步,根据上述拼接特征、上述均值和上述方差,利用以下公式,生成融合后的特征:
其中,E′表示融合后的特征。Stylestd表示上述方差。E表示上述拼接特征。Emean表示上述拼接特征的均值。Estd表示上述拼接特征的方差。Stylemean表示上述均值。
步骤204,基于语义分割检测图,对初始人眼图像检测拟合参数进行迭代搜索以确定目标人眼图像检测拟合参数。
在一些实施例中,上述执行主体可以基于上述语义分割检测图,对上述初始人眼图像检测拟合参数进行迭代搜索以确定目标人眼图像检测拟合参数。
在一些实施例的一些可选的实现方式中,上述基于上述语义分割检测图,对上述初始人眼图像检测拟合参数进行迭代搜索以确定目标人眼图像检测拟合参数,其中,上述语义分割检测图可以包括瞳孔检测区域、虹膜检测区域和皮肤检测区域。可以包括以下步骤:
第一步,确定上述语义分割检测图中的瞳孔检测区域和虹膜检测区域的区域重心,得到瞳孔区域重心和虹膜区域重心。
第二步,基于上述瞳孔区域重心、上述虹膜区域重心和上述初始人眼图像检测拟合参数,执行以下参数调整步骤:
确定初始参数调整步长D0。
基于上述瞳孔区域重心、上述虹膜区域重心和上述初始人眼图像检测拟合参数,确定目标人眼图像检测拟合参数。
将迭代次数增加1。其中,上述迭代次数的初始值为0。
响应于确定上述迭代次数等于第三预定阈值,将上述目标人眼图像检测拟合参数作为迭代搜索完成的目标人眼图像检测拟合参数。
响应于确定上述迭代次数小于第三预定阈值。利用D=D0×R,其中,D表示调整后的参数调整步长。D0表示初始参数调整步长。R表示衰减系数。调整参数调整步长。将调整后的参数调整步长作为初始参数调整步长,再次执行上述参数调整步骤。
可选的,上述确定上述语义分割检测图中的瞳孔检测区域和虹膜检测区域的区域重心,可以通过以下公式得到瞳孔区域重心和虹膜区域重心:
其中,Cx表示区域重心的横坐标。H表示上述语义分割检测图的高。W表示上述语义分割检测图的宽。i表示像素的横坐标。j表示像素的纵坐标。Cy表示区域重心的纵坐标。P(i,j)表示像素(i,j)在瞳孔检测区域或虹膜检测区域的概率。P()表示概率。
可选的,上述基于上述瞳孔区域重心、上述虹膜区域重心和上述初始人眼图像检测拟合参数,可以利用以下公式进行迭代搜索,以确定目标人眼图像检测拟合参数:
其中,Xt+1表示迭代次数为t+1时的人眼图像检测拟合参数,即目标人眼图像检测拟合参数。t表示迭代次数。t的取值为[0,T]。T表示第三预定阈值。X表示人眼图像检测拟合参数。表示r的目标人眼图像检测拟合参数。r表示检测区域。r的取值为1和2。r=1表示瞳孔检测区域。r=2表示虹膜检测区域。/>表示求r的/>最大时/>的取值,即表征r区域的参数为/>的椭圆区域与上述语义分割检测图的重合程度。fr()表示r区域的椭圆区域与上述语义分割检测图的重合程度。/>表示经过步长调整后的初始人眼图像检测拟合参数集合。/>表示上述初始人眼图像检测拟合参数(a,b,θ)中的a经过步长调整后取值。/>表示上述初始人眼图像检测拟合参数(a,b,θ)中的b经过步长调整后取值。/>表示上述初始人眼图像检测拟合参数(a,b,θ)中的θ经过步长调整后取值。dk表示第k个参数调整步长。k的取值为1,2和3。k=1时,dk表示a的参数调整步长。k=2时,dk表示b的参数调整步长。k=3时,dk表示θ的参数调整步长。H表示上述语义分割检测图的高。W表示上述语义分割检测图的宽。i表示像素的横坐标。j表示像素的纵坐标。gr(i,j,A,B,θ′)表示像素(i,j)是否在参数为/>的椭圆区域内。A表示椭圆长半轴。B表示椭圆短半轴。θ′表示旋转角。qr(i,j)表示在语义分割检测图中。像素(i,j)是否属于区域r。qr()表示在语义分割检测图中。像素是否属于区域r。h(i,j,A,B,θ′)表示像素位置和椭圆关系的判定函数。h()表示判定函数。/>表示r区域重心的横坐标。/>表示r区域重心的纵坐标。cosθ′表示θ′的余弦值。sinθ′表示θ′的正弦值。
步骤205,将语义分割检测图和目标人眼图像检测拟合参数作为图像解析结果发送至显示终端以供显示。
在一些实施例中,上述执行主体可以将上述语义分割检测图和上述目标人眼图像检测拟合参数作为图像解析结果发送至显示终端以供显示。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (8)
1.一种边缘指导的人眼图像解析方法,包括:
利用摄像机采集人眼图像作为待检测图像,其中,所述待检测图像包括以下至少一项:瞳孔区域、虹膜区域、上眼皮区域和下眼皮区域;
将所述待检测图像输入至预先训练的轮廓生成网络,得到人眼检测轮廓图;
将所述待检测图像和所述人眼检测轮廓图输入至预先训练的边缘指导解析网络,得到语义分割检测图和初始人眼图像检测拟合参数;
基于所述语义分割检测图,对所述初始人眼图像检测拟合参数进行迭代搜索以确定目标人眼图像检测拟合参数;
将所述语义分割检测图和所述目标人眼图像检测拟合参数作为图像解析结果发送至显示终端以供显示;
其中,所述预先训练的边缘指导解析网络包括:初始图像编码器、初始图像解码器、风格编码器和多层感知器,所述预先训练的边缘指导解析网络通过以下方式训练得到:
获取图像数据集,其中,所述图像数据集中的图像数据包括人眼图像、人眼轮廓图和与所述人眼图像、所述人眼轮廓图分别对应的语义分割图标签和人眼图像拟合参数标签,所述图像数据集中的图像数据包括的人眼轮廓图是所述预先训练的轮廓生成网络输出的人眼轮廓图;
基于所述图像数据集,执行以下训练步骤:
将所述图像数据集中的至少一个图像数据包括的人眼图像和人眼轮廓图分别输入至初始图像编码器,得到所述至少一个图像数据中的每个人眼图像和每个人眼轮廓图分别对应的人眼图像特征和人眼轮廓特征;
对所述至少一个图像数据中的每个人眼图像和每个人眼轮廓图分别对应的人眼图像特征和人眼轮廓特征进行特征融合以生成融合后的特征,得到融合后的特征集合;
将所述融合后的特征集合中的每个融合后的特征输入至初始图像解码器,得到语义分割图集合,其中,所述语义分割图集合中的语义分割图包括瞳孔区域、虹膜区域和皮肤区域;
将所述融合后的特征集合中的每个融合后的特征输入至多层感知器,得到人眼图像拟合参数集合;
基于所述至少一个图像数据中的每个人眼图像和每个人眼轮廓图分别对应的语义分割图标签和人眼图像拟合参数标签、所述语义分割图集合和所述人眼图像拟合参数集合,确定所述至少一个图像数据对应的语义分割图集合和人眼图像拟合参数集合的第二损失值;
响应于确定所述第二损失值收敛于第二预定阈值,将所述初始图像编码器、所述初始图像解码器、所述风格编码器和所述多层感知器作为训练完成的边缘指导解析网络;
响应于确定所述第二损失值不收敛于第二预定阈值,调整初始图像编码器、初始图像解码器、风格编码器和多层感知器的网络参数,以及使用未用过的图像数据集组成训练图像数据集,将调整后的初始图像编码器、初始图像解码器、风格编码器和多层感知器作为初始图像编码器、初始图像解码器、风格编码器和多层感知器,再次执行所述训练步骤;
其中,所述语义分割检测图包括瞳孔检测区域、虹膜检测区域和皮肤检测区域;以及
所述基于所述语义分割检测图,对所述初始人眼图像检测拟合参数进行迭代搜索以确定目标人眼图像检测拟合参数,包括:
确定所述语义分割检测图中的瞳孔检测区域和虹膜检测区域的区域重心,得到瞳孔区域重心和虹膜区域重心;
基于所述瞳孔区域重心、所述虹膜区域重心和所述初始人眼图像检测拟合参数,执行以下参数调整步骤:
确定初始参数调整步长D0;
基于所述瞳孔区域重心、所述虹膜区域重心和所述初始人眼图像检测拟合参数,确定目标人眼图像检测拟合参数;
将迭代次数增加1,其中,所述迭代次数的初始值为0;
响应于确定所述迭代次数等于第三预定阈值,将所述目标人眼图像检测拟合参数作为迭代搜索完成的目标人眼图像检测拟合参数;
响应于确定所述迭代次数小于第三预定阈值,利用D=D0×R,其中,D表示调整后的参数调整步长,D0表示初始参数调整步长,R表示衰减系数,调整参数调整步长,将调整后的参数调整步长作为初始参数调整步长,再次执行所述参数调整步骤。
2.根据权利要求1所述的方法,其中,所述预先训练的轮廓生成网络通过以下方式训练得到:
获取人眼数据集,其中,所述人眼数据集中的人眼数据包括人眼图像和与所述人眼图像对应的关键轮廓标签;
基于所述人眼数据集,执行以下训练步骤:
将所述人眼数据集中的至少一个人眼数据包括的人眼图像分别输入至初始轮廓生成器,得到所述至少一个人眼数据中的每个人眼图像对应的人眼轮廓图;
基于所述至少一个人眼数据中的每个人眼图像对应的关键轮廓标签和所述至少一个人眼数据中的每个人眼图像对应的人眼轮廓图,确定所述至少一个人眼数据对应的人眼轮廓图的第一损失值;
响应于确定所述第一损失值收敛于第一预定阈值,将所述初始轮廓生成器作为训练完成的初始轮廓生成器;
响应于确定所述第一损失值不收敛于第一预定阈值,调整初始轮廓生成器的网络参数,以及使用未用过的人眼数据集组成训练人眼数据集,将调整后的初始轮廓生成器作为初始轮廓生成器,再次执行所述训练步骤。
3.根据权利要求2所述的方法,其中,所述人眼数据集中的人眼数据包括的关键轮廓标签,通过以下步骤得到:
获取语义标签图;
对所述语义标签图进行边缘检测,得到图像边缘图,其中,所述图像边缘图包括以下至少一项:瞳孔边缘、虹膜边缘、上眼皮边缘和下眼皮边缘;
对所述图像边缘图包括的至少一项:瞳孔边缘、虹膜边缘、上眼皮边缘和下眼皮边缘进行高斯平滑处理以生成关键边缘图作为关键轮廓标签。
4.根据权利要求3所述的方法,其中,所述至少一个人眼数据对应的人眼轮廓图的第一损失值包括:轮廓生成器损失值和轮廓判别器损失值;以及
所述基于所述至少一个人眼数据中的每个人眼图像对应的关键轮廓标签和所述至少一个人眼数据中的每个人眼图像对应的人眼轮廓图,确定所述至少一个人眼数据对应的人眼轮廓图的第一损失值,包括:
将所述至少一个人眼数据包括的人眼图像对应的人眼轮廓图分别输入至初始轮廓判别器,得到所述至少一个人眼数据对应的每个人眼轮廓图的第一置信度值;
将所述至少一个人眼数据包括的人眼图像对应的关键轮廓标签分别输入至初始轮廓判别器,得到所述至少一个人眼数据对应的每个关键轮廓标签的第二置信度值;
根据所述至少一个人眼数据中的每个人眼图像对应的关键轮廓标签、所述至少一个人眼数据中的每个人眼图像对应的人眼轮廓图、所述至少一个人眼数据对应的每个人眼轮廓图的第一置信度值和所述至少一个人眼数据对应的每个关键轮廓标签的第二置信度值,利用以下公式,得到第一损失值:
其中,LG(ε)表示关于ε的轮廓生成器损失值,LG()表示轮廓生成器损失值,ε表示参数,α表示第一超参数,∑表示求和,表示求第i个人眼轮廓图和第i个关键轮廓标签差异的函数,U( )表示求差异的函数,i表示序号,/>表示第i个人眼轮廓图,/>表示至少一个人眼轮廓图,Ei表示第i个关键轮廓标签,E表示至少一个关键轮廓标签,β表示第二超参数,/>表示/>的第一置信度值,LS(ε)表示关于ε的轮廓判别器损失值,LS( )表示轮廓判别器损失值,Dε(Ei)表示Ei的第二置信度值。
5.根据权利要求4所述的方法,其中,所述对所述至少一个图像数据中的每个人眼图像和每个人眼轮廓图分别对应的人眼图像特征和人眼轮廓特征进行特征融合以生成融合后的特征,包括:
对所述人眼图像和所述人眼轮廓图对应的人眼图像特征和人眼轮廓特征按照通道进行拼接,得到拼接特征;
将所述拼接特征输入至风格编码器,得到均值和方差;
根据所述拼接特征、所述均值和所述方差,利用以下公式,生成融合后的特征:
其中,E′表示融合后的特征,Stylestd表示所述方差,E表示所述拼接特征,Emean表示所述拼接特征的均值,Estd表示所述拼接特征的方差,Stylemean表示所述均值。
6.根据权利要求5所述的方法,其中,所述确定所述语义分割检测图中的瞳孔检测区域和虹膜检测区域的区域重心,得到瞳孔区域重心和虹膜区域重心,包括:
其中,Cx表示区域重心的横坐标,H表示所述语义分割检测图的高,W表示所述语义分割检测图的宽,i表示像素的横坐标,j表示像素的纵坐标,Cy表示区域重心的纵坐标,P(i,j)表示像素(i,j)在瞳孔检测区域或虹膜检测区域的概率,P()表示概率。
7.根据权利要求6所述的方法,其中,所述基于所述瞳孔区域重心、所述虹膜区域重心和所述初始人眼图像检测拟合参数,确定目标人眼图像检测拟合参数,包括:
基于所述瞳孔区域重心、所述虹膜区域重心和所述初始人眼图像检测拟合参数,利用以下公式进行迭代搜索,以确定目标人眼图像检测拟合参数:
其中,Xt+1表示迭代次数为t+1时的人眼图像检测拟合参数,即目标人眼图像检测拟合参数,t表示迭代次数,t的取值为[0,T],T表示第三预定阈值,X表示人眼图像检测拟合参数,表示r的目标人眼图像检测拟合参数,r表示检测区域,r的取值为1和2,r=1表示瞳孔检测区域,r=2表示虹膜检测区域,/>表示求r的/>最大时A,B,/>的取值,即表征r区域的参数为A,B/>的椭圆区域与所述语义分割检测图的重合程度,fr()表示r区域的椭圆区域与所述语义分割检测图的重合程度,A,B,/>表示经过步长调整后的初始人眼图像检测拟合参数集合,/>表示所述初始人眼图像检测拟合参数(a,b,θ)中的a经过步长调整后取值,/>表示所述初始人眼图像检测拟合参数(a,b,θ)中的b经过步长调整后取值,/>表示所述初始人眼图像检测拟合参数(a,b,θ)中的θ经过步长调整后取值,dk表示第k个参数调整步长,k的取值为1,2和3,k=1时,dk表示a的参数调整步长,k=2时,dk表示b的参数调整步长,k=3时,dk表示θ的参数调整步长,H表示所述语义分割检测图的高,W表示所述语义分割检测图的宽,i表示像素的横坐标,j表示像素的纵坐标,gr(i,j,A,B,θ′)表示像素(i,j)是否在参数为/>的椭圆区域内,A表示椭圆长半轴,B表示椭圆短半轴,θ′表示旋转角,qr(i,j)表示在语义分割检测图中,像素(i,j)是否属于区域r,qr( )表示在语义分割检测图中,像素是否属于区域r,h(i,j,A,B,θ′)表示像素位置和椭圆关系的判定函数,h( )表示判定函数,/>表示r区域重心的横坐标,/>表示r区域重心的纵坐标,cosθ′表示θ′的余弦值,sinθ′表示θ′的正弦值。
8.根据权利要求7所述的方法,其中,所述初始轮廓生成器使用双向级联卷积神经网络,所述双向级联卷积神经网络包括多个卷积神经网络,每个卷积神经网络对图像进行一个尺度的轮廓提取,多个卷积神经网络提取的图像的不同尺度的轮廓融合后作为人眼轮廓图;所述初始轮廓判别器使用卷积神经网络,人眼轮廓图经多次卷积、池化、激活操作后产生判别结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111121554.3A CN113780234B (zh) | 2021-09-24 | 2021-09-24 | 一种边缘指导的人眼图像解析方法 |
US17/729,839 US20220254031A1 (en) | 2021-09-24 | 2022-04-26 | Edge-guided human eye image analyzing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111121554.3A CN113780234B (zh) | 2021-09-24 | 2021-09-24 | 一种边缘指导的人眼图像解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780234A CN113780234A (zh) | 2021-12-10 |
CN113780234B true CN113780234B (zh) | 2024-03-12 |
Family
ID=78853045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111121554.3A Active CN113780234B (zh) | 2021-09-24 | 2021-09-24 | 一种边缘指导的人眼图像解析方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220254031A1 (zh) |
CN (1) | CN113780234B (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8098901B2 (en) * | 2005-01-26 | 2012-01-17 | Honeywell International Inc. | Standoff iris recognition system |
CN105913487B (zh) * | 2016-04-09 | 2018-07-06 | 北京航空航天大学 | 一种基于人眼图像中虹膜轮廓分析匹配的视线方向计算方法 |
-
2021
- 2021-09-24 CN CN202111121554.3A patent/CN113780234B/zh active Active
-
2022
- 2022-04-26 US US17/729,839 patent/US20220254031A1/en active Pending
Non-Patent Citations (1)
Title |
---|
利用区域信息融合混合活动轮廓模型的河流遥感图像分割;韩斌;吴一全;宋昱;;中国图象图形学报(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113780234A (zh) | 2021-12-10 |
US20220254031A1 (en) | 2022-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815826B (zh) | 人脸属性模型的生成方法及装置 | |
Wang et al. | Face photo-sketch synthesis and recognition | |
JP2020522285A (ja) | 全身測定値抽出のためのシステムおよび方法 | |
US20220148333A1 (en) | Method and system for estimating eye-related geometric parameters of a user | |
CN108985210A (zh) | 一种基于人眼几何特征的视线追踪方法及*** | |
CN104766059A (zh) | 快速精确的人眼定位方法及基于人眼定位的视线估计方法 | |
CN110781829A (zh) | 一种轻量级深度学习的智慧营业厅人脸识别方法 | |
CN111460976B (zh) | 一种数据驱动的基于rgb视频的实时手部动作评估方法 | |
CN111680550B (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
Martinikorena et al. | Fast and robust ellipse detection algorithm for head-mounted eye tracking systems | |
Ahmed et al. | Evaluation of accurate iris center and eye corner localization method in a facial image for gaze estimation | |
CN112101208A (zh) | 高龄老人特征串联融合手势识别方法及装置 | |
CN112446322A (zh) | 眼球特征检测方法、装置、设备及计算机可读存储介质 | |
Choi et al. | Eye pupil localization algorithm using convolutional neural networks | |
Liu et al. | Light field-based face liveness detection with convolutional neural networks | |
Du | High-precision portrait classification based on mtcnn and its application on similarity judgement | |
CN114549557A (zh) | 一种人像分割网络训练方法、装置、设备及介质 | |
Perra et al. | Adaptive eye-camera calibration for head-worn devices | |
Ahmed et al. | Eye detection and localization in a facial image based on partial geometric shape of iris and eyelid under practical scenarios | |
Mosayyebi et al. | Gender recognition in masked facial images using EfficientNet and transfer learning approach | |
CN114020155A (zh) | 一种基于眼动仪的高精度视线定位方法 | |
CN113780234B (zh) | 一种边缘指导的人眼图像解析方法 | |
CN116311422A (zh) | 关键点检测模型的训练方法、装置及存储介质 | |
Cao et al. | Gaze tracking on any surface with your phone | |
Joshi et al. | Real-time object detection and identification for visually challenged people using mobile platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |