CN117496584B

CN117496584B - 一种基于深度学习眼球追踪光斑检测方法及装置

Info

Publication number: CN117496584B
Application number: CN202410003661.3A
Authority: CN
Inventors: 毛凤辉; 徐浩; 邓继军; 郭振民
Original assignee: Nanchang Virtual Reality Institute Co Ltd
Current assignee: Nanchang Virtual Reality Institute Co Ltd
Priority date: 2024-01-02
Filing date: 2024-01-02
Publication date: 2024-04-09
Anticipated expiration: 2044-01-02
Also published as: CN117496584A

Abstract

本申请提供了一种基于深度学习眼球追踪光斑检测方法及装置，该方法通过将带有光斑的单通道样本眼球图像的数据组进行处理后存储在txt文件中；并生成所述单通道样本眼球图像的第一多通道标签图像；通过初级神经网络模型对所述单通道样本眼球图像对应的数据组进行语义分割输出第二多通道标签图像；根据所述第一多通道标签图像与第二多通道标签图像确定损失函数；通过所述损失函数迭代优化所述初级神经网络模型，得到最终神经网络模型；通过所述最终神经网络模型对单通道待测眼球图像进行处理，并推理得到所述单通道待测眼球图像的光斑中心和光斑排序，通过本申请可精确的进行眼球光斑检测以确认光斑序号。

Description

一种基于深度学习眼球追踪光斑检测方法及装置

技术领域

本申请属深度学习技术领域，尤其涉及一种基于深度学习眼球追踪光斑检测方法及装置。

背景技术

随着科技的发展，眼动追踪技术已然成为研究的热点，眼动追踪是一种用于研究人眼睛在视觉任务中的运动轨迹的技术。它可以记录人眼在观看视觉信息时的注视点位置和持续时间，并进一步推断人眼在视觉任务中的感知、认知和决策过程，帮助科学家了解人类视觉信息处理的机制。眼动追踪可以被应用于许多领域，例如人机交互设计、心理学、神经科学、广告和营销等。在眼动追踪中，视线估计是关键，但是视觉估计需要通过眼动光斑检测确认光斑序号进行视觉估计，现有技术中的眼动光斑检测精度不高，所以需要研究一套新的方案解决现有技术中问题。

发明内容

为了解决或缓解现有技术中的问题，因此提出一种基于深度学习眼球追踪光斑检测方法及装置。

第一方面，本申请实施例提供了一种基于深度学习眼球追踪光斑检测方法，包括：

将带有光斑的单通道样本眼球图像的数据组进行处理后存储在txt文件中；

读取txt文件中单通道样本眼球图像的数据组中首位数字不为0的数据组；

使用opencv图像视觉库生成像素值全为1的浮点型图像，所述浮点型图像大小与单通道样本眼球图像大小相同；

以每个所述数据组中的末尾两个值乘以单通道样本眼球图像的宽和高得到的值为圆心，以每个所述数据组的首位数字为像素，以预设像素值为半径在浮点型图像上画圆，得到单通道样本眼球图像对应的第一多通道标签图像；

通过初级神经网络模型对所述单通道样本眼球图像对应的数据组进行语义分割输出第二多通道标签图像；

根据所述第一多通道标签图像与第二多通道标签图像确定损失函数；

通过所述损失函数迭代优化所述初级神经网络模型，得到最终神经网络模型；

通过所述最终神经网络模型对带有光斑的单通道待测眼球图像进行处理，并推理得到所述单通道待测眼球图像的光斑中心和光斑排序。

与现有技术相比，本申请实施例提供了一种基于深度学习眼球追踪光斑检测方法，将带有光斑的单通道样本眼球图像的数据组进行处理后存储在txt文件中；读取txt文件中单通道样本眼球图像的数据组中首位数字不为0的数据组；使用opencv图像视觉库生成像素值全为1的浮点型图像，所述浮点型图像大小与单通道样本眼球图像大小相同；以每个所述数据组中的末尾两个值乘以单通道样本眼球图像的宽和高得到的值为圆心，以每个所述数据组的首位数字为像素，以预设像素值为半径在浮点型图像上画圆，得到单通道样本眼球图像对应的第一多通道标签图像；通过初级神经网络模型对所述单通道样本眼球图像对应的数据组进行语义分割输出第二多通道标签图像；根据所述第一多通道标签图像与第二多通道标签图像确定损失函数；通过所述损失函数迭代优化所述初级神经网络模型，得到最终神经网络模型；通过所述最终神经网络模型对带有光斑的单通道待测眼球图像进行处理，并推理得到所述单通道待测眼球图像的光斑中心和光斑排序，通过本申请提供的技术方案可以较精确的进行眼动光斑检测以确认光斑序号。

第二方面，本申请实施例还提供了一种基于深度学习眼球追踪光斑检测装置，包括：

处理模块，用于将带有光斑的单通道样本眼球图像进行处理后存储在txt文件中；

生成模块，用于读取txt文件中的单通道样本眼球图像的数据组中首位数字不为0的数据组；使用opencv图像视觉库生成像素值全为1的浮点型图像，所述浮点型图像大小与单通道样本眼球图像大小相同；以每个所述数据组中的末尾两个值乘以单通道样本眼球图像的宽和高得到的值为圆心，以每个所述数据组的首位数字为像素，以预设像素值为半径在浮点型图像上画圆，得到单通道样本眼球图像对应的第一多通道标签图像；

语义分割模块，用于通过初级神经网络模型对所述单通道样本眼球图像对应的数据组进行语义分割输出第二多通道标签图像；

确定模块，用于根据所述第一多通道标签图像与第二多通道标签图像确定损失函数；

优化模块，用于通过所述损失函数迭代优化所述初级神经网络模型，得到最终神经网络模型；

推理模块，用于通过所述最终神经网络模型对带有光斑的单通道待测眼球图像进行处理，并推理得到所述单通道待测眼球图像的光斑中心和光斑排序。

与现有技术相比，本申请实施例提供了一种基于深度学习眼球追踪光斑检测装置的有益效果与第一方面提供的技术方案的有益效果相同，在此不再赘述。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分，本领域技术人员应该理解的是，这些附图未必是按比例绘制的，在附图中：

图1是本申请实施例提供的一种基于深度学习眼球追踪光斑检测方法的流程示意图；

图2是本申请实施例提供的一种基于深度学习眼球追踪光斑检测装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

参考图1，第一方面，本申请实施例提供了一种基于深度学习眼球追踪光斑检测方法，包括：

步骤S01，将带有光斑的单通道样本眼球图像的数据组进行处理后存储在txt文件中；

步骤S01具体包括：采集带有光斑的单通道样本眼球图像；

在采集到的单通道样本眼球图像上，按顺序标记每个单通道样本眼球图像的光斑中心，并将每个单通道样本眼球图像的光斑中心进行归一化处理；

将光斑中心进行归一化处理后的单通道样本眼球图像保存在txt文件中。

需要说明的是，使用相关设备采集带有光斑的单通道样本眼球图像（设备可以为VR头显，在设备左右眼角对应的地方安装有一圈灯光和一个摄像头，通过摄像头采集左右眼球的图像）。在采集到的单通道样本眼球图像上，按顺序人工标记出光斑中心位置，并将光斑中心位置进行归一化处理，没有拍到光斑的位置标签和坐标都为0，将光斑中心进行归一化处理后的单通道样本眼球图像保存在txt文件中。

保存在txt文件中的数据类似如下：

1 0.834609 0.384967（序号为1）；1 0.864758 0.784047 （序号为2）；1 0.7947790.567892 （序号为3）；0 0.000000 0.000000（序号为4）；1 0.694934 0.749345（序号为5）；0 0.000000 0.000000（序号为6）；0 0.000000 0.000000（序号为7）； 1 0.4799660.397679（序号为8）；

从眼角开始，左眼顺时针顺序标注，右眼逆时针顺序标注，上面每个数字第一个整数1表示有光斑，整数0 表示无光斑，后面的二个小数，表示光斑中心相对图像的中心位置，例如前三个数值：1 0.834609 0.384967，1表示眼角位置有光斑，假如此光斑中心位置像素坐标(x,y)，图像宽高分别为H，W，则x/W = 0.834609，y/H = 0.384967，而0 0.0000000.000000表示未检测到光斑，上述数据是表示共有8个光斑点，其中5个光斑点检测到光斑。

步骤S02，对存储在txt文件中的内容进行处理后，生成单通道样本眼球图像对应的第一多通道标签图像；

步骤S02具体包括：读取txt文件中单通道样本眼球图像的数据组中首位数字不为0的数据组；

以每个所述数据组中的末尾两个值乘以单通道样本眼球图像的宽和高得到的值为圆心，以每个所述数据组的首位数字为像素，以预设像素值为半径在浮点型图像上画圆，得到单通道样本眼球图像对应的第一多通道标签图像。

需要说明的是，读取上述txt文件中标签首位数字不为0的数据组（序号为1）10.834609 0.384967 ；（序号为2）1 0.864758 0.784047 ；（序号为3）1 0.794779 0.567892；（序号为5）1 0.694934 0.749345；（序号为8）1 0.479966 0.397679；（以每三个数据为一组），并且将标签数据改成对应的序号加1，如上述txt中数据组变为：

[[2 0.834609 0.384967] [3 0.864758 0.784047] [4 0.794779 0.567892] [60.694934 0.749345] [9 0.479966 0.397679]]

使用opencv图像视觉库生成一张像素值全为1的浮点型图像，浮点型图像的图像大小与相机采集时原图像的大小一致，浮点型图像宽高分别为H、W，然后以上述每组数据的后二个值乘以图像宽高得到的数值为中心，以首位数字为像素，以半径为R（R=4像素）在浮点型图像上以填充方式画圆（即实心圆），实心圆为具有相同像素点的区域的光斑点。

如数据组[2 0.834609 0.384967]：以为中心坐标，以数据组中第一位数2为像素，画一个半径为4像素的实心圆。

如此每个单通道样本眼球图像均生成一张名字与原图一样对应的第一多通道标签图像。

步骤S03，通过初级神经网络模型对所述单通道样本眼球图像对应的数据组进行语义分割输出第二多通道标签图像；

需要说明的是，设计初级神经网络模型输入为batch*m*W*H，所述初级神经网络模型输出为batch*n*W*H，其中，batch是每次迭代所使用所述单通道样本眼球图像对应的标签图像的张数，m和n表示通道数，W、H表示所述单通道样本眼球图像对应的标签图像的宽和高。

需要说明的是，通过神经网络语义分割后就会将单通道图像转成多通道的图像标签，在本申请实施例中，如果单通道图像上有9个像素点，单通道图像为一张灰度图，每个像素点的像素值是1~9之中的一个，然后将单通道图像转成多通道的图像标签，实际上就是将单通道图像变成9张单通道的二值图，在二值图每个像素点值为0或1。比如第一张图像标签除了像素值为1的像素点，其它区域的像素值都是0，又比如第二张图，除了单通道图像image中像素值为2的对应像素点的像素值是1，其它区域的的像素值都是0，以此类推得到9通道的图像标签。

在具体的应用中，在第一个通道中有上述所画的圆区域全部像素值是0，在第一个通道中无上述所画的圆区域则像素值是1，在第二个通道中如果在上述所画的圆中像素点的像素值为1，在第二个通道中无上述所画的圆区域则像素值为0，在第三个通道中如果在上述所画的圆中像素点的像素值为1，在第二个通道中无上述所画的圆区域则像素值为0，依次类推得到第二多通道图形标签l。

在本申请实施例中，所述初级神经网络模型为Net网络模型，Net网络模型可以为Le-Net网络模型。

在本申请实施例中，所述第一多通道标签图像和第二多通道标签图像均为多张每个像素值是0或1的二值图。

步骤S04，根据所述第一多通道标签图像与第二多通道标签图像确定损失函数；

步骤S04具体包括：获取第一多通道标签图像中的第一个通道标签图像与第二多通道标签图像中的第一个通道标签图像之间的损失值loss₁，及第一多通道标签图像中的其它通道标签图像与第二多通道标签图像中的其它通道标签图像之间的损失值loss₂，根据以下公式确定损失函数：其中，W₁，W₂分别表示损失值loss₁和损失值loss₂的权重值。

其中，W₁，W₂分别表示损失值loss₁和损失值loss₂的权重值。

需要说明的是，损失函数分二部分，一部分是单通道样本眼球图像的第一个第一多通道标签图像与所述初级神经网络输出的第一个第二多通道标签图像之间的损失值loss₁，另外一部分是单通道样本眼球图像的其它通道标签图像与所述初级神经网络输出的其它通道标签图像之间的损失值loss₂。

步骤S05，通过所述损失函数迭代优化所述初级神经网络模型，得到最终神经网络模型；

需要说明的是，使用上述损失值不断迭代优化初级神经网络模型，直到初级神经网络模型完全收敛，输出最终的神经网络模型。

步骤S06，通过所述最终神经网络模型对带有光斑的单通道待测眼球图像进行处理，并推理得到所述单通道待测眼球图像的光斑中心和光斑排序。

步骤S06具体包括：将采集到的单通道待测眼球图像，输入到所述最终神经网络模型得到单通道待测眼球图像的第三多通道标签图像；

将采集到的单通道待测眼球图像，输入到所述最终神经网络模型得到单通道待测眼球图像的第三多通道标签图像；

依次轮询单通道待测眼球图像的第三多通道标签图像以确定单通道图像，所述单通道图像上的每个像素坐标点的像素值为与第三多通道标签图像具有相同像素坐标点的最大像素值对应的通道序号；

获取与所述单通道图像中的各个像素坐标点的像素值具有相同分辨率的二值图；

通过opencv图像视觉库中findContours函数确定所述二值图的各个通道的各个连通域的中心位置，所述连通域对应于光斑序号，根据所述光斑序号得到光斑中心位置及光斑排序。

需要说明的是，采集单通道待测眼球图像，输入最终神经网络模型推理，输出第三多通道标签图像output1。

轮询第三多通道标签图像output1各个通道，获取最大像素值所在的通道以确定单通道图像output2，所述单通道图像output2中的每个像素坐标点的像素值为与第三多通道标签图像具有相同像素坐标点的最大像素值对应的通道序号；

如果有9个光斑点，第一通道为0通道，所述第三多通道标签图像output1各个通道依次为0,1,2,3,4,5,6,7,8顺序，即9个通道，比如output1在像素坐标(0,0)位置各个通道的像素值为[0.034554 0.05459 0.000000 0.000000 0.007462 0.934712 0.0000000.0034401 0.000000]，此位置最大像素值为0.934712，通道序数为5，则在单通道图像output2图像像素坐标(0,0)处的像素值为5，依次全部轮询output1，获取单通道图像output2各个像素坐标点的像素值。

根据单通道图像output2在各个像素坐标点的像素值获取一分辨率和单通道图像output2相同的二值图output3，所述二值图output3的像素值为255。

通过opencv图像视觉库中findContours函数确定二值图像output3中各个连通域的中心位置，即为通过最终神经网络模型推理出光斑中心。

所述二值图Output3连通域对应于单通道图像Output2像素值，即为光斑序号，由此即得到了光斑中心位置，又可以得到光斑的排序，为后期眼动追踪提供有效的数据。

本申请实施例通过将光斑点通过处理为一个光斑点区域，即为点到面样本标签生成方法，使得眼动光斑检测问题转向一个语义分割问题，有效快速的实现了眼动光斑检测。同时借鉴语义分割思想，应用于眼动追踪中光斑检测，因为语义分割思想可以将自然光和泪点进行去除，所以更有效的克服了眼睛中自然光、泪点干扰，并对深度学习推理后的结果进行后处理，有效提取眼动光斑并保证了光斑的序号准确性，这样可以为后续眼动追踪、眼动姿态估计提供有力保障。

参考图2，第二方面，本申请实施例还提供了一种基于深度学习眼球追踪光斑检测装置，包括：

处理模块21，用于将带有光斑的单通道样本眼球图像的数据组进行处理后存储在txt文件中；

生成模块22，用于读取txt文件中单通道样本眼球图像的数据组中首位数字不为0的数据组；使用opencv图像视觉库生成像素值全为1浮点型图像，所述浮点型图像大小与单通道样本眼球图像大小相同；以每个所述数据组中的末尾两个值乘以单通道样本眼球图像的宽和高得到的值为圆心，以每个所述数据组的首位数字为像素，以预设像素值为半径在浮点型图像上画圆，得到单通道样本眼球图像对应的第一多通道标签图像；

语义分割模块23，用于通过初级神经网络模型对所述单通道样本眼球图像对应的数据组进行语义分割输出第二多通道标签图像；

确定模块24，用于根据所述第一多通道标签图像与第二多通道标签图像确定损失函数；

优化模块25，用于通过所述损失函数迭代优化所述初级神经网络模型，得到最终神经网络模型；

推理模块26，用于通过所述最终神经网络模型对带有光斑的单通道待测眼球图像进行处理，并推理得到所述单通道待测眼球图像的光斑中心和光斑排序。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种基于深度学习眼球追踪光斑检测方法，其特征在于，包括：

2.如权利要求1所述的一种基于深度学习眼球追踪光斑检测方法，其特征在于，所述将带有光斑的单通道样本眼球图像的数据组进行处理后存储在txt文件中，包括：

采集带有光斑的单通道样本眼球图像；

将光斑中心进行归一化处理后的单通道样本眼球图像的数据组保存在txt文件中。

3.如权利要求1所述的一种基于深度学习眼球追踪光斑检测方法，其特征在于，所述根据所述第一多通道标签图像与第二多通道标签图像确定损失函数，包括：

获取第一多通道标签图像中的第一个通道标签图像与第二多通道标签图像中的第一个通道标签图像之间的损失值loss₁，及第一多通道标签图像中的其它通道标签图像与第二多通道标签图像中的其它通道标签图像之间的损失值loss₂，根据以下公式确定损失函数：

4.如权利要求3所述的一种基于深度学习眼球追踪光斑检测方法，其特征在于，所述第一多通道标签图像和第二多通道标签图像均为多张每个像素值是0或1的二值图。

5.如权利要求4所述的一种基于深度学习眼球追踪光斑检测方法，其特征在于，所述通过所述最终神经网络模型对带有光斑的单通道待测眼球图像进行处理，并推理得到所述单通道待测眼球图像的光斑中心和光斑排序，包括：

6.一种基于深度学习眼球追踪光斑检测装置，其特征在于，包括：

生成模块，用于读取txt文件中单通道样本眼球图像的数据组中首位数字不为0的数据组；使用opencv图像视觉库生成像素值全为1的浮点型图像，所述浮点型图像大小与单通道样本眼球图像大小相同；以每个所述数据组中的末尾两个值乘以单通道样本眼球图像的宽和高得到的值为圆心，以每个所述数据组的首位数字为像素，以预设像素值为半径在浮点型图像上画圆，得到单通道样本眼球图像对应的第一多通道标签图像；