CN111339928B - 眼神调节方法、装置及存储介质 - Google Patents
眼神调节方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111339928B CN111339928B CN202010114683.9A CN202010114683A CN111339928B CN 111339928 B CN111339928 B CN 111339928B CN 202010114683 A CN202010114683 A CN 202010114683A CN 111339928 B CN111339928 B CN 111339928B
- Authority
- CN
- China
- Prior art keywords
- eye
- image
- network model
- network
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Ophthalmology & Optometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请涉及一种眼神调节方法、装置及存储介质,属于图像处理技术领域,该方法包括:获取包括目标眼部图像的目标图像;获取眼神调节网络;基于目标眼部图像和眼神调节网络得到调节后的眼部图像,目标眼部图像的眼神角度相对于调节后的眼部图像中眼神角度的眼神角度之差为期望调节角度;可以解决通过改***件设备使得用户同时观看屏幕和摄像头,导致眼神矫正效率较低的问题;由于眼神调节网络可以基于期望调节角度生成编码图像、基于目标眼部图像和编码图像生成校正后的眼部图像,对校正后的眼部图像进行像素位置调节和颜色调节;因此可以实现基于眼神调节网络对眼部图像的眼神调节,无需改***件设备,可以提高眼神矫正效率。
Description
技术领域
本申请涉及一种眼神调节方法、装置及存储介质,属于图像处理技术领域。
背景技术
视频会议***(又称会议电视***)是指两个或两个以上不同地方的个人或群体,通过传输线路及多媒体设备,将声音、影像及文件资料互传,实现即时且互动的沟通,以实现远程会议的***。
现有的视频会议***,摄像头一般设置于显示屏的上方或下方位置。这样,用户在观看显示屏的同时,摄像头能够不受显示屏的阻挡,而拍摄到用户。但是摄像头位于显示屏的上方或者下方,而用户视线是直视显示屏,摄像机采集得到的眼部图像效果是眼神上扬或下撇的状态,另一端与会人员观看到的图像是不存在眼神交互的图像。
为了提高视频会议效果,通常需要对与会人员的眼神进行校正。在一种典型的校正方法中,通过使用专门的硬件设备使得用户同时观看屏幕和摄像头。
但是,专门的硬件设备需要对已有的视频会议***进行改造,眼神校正效率较低。
发明内容
本申请提供了一种眼神调节方法、装置及存储介质,可以解决通过改***件设备使得用户同时观看屏幕和摄像头,导致眼神矫正效率较低的问题。本申请提供如下技术方案:
第一方面,提供了一种眼神调节方法,所述方法包括:
获取包括目标眼部图像的目标图像;
获取眼神调节网络,所述眼神调节网络包括第一网络模型、与所述第一网络模型相连的第二网络模型、以及与所述第二网络模型相连的第三网络模型;所述第一网络模型用于基于输入的期望调节角度生成具有所述期望调节角度的编码图像,所述第二网络模型用于基于输入的图像和所述编码图像生成对输入的图像进行校正得到的校正后的眼部图像,所述第三网络模型用于对所述校正后的眼部图像进行像素位置调节和颜色调节;
基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,所述目标眼部图像的眼神角度相对于所述调节后的眼部图像中眼神角度的眼神角度之差为所述期望调节角度。
可选地,所述获取眼神调节网络之前,包括:
获取多个样本图像,所述多个样本图像包括具有各个眼神角度的图像;
获取损失函数;
使用所述多个样本图像和所述损失函数对预设网络模型进行训练,得到所述眼神调节网络。
可选地,所述使用所述多个样本图像和所述损失函数对预设网络模型进行训练,得到所述眼神调节网络,包括:
对每张样本图像进行眼部关键点检测,得到n个眼部关键点,所述n为正整数;
对于每张样本图像,基于对应的n个眼部关键点中每个眼部关键点的位置确定样本锚框,得到每个关键点对应的样本锚框;
将所述多张样本图像进行两两组合,并确定每组图像组合中眼神角度之差,得到训练集;所述训练集包括多组训练数据,每组训练数据包括基准样本图像、待调节样本图像、所述待调节样本图像对应的样本锚框以及所述待调节样本图像相对于所述基准样本图像的眼神角度之差;
将所述训练数据中的眼神角度之差、待调节样本图像、以及所述待调节样本图像对应的样本锚框输入所述预设网络模型,使用所述损失函数、所述训练数据中的基准样本图像对所述预设网络模型进行训练,得到所述眼神调节网络。
可选地,所述将所述训练数据中的眼神角度之差、待调节样本图像、以及所述待调节样本图像对应的样本锚框输入所述预设网络模型,包括:
将所述训练数据中的眼神角度之差输入所述预设网络模型中的第一网络模型;
将所述待调节样本图像、所述待调节样本图像对应的样本锚框和所述第一网络模型的输出结果输入所述预设网络模型中的第二网络模型;
将所述待调节样本图像和所述第二网络模型的输出结果输入所述预设网络模型中的第三网络模型。
可选地,所述损失函数包括第一损失函数、第二损失函数和第三损失函数;
所述第一损失函数用于使所述调节后的眼部图像与真实图像在像素级别的差异总和最小化;
所述第二损失函数用于使所述预设网络模型的模型输出结果的眼部结构与真实图像的眼部结构之间的差异最小化;
所述第三损失函数用于使所述预设网络模型的模型输出结果的眼部颜色与真实图像的眼部颜色之间的差异最小化。
可选地,所述第一网络模型为编码器,所述第二网络模型为校正网络,所述第三网络模型包括像素重定位分支模型和颜色调节分支模型;
其中,所述像素重定位分支模型包括预设激活函数和与所述预设激活函数相连的像素重定位模型,所述像素重定位分支模型用于对所述第二网络模型的输出结果进行收敛,以使所述输出结果中超出期望范围的局部像素收敛至所述期望范围内;所述颜色调节分支模型包括颜色调节网络模型、以及与所述颜色调节网络模型和所述像素重定位模型相连的颜色调节模型,所述颜色调节分支模型用于使用所述颜色调节网络模型的输出结果指示的颜色调节方式,对所述像素重定位模型的输出结果进行颜色调节。
可选地,所述基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,包括:
确定所述目标眼部图像的目标关键点;
基于所述目标关键点生成目标锚框;
获取所述目标眼部图像的期望调节角度;
将所述目标眼部图像、所述目标锚框和所述期望调节角度输入所述眼神调节网络,得到调节后的眼部图像。
可选地,所述第三网络模型包括像素重定位分支模型和颜色调节分支模型;所述将所述目标眼部图像、所述目标锚框和所述期望调节角度输入所述眼神调节网络,得到调节后的眼部图像,包括:
将所述期望调节角度输入所述第一网络模型,得到具有所述期望调节角度的编码图像;
将所述编码图像、所述目标眼部图像和所述目标锚框输入所述第二网络模型,得到所述校正后的眼部图像;
将所述目标眼部图像和所述校正后的眼部图像输入所述像素重定位分支模型,得到收敛后的眼部图像;
将所述收敛后的眼部图像和所述校正后的眼部图像输入所述颜色调节分支模型,得到所述调节后的眼部图像。
可选地,所述方法还包括:
将所述调节后的眼部图像与所述目标图像进行图像融合,得到融合后的图像。
第二方面,提供了一种眼神调节装置,所述装置包括:
图像获取模块,用于获取包括目标眼部图像的目标图像;
网络获取模块,用于获取眼神调节网络,所述眼神调节网络包括第一网络模型、与所述第一网络模型相连的第二网络模型、以及与所述第二网络模型相连的第三网络模型;所述第一网络模型用于基于输入的期望调节角度生成具有所述期望调节角度的编码图像,所述第二网络模型用于基于输入的图像和所述编码图像生成对输入的图像进行校正得到的校正后的眼部图像,所述第三网络模型用于对所述校正后的眼部图像进行像素位置调节和颜色调节;
眼神调节模块,用于基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,所述目标眼部图像的眼神角度相对于所述调节后的眼部图像中眼神角度的眼神角度之差为所述期望调节角度。
第三方面,提供一种眼神调节装置,所述装置包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现第一方面所述的眼神调节方法。
第四方面,提供一种计算机可读存储介质,所述存储介质中存储有程序,所述程序由所述处理器加载并执行以实现第一方面所述的眼神调节方法。
本申请的有益效果在于:通过获取包括目标眼部图像的目标图像;获取眼神调节网络;基于目标眼部图像和眼神调节网络得到调节后的眼部图像,目标眼部图像的眼神角度相对于调节后的眼部图像中眼神角度的眼神角度之差为期望调节角度;可以解决通过改***件设备使得用户同时观看屏幕和摄像头,导致眼神矫正效率较低的问题;由于眼神调节网络包括第一网络模型、与第一网络模型相连的第二网络模型、以及与第二网络模型相连的第三网络模型;第一网络模型可以基于期望调节角度生成编码图像,第二网络模型可以基于编码图像对输入的图像进行校正,第三网络模型可以对校正后的眼部图像进行像素位置调节和颜色调节;因此,基于该眼神调节网络实现对目标图像中眼部图像的眼神调节,无需改***件设备,可以提高眼神矫正效率。
另外,由于校正后的眼部图像可能存在眼部像素不在眼部轮廓内的情况,因此,通过设置第三网络模型进行像素位置调节,可以保证输出的调节后的眼部图像中的眼部像素均在眼部轮廓内,提高调节后的眼部图像的真实性。
另外,由于校正后的眼部图像可能存在眼部颜色与现实中的眼部颜色不符的情况,因此,通过设置第三网络模型进行颜色调节,可以保证输出的调节后的眼部图像的颜色更符合真实的眼部颜色,提高调节后的眼部图像的真实性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
图1是本申请一个实施例提供的眼神调节方法的流程图;
图2是本申请一个实施例提供的眼神调节网络的结构示意图;
图3是本申请一个实施例提供的眼神调节网络的训练方法的流程图;
图4是本申请一个实施例提供的眼神调节过程的示意图;
图5是本申请一个实施例提供的眼神调节装置的框图;
图6是本申请一个实施例提供的眼神调节装置的框图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
首先,对本申请涉及的若干名词进行介绍:
编码器(encoder):是自编码器(Autoencoder)的一部分。编码器是一种用于提取输入的数据的特征的神经网络。它支持从输入的数据中提取特征,并将这些特征放在一张图像上。构成编码器的网络模型可以是全连接神经网络模型、卷积神经网络模型等,本申请不对编码器的网络模型的类型作限定。
校正网络:用于对输入的图像进行单应变换,以校正目标。校正网络可以是级联形状回归(Cascaded Shape Regressor,CSR)网络等深度神经网络,本申请不对校正网络的网络模型类型作限定。
锚框:是指以图像的一个像素点为中心生成的多个大小和宽高比不同的边界框。
可选地,本申请以各个实施例的执行主体为电子设备为例进行说明,该电子设备可以是终端或者服务器等具有数据处理能力的设备,其中,终端可以是视频会议终端、手机、电脑等,本实施例不对终端的类型作限定。
图1是本申请一个实施例提供的眼神调节方法的流程图。该方法至少包括以下几个步骤:
步骤101,获取包括目标眼部图像的目标图像。
目标图像可以是视频中的一帧图像;或者,也可以是单张的图像。目标图像包括目标眼部图像,比如:人的眼部图像,当然也可以是动物的眼部图像,本实施例对眼部图像所属生物的类型不作限定。
步骤102,获取眼神调节网络,该眼神调节网络包括第一网络模型、与第一网络模型相连的第二网络模型、以及与第二网络模型相连的第三网络模型;第一网络模型用于基于输入的期望调节角度生成具有该期望调节角度的编码图像,第二网络模型用于基于输入的图像和编码图像生成对输入的图像进行校正得到的校正后的眼部图像,第三网络模型用于对校正后的眼部图像进行像素位置调节和颜色调节。
可选地,第一网络模型为编码器,第二网络模型为校正网络,第三网络模型包括像素重定位分支模型和颜色调节分支模型。其中,像素重定位分支模型包括预设激活函数和与预设激活函数相连的像素重定位模型,像素重定位分支模型用于对第二网络模型的输出结果进行收敛,以使输出结果中超出期望范围的局部像素收敛至期望范围内;颜色调节分支模型包括颜色调节网络模型、以及与颜色调节网络模型和像素重定位模型相连的颜色调节模型,颜色调节分支模型用于使用颜色调节网络模型的输出结果指示的颜色调节方式,对像素重定位模型的输出结果进行颜色调节。
其中,期望范围可以是眼部轮廓构成的范围,或者,眼部轮廓所包括的范围。
需要补充说明的是,上述网络模型仅是示意性地,在实际实现时只要可以实现第一网络模型的功能的模型均可以作为第一网络模型、实现第二网络模型的功能的模型均可以作为第二网络模型、实现第三网络模型的功能的模型均可以作为第三网络模型,本实施例不对第一网络模型、第二网络模型和第三网络模型的模型结构作限定。
可选地,预设激活函数用于将校正网络对眼部图像的像素调整范围收敛至指定范围。预设激活函数可以是Tanh函数,当然,也可以是其它类型的激活函数,本实施例不对预设激活函数的类型作限定。
参考图2所示的眼神调节网络20,第一网络模型201为编码器,该编码器的输入为期望调节角度,输出为编码图像。编码图像为具有该期望调节角度的图像。第二网络模型202为校正网络,该校正网络的输入为眼部图像、基于该眼部图像得到的锚框和编码图像,输出为校正后的眼部图像。第三网络模型203包括像素重定位分支模型2031和颜色调节分支模型2032。像素重定位分支模型2031包括预设激活函数和与预设激活函数相连的像素重定位模型。其中,预设激活函数的输入为校正网络输出的校正后的眼部图像,输出为像素收敛值;像素重定位模型的输入为眼部图像和像素收敛值,输出为按照像素收敛值进行收敛后的眼部图像。将收敛后的眼部图像和校正后的眼部图像输入颜色调节分支模型2032,得到调节后的眼部图像。具体地,颜色调节分支模型2032包括颜色调节网络模型、以及与颜色调节网络模型和像素重定位模型相连的颜色调节模型。其中,颜色调节网络的输入为校正后的眼部图像,输出为待进行颜色调节的像素位置和颜色调节方式。颜色调节模型的输入为收敛后的眼部图像、颜色调节的像素位置和颜色调节方式,输出为调节后的眼部图像。
可选地,获取眼神调节网络包括:调用预先训练的眼神调节网络。此时,在获取眼神调节网络之前还包括:获取多个样本图像,多个样本图像包括具有各个眼神角度的图像;获取损失函数;使用多个样本图像和损失函数对预设网络模型进行训练,得到眼神调节网络。
其中,参考图3,使用多个样本图像和损失函数对预设网络模型进行训练,得到眼神调节网络,至少包括一下步骤31-34:
步骤31,对每张样本图像进行眼部关键点检测,得到n个眼部关键点。n为正整数。
使用关键点检测算法获取样本图像中眼部关键点。可选地,关键点检测算法包括但不限于:可变形状模型(Active Shape Models,ASM)、主动外观模型(Active AppearanceModels,AAM)、级联姿势回归(Cascaded pose regression,CPR)等,本实施例对眼部关键点的检测算法不作限定。
眼部关键点的个数(n的取值)可以是6个、8个等,本实施例对眼部关键点的个数不作限定。
步骤32,对于每张样本图像,基于对应的n个眼部关键点中每个眼部关键点的位置确定样本锚框,得到每个关键点对应的样本锚框。
每个眼部关键点的位置通过像素坐标表示,比如:眼部关键点1的位置为(x1,y1)。电子设备中存储有锚框的偏移量,对于每个眼部关键点,电子设备基于该眼部关键点的像素坐标与偏移量之差确定样本锚框的位置。示意性地,锚框的偏移量包括相对于x轴的第一偏移量和相对于y轴的第二偏移量,此时,对于每个眼部关键点,将该眼部关键点的x轴像素坐标与第一偏移量相减,得到样本锚框;将该眼部关键点的y轴像素坐标与第二偏移量相减,得到该眼部关键点对应的样本锚框。
步骤33,将多张样本图像进行两两组合,并确定每组图像组合中眼神角度之差,得到训练集。
训练集包括多组训练数据,每组训练数据包括基准样本图像、待调节样本图像、待调节样本图像对应的样本锚框以及待调节样本图像相对于基准样本图像的眼神角度之差。
本申请中,眼神角度的计算方式包括:根据瞳孔位置计算视线角度。比如:电子设备中预先存储有各个瞳孔位置与眼神角度的映射关系,然后,根据眼部图像中瞳孔的位置确定对应的眼神角度;或者,使用大量眼部图像和对应的眼神角度对深度学习网络模型进行训练,得到眼神角度计算模型,使用该眼神角度计算模型来确定眼部图像中的眼神角度,本实施例不对眼神角度的计算方式作限定。
可选地,调节样本图像以及待调节样本图像相对于基准样本图像的眼神角度之差是指:以基准样本图像中的眼神角度为0°,待调节样本图像相对于基准样本图像的眼神角度为眼神角度之差;或者,在公共坐标系中,待调节样本图像的眼神角度减去基准样本图像的眼神角度的差值,当然,眼神角度之差的确定方式也可以是其它方式,本实施例在此不再一一列举。
以样本图像的数量为3张为例,得到的训练数据包括6组,分别如下:
第一组:样本图像1为待调节样本图像、样本图像2为基准样本图像、样本图像1对应的样本锚框、眼神角度之差为样本图像1相对于样本图像2的眼神角度1。
第二组:样本图像1为待调节样本图像、样本图像3为基准样本图像、样本图像1对应的样本锚框、眼神角度之差为样本图像1相对于样本图像3的眼神角度2。
第三组:样本图像2为待调节样本图像、样本图像1为基准样本图像、样本图像2对应的样本锚框、眼神角度之差为样本图像2相对于样本图像1的眼神角度3。
第四组:样本图像2为待调节样本图像、样本图像3为基准样本图像、样本图像2对应的样本锚框、眼神角度之差为样本图像2相对于样本图像3的眼神角度4。
第五组:样本图像3为待调节样本图像、样本图像1为基准样本图像、样本图像3对应的样本锚框、眼神角度之差为样本图像3相对于样本图像1的眼神角度5。
第六组:样本图像3为待调节样本图像、样本图像2为基准样本图像、样本图像3对应的样本锚框、眼神角度之差样本图像1对应的样本锚框、为样本图像3相对于样本图像2的眼神角度6。
步骤34,将训练数据中的眼神角度之差、待调节样本图像、以及待调节样本图像对应的样本锚框输入预设网络模型,使用损失函数、训练数据中的基准样本图像对预设网络模型进行训练,得到眼神调节网络。
预设网络模型的网络结构与眼神调节网络的网络结构相同,即预设网络模型也包括第一网络模型、第二网络模型和第三网络模型。
依据图2所示的眼神调节网络同理可知,将训练数据中的眼神角度之差、待调节样本图像、待调节样本图像对应的样本锚框输入预设网络模型,包括:将训练数据中的眼神角度之差输入预设网络模型中的第一网络模型;将待调节样本图像、待调节样本图像对应的样本锚框和第一网络模型的输出结果输入预设网络模型中的第二网络模型;将待调节样本图像和第二网络模型的输出结果输入预设网络模型中的第三网络模型。
具体地,将待调节样本图像和第二网络模型的输出结果输入第三网络模型中的像素重定位分支模型;将像素重定位分支模型的输出结果和第二网络模型的输出结果输入颜色调节分支模型中的颜色调节模型,得到颜色调节模型输出的训练结果。
可选地,损失函数包括第一损失函数、第二损失函数和第三损失函数。
第一损失函数用于使调节后的眼部图像与真实图像在像素级别的差异总和最小化。
以第一损失函数为L2损失函数为例,该L2损失函数通过下式表示:
其中,p’是训练结果I’中的像素,pt是真实图像It(基准样本图像)中的像素。
第二损失函数用于使预设网络模型的模型输出结果的眼部结构与真实图像的眼部结构之间的差异最小化。
当对眼部图像进行调节时,为了保持眼部的结构和形状,期望的眼球和眼睑的像素点移动方向为相同的方向。另外,由于巩膜几乎都是白色的,瞳孔和虹膜的颜色通常比巩膜要深,每个区域的形状可以根据像素的亮度来保存。换句话说,颜色深的像素表示虹膜和瞳孔,颜色浅的像素表示巩膜,并且巩膜的移动有更大的自由度。
基于上述特性,第二损失函数包括眼球损失函数losseb,通过下式表示:
其中,下标eb表示眼球,L(p)表示像素p所在的亮度,F(·)是训练得到的像素光流场。其中,光流场是指图像中所有像素点构成的一种二维瞬时速度场,其中的二维速度矢量是物体中可见点的三维速度矢量在成像表面的投影。
第二损失函数包括眼睑损失函数lossel,通过下式表示:
下标el表示眼睑,F(·)是训练结果指示的像素光流场。
第三损失函数用于使预设网络模型的模型输出结果的眼部颜色与真实图像的眼部颜色之间的差异最小化。
本实施例中,通过使用颜色调节网络模型来减少由眼睑遮挡虹膜造成的人为的视觉效果。但是,在训练预设网络模型的过程中,颜色调节网络模型为了最小化L2距离,会显著的改变像素的颜色。基于上述技术问题,通过增加第三损失函数来修正颜色损失。
第三损失函数包括第一损失函数项lossp和第二损失函数项losss。
第一损失函数项lossp通过下式表示:
C(·)是预定义的惩罚图,惩罚图的值是从眼睛中心位置开始递增,一直到眼睛区域的边界位置。B(p)表示每个像素的亮度场。β和γ是任意常数,β用于控制惩罚图的曲线,γ用于控制惩罚图的系数,β可以为3、γ可以为5,当然,β和γ也可以设置为其它数值,本实施例对此不作限定。
第二损失函数项losss通过下式表示:
总的损失函数losstot通过下式表示:
losstot=lossL2+losseb+lossel+lossp+losss
可选地,步骤102可以在步骤101之后执行;或者,也可以在步骤101之前执行;或者,还可以与步骤101同时执行,本实施例不对步骤101与102之间的执行顺序作限定。
步骤103,基于目标眼部图像和眼神调节网络得到调节后的眼部图像,目标眼部图像的眼神角度相对于调节后的眼部图像中眼神角度的眼神角度之差为期望调节角度。
其中,基于目标眼部图像和眼神调节网络得到调节后的眼部图像,包括:确定目标眼部图像的目标关键点;基于目标关键点生成目标锚框;获取目标眼部图像的期望调节角度;将目标眼部图像、目标锚框和期望调节角度输入眼神调节网络,得到调节后的眼部图像。
其中,确定目标眼部图像中目标关键点的过程与步骤31相同;基于目标关键点生成目标锚框的过程与步骤32相同,本实施例在此不再赘述。
可选地,期望调节角度可以是用户输入的;或者,也可以是电子设备根据目标图像的眼神角度与基准角度之间的差值计算得到的,本实施例不对期望调节角度的获取方式作限定。
基于图2所示的眼神调节网络可知,目标眼部图像和目标锚框输入第二网络模型、期望调节角度输入第一网络模型、目标眼部图像还会输入第三网络模型,得到调节后的眼部图像。
可选地,在本步骤之后,电子设备还会将调节后的眼部图像与目标图像进行图像融合,得到融合后的图像。示意性地,电子设备使用图像融合算法进行图像融合,该图像融合算法包括但不限于:像素级图像融合算法、特征级图像融合算法或者决策级图像融合算法,本实施例不对图像融合算法的类型作限定。
为了更清楚地理解本申请提供的眼神调节方法,下面对该眼神调节方法进行举一个实例进行说明,参考图4,获取到目标图像后,对目标图像进行人脸检测,得到目标眼部图像;对目标眼部图像进行关键点检测,得到目标关键点;基于该目标关键点生成目标锚框;计算期望调节角度;将目标眼部图像、目标锚框和期望调节角度输入眼神调节网络,得到调节后的眼部图像;将该调节后的眼部图像与目标图像融合,得到融合后的图像。
综上所述,本实施例提供的眼神调节方法,通过获取包括目标眼部图像的目标图像;获取眼神调节网络;基于目标眼部图像和眼神调节网络得到调节后的眼部图像,目标眼部图像的眼神角度相对于调节后的眼部图像中眼神角度的眼神角度之差为期望调节角度;可以解决通过改***件设备使得用户同时观看屏幕和摄像头,导致眼神矫正效率较低的问题;由于眼神调节网络包括第一网络模型、与第一网络模型相连的第二网络模型、以及与第二网络模型相连的第三网络模型;第一网络模型可以基于期望调节角度生成编码图像,第二网络模型可以基于编码图像对输入的图像进行校正,第三网络模型用于对校正后的眼部图像进行像素位置调节和颜色调节;因此,基于该眼神调节网络实现对目标图像中眼部图像的眼神调节,无需改***件设备,可以提高眼神矫正效率。
另外,由于校正后的眼部图像可能存在眼部像素不在眼部轮廓内的情况,因此,通过设置第三网络模型进行像素位置调节,可以保证输出的调节后的眼部图像中的眼部像素均在眼部轮廓内,提高调节后的眼部图像的真实性。
另外,由于校正后的眼部图像可能存在眼部颜色与现实中的眼部颜色不符的情况,因此,通过设置第三网络模型进行颜色调节,可以保证输出的调节后的眼部图像的颜色更符合真实的眼部颜色,提高调节后的眼部图像的真实性。
图5是本申请一个实施例提供的眼神调节装置的框图。该装置至少包括以下几个模块:图像获取模块510、网络获取模块520和眼神调节模块530。
图像获取模块510,用于获取包括目标眼部图像的目标图像;
网络获取模块520,用于获取眼神调节网络,所述眼神调节网络包括第一网络模型、与所述第一网络模型相连的第二网络模型、以及与所述第二网络模型相连的第三网络模型;所述第一网络模型用于基于输入的期望调节角度生成编码图像,所述第二网络模型用于基于输入的图像和所述编码图像生成具有所述期望调节角度的校正后的眼部图像,所述第三网络模型用于对所述校正后的眼部图像进行像素位置调节和颜色调节;
眼神调节模块530,用于基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,所述目标眼部图像的眼神角度相对于所述调节后的眼部图像中眼神角度的眼神角度之差为所述期望调节角度。
相关细节参考上述方法实施例。
需要说明的是:上述实施例中提供的眼神调节装置在进行眼神调节时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将眼神调节装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的眼神调节装置与眼神调节方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本申请一个实施例提供的眼神调节装置的框图。该装置至少包括处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如:4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的眼神调节方法。
在一些实施例中,眼神调节装置还可选包括有:***设备接口和至少一个***设备。处理器601、存储器602和***设备接口之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口相连。示意性地,***设备包括但不限于:射频电路、触摸显示屏、音频电路、和电源等。
当然,眼神调节装置还可以包括更少或更多的组件,本实施例对此不作限定。
可选地,本申请还提供有一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的眼神调节方法。
可选地,本申请还提供有一种计算机产品,该计算机产品包括计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的眼神调节方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种眼神调节方法,其特征在于,所述方法包括:
获取包括目标眼部图像的目标图像;
获取眼神调节网络,所述眼神调节网络包括第一网络模型、与所述第一网络模型相连的第二网络模型、以及与所述第二网络模型相连的第三网络模型;所述第一网络模型用于基于输入的期望调节角度生成具有所述期望调节角度的编码图像,所述第二网络模型用于基于输入的图像和所述编码图像生成对输入的图像进行校正得到的校正后的眼部图像,所述第三网络模型用于对所述校正后的眼部图像进行像素位置调节和颜色调节;
基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,所述目标眼部图像的眼神角度相对于所述调节后的眼部图像中眼神角度的眼神角度之差为所述期望调节角度;
所述获取眼神调节网络之前,包括:
获取多个样本图像,所述多个样本图像包括具有各个眼神角度的图像;
获取损失函数;
使用所述多个样本图像和所述损失函数对预设网络模型进行训练,得到所述眼神调节网络。
2.根据权利要求1所述的方法,其特征在于,所述使用所述多个样本图像和所述损失函数对预设网络模型进行训练,得到所述眼神调节网络,包括:
对每个样本图像进行眼部关键点检测,得到n个眼部关键点,所述n为正整数;
对于每个样本图像,基于对应的n个眼部关键点中每个眼部关键点的位置确定样本锚框,得到每个关键点对应的样本锚框;
将所述多个样本图像进行两两组合,并确定每组图像组合中眼神角度之差,得到训练集;所述训练集包括多组训练数据,每组训练数据包括基准样本图像、待调节样本图像、所述待调节样本图像对应的样本锚框以及所述待调节样本图像相对于所述基准样本图像的眼神角度之差;
将所述训练数据中的眼神角度之差、所述待调节样本图像、以及所述待调节样本图像对应的样本锚框输入所述预设网络模型,使用所述损失函数、所述训练数据中的基准样本图像对所述预设网络模型进行训练,得到所述眼神调节网络。
3.根据权利要求2所述的方法,其特征在于,所述将所述训练数据中的眼神角度之差、待调节样本图像、以及所述待调节样本图像对应的样本锚框输入所述预设网络模型,包括:
将所述训练数据中的眼神角度之差输入所述预设网络模型中的第一网络模型;
将所述待调节样本图像、所述待调节样本图像对应的样本锚框和所述第一网络模型的输出结果输入所述预设网络模型中的第二网络模型;
将所述待调节样本图像和所述第二网络模型的输出结果输入所述预设网络模型中的第三网络模型。
4.根据权利要求1所述的方法,其特征在于,所述损失函数包括第一损失函数、第二损失函数和第三损失函数;
所述第一损失函数用于使所述调节后的眼部图像与真实图像在像素级别的差异总和最小化;
所述第二损失函数用于使所述预设网络模型的模型输出结果的眼部结构与真实图像的眼部结构之间的差异最小化;
所述第三损失函数用于使所述预设网络模型的模型输出结果的眼部颜色与真实图像的眼部颜色之间的差异最小化。
5.根据权利要求1至4任一所述的方法,其特征在于,所述第一网络模型为编码器,所述第二网络模型为校正网络,所述第三网络模型包括像素重定位分支模型和颜色调节分支模型;
其中,所述像素重定位分支模型包括预设激活函数和与所述预设激活函数相连的像素重定位模型,所述像素重定位分支模型用于对所述第二网络模型的输出结果进行收敛,以使所述输出结果中超出期望范围的局部像素收敛至所述期望范围内;所述颜色调节分支模型包括颜色调节网络模型、以及与所述颜色调节网络模型和所述像素重定位模型相连的颜色调节模型,所述颜色调节分支模型用于使用所述颜色调节网络模型的输出结果指示的颜色调节方式,对所述像素重定位模型的输出结果进行颜色调节。
6.根据权利要求1至4任一所述的方法,其特征在于,所述基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,包括:
确定所述目标眼部图像的目标关键点;
基于所述目标关键点生成目标锚框;
获取所述目标眼部图像的期望调节角度;
将所述目标眼部图像、所述目标锚框和所述期望调节角度输入所述眼神调节网络,得到调节后的眼部图像。
7.根据权利要求6所述的方法,其特征在于,所述第三网络模型包括像素重定位分支模型和颜色调节分支模型;所述将所述目标眼部图像、所述目标锚框和所述期望调节角度输入所述眼神调节网络,得到调节后的眼部图像,包括:
将所述期望调节角度输入所述第一网络模型,得到具有所述期望调节角度的编码图像;
将所述编码图像、所述目标眼部图像和所述目标锚框输入所述第二网络模型,得到所述校正后的眼部图像;
将所述目标眼部图像和所述校正后的眼部图像输入所述像素重定位分支模型,得到收敛后的眼部图像;
将所述收敛后的眼部图像和所述校正后的眼部图像输入所述颜色调节分支模型,得到所述调节后的眼部图像。
8.一种眼神调节装置,其特征在于,所述装置包括:
图像获取模块,用于获取包括目标眼部图像的目标图像;
网络获取模块,用于获取眼神调节网络,所述眼神调节网络包括第一网络模型、与所述第一网络模型相连的第二网络模型、以及与所述第二网络模型相连的第三网络模型;所述第一网络模型用于基于输入的期望调节角度生成具有所述期望调节角度的编码图像,所述第二网络模型用于基于输入的图像和所述编码图像生成对输入的图像进行校正得到的校正后的眼部图像,所述第三网络模型用于对所述校正后的眼部图像进行像素位置调节和颜色调节;
眼神调节模块,用于基于所述目标眼部图像和所述眼神调节网络得到调节后的眼部图像,所述目标眼部图像的眼神角度相对于所述调节后的眼部图像中眼神角度的眼神角度之差为所述期望调节角度;
所述获取眼神调节网络之前,包括:
用于获取多个样本图像的模块,所述多个样本图像包括具有各个眼神角度的图像;
用于获取损失函数的模块;
用于使用所述多个样本图像和所述损失函数对预设网络模型进行训练,得到所述眼神调节网络的模块。
9.一种眼神调节装置,其特征在于,所述装置包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的眼神调节方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有程序,所述程序被处理器执行时用于实现如权利要求1至7任一项所述的眼神调节方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010114683.9A CN111339928B (zh) | 2020-02-25 | 2020-02-25 | 眼神调节方法、装置及存储介质 |
PCT/CN2020/121519 WO2021169325A1 (zh) | 2020-02-25 | 2020-10-16 | 眼神调节方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010114683.9A CN111339928B (zh) | 2020-02-25 | 2020-02-25 | 眼神调节方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339928A CN111339928A (zh) | 2020-06-26 |
CN111339928B true CN111339928B (zh) | 2022-06-28 |
Family
ID=71185564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010114683.9A Active CN111339928B (zh) | 2020-02-25 | 2020-02-25 | 眼神调节方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111339928B (zh) |
WO (1) | WO2021169325A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339928B (zh) * | 2020-02-25 | 2022-06-28 | 苏州科达科技股份有限公司 | 眼神调节方法、装置及存储介质 |
TWI792137B (zh) * | 2020-12-31 | 2023-02-11 | 瑞昱半導體股份有限公司 | 視線方向校正方法 |
CN112733797B (zh) * | 2021-01-22 | 2021-10-08 | 腾讯科技(深圳)有限公司 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
CN112733794B (zh) * | 2021-01-22 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
CN112733795B (zh) * | 2021-01-22 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
CN113362243B (zh) * | 2021-06-03 | 2024-06-11 | Oppo广东移动通信有限公司 | 模型训练方法、图像处理方法及装置、介质和电子设备 |
CN114049442A (zh) * | 2021-11-19 | 2022-02-15 | 北京航空航天大学 | 三维人脸视线计算方法 |
CN117094966B (zh) * | 2023-08-21 | 2024-04-05 | 青岛美迪康数字工程有限公司 | 基于图像扩增的舌图像识别方法、装置和计算机设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6806898B1 (en) * | 2000-03-20 | 2004-10-19 | Microsoft Corp. | System and method for automatically adjusting gaze and head orientation for video conferencing |
CN103838255A (zh) * | 2012-11-27 | 2014-06-04 | 英业达科技有限公司 | 显示装置的视线角度调整***及其方法 |
CN204168406U (zh) * | 2014-08-20 | 2015-02-18 | 深圳市融创天下科技有限公司 | 一种用于视频通话的视线校正装置 |
RU2596062C1 (ru) * | 2015-03-20 | 2016-08-27 | Автономная Некоммерческая Образовательная Организация Высшего Профессионального Образования "Сколковский Институт Науки И Технологий" | Способ коррекции изображения глаз с использованием машинного обучения и способ машинного обучения |
US9538130B1 (en) * | 2015-12-10 | 2017-01-03 | Dell Software, Inc. | Dynamic gaze correction for video conferencing |
US10423830B2 (en) * | 2016-04-22 | 2019-09-24 | Intel Corporation | Eye contact correction in real time using neural network based machine learning |
CN106569611A (zh) * | 2016-11-11 | 2017-04-19 | 努比亚技术有限公司 | 一种显示界面调整装置、方法及终端 |
TWI637288B (zh) * | 2017-10-11 | 2018-10-01 | 緯創資通股份有限公司 | 用於眼球視線校正的影像處理方法及其系統 |
CN109978804B (zh) * | 2019-03-08 | 2021-02-26 | 清华大学 | 基于深度学习的人眼视线矫正方法及*** |
CN111339928B (zh) * | 2020-02-25 | 2022-06-28 | 苏州科达科技股份有限公司 | 眼神调节方法、装置及存储介质 |
-
2020
- 2020-02-25 CN CN202010114683.9A patent/CN111339928B/zh active Active
- 2020-10-16 WO PCT/CN2020/121519 patent/WO2021169325A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2021169325A1 (zh) | 2021-09-02 |
CN111339928A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339928B (zh) | 眼神调节方法、装置及存储介质 | |
US11632537B2 (en) | Method and apparatus for obtaining binocular panoramic image, and storage medium | |
US9639914B2 (en) | Portrait deformation method and apparatus | |
CN108846793B (zh) | 基于图像风格转换模型的图像处理方法和终端设备 | |
US11238569B2 (en) | Image processing method and apparatus, image device, and storage medium | |
US11900557B2 (en) | Three-dimensional face model generation method and apparatus, device, and medium | |
US9635311B2 (en) | Image display apparatus and image processing device | |
US10082867B2 (en) | Display control method and display control apparatus | |
CN109272566A (zh) | 虚拟角色的动作表情编辑方法、装置、设备、***及介质 | |
WO2018137455A1 (zh) | 一种图像互动方法及互动装置 | |
CN106920274A (zh) | 移动端2d关键点快速转换为3d融合变形的人脸建模方法 | |
US20180374258A1 (en) | Image generating method, device and computer executable non-volatile storage medium | |
CN110838084A (zh) | 一种图像的风格转移方法、装置、电子设备及存储介质 | |
CN115272570A (zh) | 虚拟表情生成方法、装置、电子设备和存储介质 | |
CN111476151B (zh) | 眼球检测方法、装置、设备及存储介质 | |
CN111311733A (zh) | 三维模型处理方法及装置、处理器、电子设备及存储介质 | |
CN111028318A (zh) | 一种虚拟人脸合成方法、***、装置和存储介质 | |
CN111275648B (zh) | 人脸图像处理方法、装置、设备及计算机可读存储介质 | |
WO2023103813A1 (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
US20220207667A1 (en) | Gaze direction correction method | |
CN111462294B (zh) | 一种图像处理方法、电子设备及计算机可读存储介质 | |
US20220277586A1 (en) | Modeling method, device, and system for three-dimensional head model, and storage medium | |
CN113642364B (zh) | 人脸图像处理方法、装置、设备及计算机可读存储介质 | |
JP2017212720A (ja) | 画像処理装置、画像処理方法およびプログラム | |
CN116109479B (zh) | 虚拟形象的面部调整方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |