CN116830152A

CN116830152A - 用于检测和跟踪视频流中戴着一副眼镜的个体的面部的方法

Info

Publication number: CN116830152A
Application number: CN202280014243.3A
Authority: CN
Inventors: 阿里埃尔·库克鲁恩; 杰罗姆·盖纳尔
Original assignee: FITTINGBOX
Current assignee: FITTINGBOX
Priority date: 2021-01-13
Filing date: 2022-01-13
Publication date: 2023-09-29
Also published as: WO2022153009A1; FR3118821B1; CA3204647A1; EP4278324A1; FR3118821A1; JP2024503548A

Abstract

本发明涉及一种用于跟踪图像采集设备（130）采集的视频流中的个体（120）的面部（125）的方法，在该面部上戴着眼镜（110）。该跟踪方法包括以下步骤：评估包括这副眼镜的模型和面部的模型的面部表示的参数，使得面部表示叠置在视频流中的面部的图像上，结合面部表示中的多个特征点来评估这些参数，先前已经在被称为第一图像的视频流图像中检测到该多个特征点，其中，通过考虑了关于面部的模型中的至少一个点与该副眼镜的模型中的至少一个点之间的至少一个接近约束来评估上述表示的所有或一些参数。

Description

用于检测和跟踪视频流中戴着一副眼镜的个体的面部的方法

技术领域

本发明涉及图像分析领域。

更准确地说，本发明涉及一种用于检测和跟踪视频流中戴着一副眼镜的个体的面部的方法。

本发明特别适用于一副眼镜的虚拟试戴。本发明还适用于在戴着眼镜的面部上的增强现实或减弱现实，特别是在由个体戴的一副眼镜的图像处的遮蔽，结合或不结合镜片、珠宝和/或化妆品的添加。本发明还适用于在由个体实际上戴着或虚拟地戴着的一副眼镜上进行眼科测量(PD、单侧PD、高度等)。

背景技术

从现有技术中已知使得可以检测和跟踪视频流中个体的面部技术。

这些技术通常基于对面部的特征点(比如眼角、鼻子、或嘴角)的检测和跟踪。面部的检测质量通常取决于所使用的特征点的数量和位置。

这些技术对于检测和跟踪视频流中没有装饰品的个体面部通常是可靠的。

在提交本专利申请的公司以编号FR 2955409公布的法国专利和以编号WO 2016/135078公布的国际专利申请中特别地描述了这样的技术。

然而，因为在检测期间所使用的特征点中的一些特征点(通常是眼角)通常因装配在镜架中的镜片而变形或者甚至在镜片带色彩时被遮盖，所以当个体戴着一副包括矫正镜片的眼镜时，面部检测的质量有下降的趋势。此外，即使镜片不带色彩，也可能发生镜架遮盖检测中所使用的特征点中的一些特征点的情况。当特征点中的一些特征点不可见或这些特征点在图像中的位置失真时，由模型表示的所检测到的面部相对于真实面部通常在位置和/或取向上偏移，或者甚至偏移到错误的程度(scale)。

目前的***均没有同时响应所有要求，即提出一种用于跟踪戴着一副真实眼镜的面部以便提供改进的增强现实再现的技术，该技术对于个体的运动而言更精确且更稳定。

发明内容

本发明旨在改进现有技术的所有或一些上述缺点。

为此目的，本发明涉及一种用于跟踪图像采集设备采集的视频流中的个体的戴着一副眼镜的面部的方法，视频流包括多个相继采集的图像。

该跟踪方法包括以下步骤：评估包括这副眼镜的模型和面部的模型的面部表示的参数，使得所述面部表示叠置在视频流中的面部图像上。

根据本发明，在评估上述表示的所有或一些参数时，考虑面部的模型的至少一个点与这副眼镜的模型的至少一个点之间的至少一个接近约束。

举例来说，接近约束可以例如限定这副眼镜的镜腿搁置在耳朵的耳廓与上侧的颅骨之间的接合处，即，在耳轮处。

换句话说，接近约束被限定在面部的模型的区域与这副眼镜的模型的区域之间，该区域可以是一个点或点集，比如表面或脊部。

接近意味着零距离或小于预定阈值的距离，例如大约几毫米。

因此，在评估面部表示的参数期间使用接近约束使得可以通过有限数量的计算获得面部表示相对于相机的更准确可靠的姿态。因此，就个体相对于图像采集设备的意外运动而言，可以更稳定地实施对个体的实时跟踪。

此外，特别是与对未戴着眼镜的面部进行跟踪相比，这副眼镜的模型和面部的模型的联合使用使得可以改善面部的位置。这是因为，在前一种情况下，颞部的特征点的位置通常是不精确的。因为叠置在个体的颞部上的这副眼镜的镜腿使得可以获得关于在包括个体的颞部的图像区域中检测到的特征点的更精确的信息，所以跟踪这副眼镜使得可以提供对面部表示的姿态的更好估计。

优选地，上述表示的参数包括面部表示的外部值和面部表示的内部值，外部值包括面部表示相对于图像采集设备的三维位置和三维取向，内部值包括这副眼镜的模型相对于面部的模型的三维位置和三维取向，结合面部表示的多个特征点来评估这些参数，这些特征点是先前在被称为第一图像的视频流的图像中被检测到的或者在由多个图像采集设备同时采集的一组图像中被检测到的，这组图像包括所述第一图像。

换句话说，可以被称为化身的面部表示包括三维环境中的外部定位和取向参数、以及面部的模型与这副眼镜的模型之间的相对内部定位和取向参数。可以添加其它内部参数，比如这副眼镜的配置参数：镜架的类型、镜架的尺寸、材料等。当这副眼镜戴着在个体的面部上时，配置参数还可以包括与这副眼镜的镜架的变形以及特别是镜腿的变形相关的参数。这样的配置参数可以例如是镜腿相对于基准平面的打开或闭合的角度，基准平面例如为这副眼镜的镜面的主平面或切线平面。

面部表示包括面部的三维模型和这副眼镜的三维模型。

在本发明的具体实施例中，结合视频流的第二图像或由多个图像采集设备同时采集的第二组图像中被跟踪或被检测的所有或一些特征点的位置，更新上述表示的所有或一些参数，该第二组图像包括上述第二图像。

因此，该表示的参数的更新、特别是这副眼镜的模型与面部的模型之间的相对定位和取向值的更新、或者甚至配置参数的更新使得可以获得对个体的面部的更稳定且更精确的跟踪。

有利地，第二图像或第二组图像以不同于第一图像或第一组图像的角度呈现个体的面部视图。

在本发明的具体实施例中，在评估上述表示的所有或一些参数时，还考虑面部表示中所包括的模型中的一个模型的三维点与视频流的至少一个图像中所包括的至少一个点或水平线之间的至少一个接近约束。

在本发明的具体实施例中，在评估上述表示的所有或一些参数时，还考虑面部表示中所包括的模型中的一个模型的至少一个尺寸约束。

在本发明的具体实施例中，该方法包括将两个不同的点配对的步骤，这两个不同的点属于面部表示中所包括的两个模型中的一个模型，或者这两个不同的点各自属于面部表示中所包括的模型中的不同模型。

对两个点的配对具体地使得可以约束这两个点之间的距离关系，比如这两个点之间的接近度或已知尺寸。已知尺寸例如是面部的瞳孔间距、镜架的宽度、虹膜的特征尺寸或平均尺寸、或者根据一个或多个分布规律的围绕这些值中的一个值的已知平均值的这些值的任何组合。

在本发明的具体实施例中，该方法包括前一步骤：将面部表示中所包括的两个模型中的一个模型的点与图像采集设备采集的图像的至少一个点配对。

将模型的点与图像的点或点集(比如轮廓线)配对通常是自动实施的。

在本发明的具体实施例中，在对上述表示的所述参数进行评估期间，这副眼镜的模型与视频流中的这副眼镜的图像的对齐和面部的模型与视频流中的面部的图像的对齐连续地实施。

在本发明的具体实施例中，通过最小化在面部的图像中检测到的面部的特征点与投影在图像中的面部的模型的特征点之间的距离来实施面部的模型的对齐。

在本发明的特定实施例中，通过最小化图像中这副眼镜的轮廓的至少一部分与投影在所述图像中的这副眼镜的模型的类似轮廓部分之间的距离来施这副眼镜的模型的对齐。

事实上必须强调的是，这副眼镜的模型是3D模型。因此，在图像中实施此3D模型的投影是为了确定在通过图像中所检测到的这副眼镜的轮廓计算距离的最小值时所使用的相似轮廓。

在本发明的具体实施例，上述表示的参数还包括面部的模型的一组配置参数和/或这副眼镜的模型的一组配置参数。

面部的模型的配置参数或这副眼镜的模型的配置参数例如可以是分别表征面部的模型的形状和尺寸或这副眼镜的模型的形状和尺寸的形态学参数。配置参数还可以包括模型的变形特征，特别是在这副眼镜的背景下的变形特征，考虑镜腿的变形、或甚至考虑这副眼镜的面的变形、或者甚至考虑每个镜腿相对于这副眼镜的前部的打开/闭合的变形。

在面部模型的背景下，配置参数还可以包括眼睑或嘴的张开和闭合的参数、或者与由于表情引起的面部表面的变形相关的参数。

在本发明的具体实施例中，上述表示的参数包括以下列表中的全部或部分：

-面部表示的三维位置；

-面部表示的三维取向；

-这副眼镜的模型的尺寸；

-面部的模型的尺寸；

-这副眼镜的模型与面部的模型之间的相对三维位置；

-这副眼镜的模型与面部的模型之间的相对三维取向；

-这副眼镜的模型的配置的一个或多个参数；

-面部的模型的配置的一个或多个参数；

-相机的一个或多个参数。

在本发明的具体实施例中，跟踪方法包括以下步骤：

-检测视频流的第一图像中的所述面部的多个点；

-相对于第一初始图像中的面部的图像初始化面部的模型的参数组；

-在视频流的被称为第二初始图像的第二图像中检测个体的面部戴着的一副眼镜的多个点，第二初始图像在视频流中的第一初始图像之后或之前，或者与视频流中的第一图像相同；

-相对于第二初始图像中的这眼镜的图像初始化这副眼镜的模型的参数组。

在本发明的具体实施例中，通过分析所检测到的面部的点中所有或一些点的深度学习方法来实施面部的模型的参数的初始化。

在本发明的具体实施例中，深度学习方法还确定面部的模型在三维参考系中的初始位置。

在本发明的具体实施例中，跟踪方法还包括以下步骤：通过这副眼镜的已知尺寸的元素在图像中的尺寸来确定个体的面部戴着的这副眼镜的图像的比例。

在本发明的具体实施例中，通过事先识别个体的面部戴着的这副眼镜来确定该比例。

在本发明的具体实施例中，使用第二图像采集设备采集的图像来评估上述表示的参数。

在本发明的具体实施例中，上述表示的这副眼镜的模型对应于这副眼镜的先前建模并且仅在变形上不同。

这副眼镜的模型的形状和尺寸保持不变，这使得可以在较短的计算时间内获得更好的解析。

本发明还涉及一种增强现实方法，该方法包括以下步骤：

-通过至少一个图像采集设备采集面部上戴着一副眼镜的个体的至少一个图像流；

-通过根据前述实施例中任一个实施例的跟踪方法来跟踪个体的面部、面部表示的位置和取向；

-通过在主视频流上将面部的表示实时叠置在个体的面部上，修正由图像采集设备或图像采集设备中的被称为主图像采集设备的一个图像采集设备采集的图像流或图像流中的被称为主视频流的一个图像流的所有或一些图像；

-在屏幕上显示先前修正的主视频流。

必须强调的是，有利地是实时实施增强现实方法的步骤。

本发明还涉及一种电子设备，该电子设备包括计算机存储器，该计算机存储器存储根据前述实施例中任一个实施例的跟踪或增强现实方法的指令。

有利地，该电子设备包括能够处理所述方法的指令的处理器。

附图说明

本发明的其它优点、目的和具体特征将从以下参考附图对作为本发明目的的设备和方法的至少一个具体实施例的非限制性描述中变得明显，在附图中：

-图1是实施根据本发明的检测与跟踪方法的实施例的增强现实设备的示意图；

-图2是由图1的增强现实设备实施的检测与跟踪方法的框图；

-图3示出了一副眼镜的掩模的视图(分图a)和根据类别的掩模的轮廓点的分布(分图b和分图c)；

-图4是具有和不具有外部包络的一副眼镜的模型的面的立体图(分别为分图b和分图a)；

-图5借助于对图1的设备的图像采集设备所采集的图像的提取图示了图2的方法的回归步骤，在该图像上叠置了一副眼镜的模型；

-图6图示了一副眼镜的模型与面部的模型之间的定位约束；

-图7是一副眼镜的参数模型(3DMM)的立体图；

-图8是图7的参数模型的面的简化视图。

具体实施方式

下述描述是在非限制性的基础上给出的，有利地是实施例的每个特征能够与任何其他实施例的任何其他特征有利地组合。

应该指出的是，到目前为止，这些图未按比例绘制。

具体实施例的示例

图1示出了面部125上戴着一副眼镜110的个体120使用的增强现实设备100。这副眼镜110通常包括镜架111，镜架111包括前部112和在个体120的面部的两侧上延伸的两个镜腿113。此外，前部112特别地使得可以承载被放置在前部112中构造的两个镜圈115内部的镜片114。两个鼻托(图1中未示出)均被突出固定在不同镜圈115的边缘上，使得这两个鼻托可以搁置在个体120的鼻子121上。当这副眼镜110由个体120的面部戴着时，连接两个镜圈115的鼻梁117跨置在鼻子121上。

设备100包括主图像采集设备，在本示例中为相机130，该主图像采集设备采集形成实时显示在设备100的屏幕150上的视频流的多个相继图像。设备100中所包括的数据处理器140根据本发明所遵循的方法的指令实时处理由相机130采集的图像，这些图像存储在设备100的计算机存储器141中。

选择性地，设备100还可以包括至少一个辅助图像采集设备，在本示例中为至少一个辅助相机160，该至少一个辅助图像采集设备可以相对于相机130类似地或不同地定向，使得可以采集个体120的面部125的第二图像流。在本示例中，必须强调的是，辅助相机160或每个辅助相机相对于相机130的位置和相对取向通常有利地是已知的。

图2以框图的形式图示了用于在由相机130采集的视频流中跟踪个体120的面部的方法200。

首先，必须强调的是，跟踪方法200通常在视频流的(通常是相继的)图像上以循环的方式实施。对于每个图像，特别是针对所使用的算法的收敛，可以实施每个步骤的若干迭代。

方法200包括第一步骤210，即，检测视频流的图像(被称为初始图像)中戴着一副眼镜110的个体120的面部的存在。

这种检测可以通过以下几种方式实施：

-或者使用先前在包括戴着一副眼镜的面部的图像的数据库上训练的深度学习算法从戴着一副眼镜的面部的学习库中进行，该深度学习算法也被称为英语术语“deeplearning(深度学习)”；

-或者通过使用戴着一副眼镜的面部的三维模型，试图通过确定该三维模型相对于相机130在取向和维度上的姿态来使该三维模型与初始图像中的面部的图像相对应。面部的模型与初始图像中的面部图像之间的匹配可以特别地借助于在戴着一副眼镜的面部的模型的初始图像上的投影来实现。必须强调的是，即使面部的一部分或这副眼镜的一部分隐藏在图像中，也可以进行这种匹配，例如当面部相对于相机转动时或者当元素(比如一副眼镜或头发)开始叠置在面部上时或者当元素(比如头发)开始叠置在这副眼镜上时就是这种情况。

替代性地，在初始图像中检测戴着一副眼镜110的个体120的面部的步骤210可以通过首先检测两个元素中的一个元素(例如面部)，然后其次检测另一个元素(即此处为一副眼镜)来实施。例如，通过检测图像中面部的特征点来检测面部。这样的用于检测面部的方法是本领域技术人员已知的。可以例如通过先前在优选地由面部戴着的一副眼镜的图像的数据库上训练的深度学习算法来检测这副眼镜，该深度学习算法也被称为英语术语“deep learning(深度学习)”。

必须强调的是，对于视频流的多个图像，检测步骤210可以仅实施一次。

如图3所示，该学习算法使得特别地可以针对所采集的图像中的每个图像计算这副眼镜的二进制掩模350。

掩模的轮廓点(表示为p2D)均与至少一个类别相关联，该至少一个类别是比如：

-掩模的外部轮廓360；

-掩模的内部轮廓370，通常对应于镜片的轮廓；

-掩模顶部的轮廓380；

-掩模底部的轮廓390。

替代性地，使用图像中所检测到的这副眼镜的特征点与掩模的轮廓点之间的稳定(即在两次连续迭代之间变化极小)距离来计算掩模的轮廓点p2D。

在已经检测到戴着这副眼镜110的个体120的面部之后，方法200包括第二步骤220，即，将个体的面部表示(在下文中被称为“化身”)与初始图像中的个体120的面部图像对齐。此处的化身有利地包括两个参数模型，一个参数模型对应于没有戴着一副眼镜的面部的模型，并且另一个参数模型对应于一副眼镜的模型。必须强调的是，参数模型通常放置在虚拟空间中，该虚拟空间的参考系的原点对应于相机130。因此，将谈到相机的参考系。

这两个参数模型的联合使用使得可以提高回归的性能并获得对个体的面部的模型相对于相机的位置的更好估计。

此外，化身的两个参数模型在此有利地通过相对取向和定位参数联系在一起。最初，相对取向和定位参数对应于例如这副眼镜的参数模型相对于面部的参数模型的标准姿势，即，使得镜架搁置在鼻子上、面对个体的眼睛，并且镜腿沿着个体的颞部延伸、抵靠在个体的耳朵上。例如，通过自然地定位在个体的面部上的一副眼镜的平均定位来计算这个标准姿势。必须强调的是，可以根据个体将这副眼镜或多或少地在鼻子上向前移动。

在本发明的本非限制性示例中，这副眼镜的参数模型是包括三维镜架的模型，该三维镜架的包络至少在截面上包括非零厚度。有利地，在镜架的截面的每个部分中，厚度是非零的。

图4以两个视图呈现了这副眼镜的参数模型的面300。表示为4a的第一视图对应于没有外部包络的面300的框架的视图。表示为4b的第二视图对应于同一视图但是有外部包络320。如图所示，这副眼镜的参数模型可以由一系列轮廓330表示，该一系列轮廓的截面均垂直于这副眼镜的镜架的芯部340。轮廓330因此形成外部包络320的框架。这个参数模型是具有厚度的3D形式。

必须强调的是，这副眼镜的参数模型可以有利地包括预定数量的带编号的区段，使得对于一副眼镜的两个不同模型，围绕镜架的区段的位置是相同的。因此，在两个不同的模型中，与诸如镜圈的底点、镜圈的顶点、镜圈与鼻梁之间的接合点、或者镜圈与承载铰链以及镜腿的榫部之间的接合点等镜架的点相对应的区段具有相同的编号。因此，更容易使这副眼镜的模型适应于镜架尺寸的标注。这些标注通常被称为英文术语“frame marking(镜架标记)”，其定义镜片的宽度、鼻梁的宽度或镜腿的长度。因此，这种信息可以用于定义两个点之间的约束(例如对应于根据这两个点在镜架上的位置而选择的两个区段的中心或边缘)。因此，这副眼镜的模型可以在符合尺寸约束的同时被修改。

下面在标题为“Example of a parametric model of a pair of spectacles(一副眼镜的参数模型的示例)”的部分中更详细地介绍了本方法所使用的这副眼镜的参数模型的示例。

在本发明的替代性实施例中，这副眼镜的参数模型包括零厚度的三维镜架。因此，这是没有厚度的3D形式的模型。

用于定义这副眼镜的形态和尺寸的所有参数均称为配置参数。

必须强调的是，参数模型的镜架的初始形式可以有利地对应于先前通过例如以编号FR 2955409公布的法国专利或以编号WO 2013/139814公布的国际专利申请中描述的方法建模的这副眼镜的镜架的形式。

这副眼镜的参数模型也可以有利地例如在镜腿处或在前部处变形，镜腿或前部通常由能够弹性变形的材料形成。变形参数包括在这副眼镜的模型的配置参数中。在这副眼镜的模型已知的情况下，通过例如对这副眼镜110的先前建模，这副眼镜的模型可以有利地在解析期间在尺寸和形状上保持不变。因此，只计算这副眼镜的模型的变形。减少了要计算的参数的数量，缩短了计算时间，获得了令人满意的结果。

为了将面部表示的两个参数模型相对于这副眼镜的图像以及初始图像中的面部的图像对齐，在第二步骤220期间实施参数模型的点的回归，使得参数模型在形式、尺寸、位置和取向上分别与由个体120戴着的这副眼镜110以及个体120的面部相对应。

因此，在本发明的本示例中，通过回归处理的化身的参数是非限制性的：

-化身的三维位置，即，集合{这副眼镜的模型、面部的模型}的三维位置；

-化身的三维取向；

-这副眼镜的模型的尺寸；

-面部的模型的尺寸；

-这副眼镜的模型与面部的模型之间的相对三维位置；

-这副眼镜的模型与面部的模型之间的相对三维取向；

-选择性地，这副眼镜的模型的配置参数；

-选择性地，面部的模型的配置参数，比如用于定义构成面部(比如特别是鼻子、嘴、眼睛、颞部、面部颊等)的各种元素的形状、尺寸和位置的形态学参数。配置参数还可以包括眼睑的或嘴的张开和闭合的参数，和/或与由于表情引起的面部表面的变形相关的参数；

-选择性地，相机的参数，比如焦距或度量校准参数。

替代性地，回归只处理上面列出的化身的一些参数。

当这副眼镜的模型的3D几何形状已知时，例如当识别出由个体120戴着的这副眼镜110时，可以有利地计算相机的参数。调整相机的参数有助于获得对化身的参数的更好估计并因此更好地跟踪图像中的面部。

回归在此有利地分两个阶段实施。首先，利用在初始图像上检测到的特征点实施对面部的模型的特征点的最小化，从而获得化身在相机参考系中的估计位置。

其次，通过实施这副眼镜的模型的轮廓点相对于在视频流的初始图像上可见的这副眼镜的回归来细化化身的参数。在回归期间考虑的这副眼镜的模型的轮廓点通常来自这副眼镜的镜架。

为此目的，如图5所示，这副眼镜的模型420的轮廓的所考虑的点410是其法线430垂直于对应点410与相机之间的轴线的那些点。初始图像上的这副眼镜的轮廓的点与这副眼镜的模型的轮廓的所考虑的每个点410相关联，从而例如在给定的色谱中(比如在灰度级中)沿着法线430寻找具有最高梯度的点440。还可以借助于先前在由面部优先佩戴的分割的这副眼镜图像上训练的深度学习方法来确定这副眼镜的轮廓，该深度学习算法也被称为英语术语“deep learning(深度学习)”。通过最小化初始图像上模型的轮廓点与这副眼镜的轮廓点之间的位置，因此可以细化相机参考系中化身的参数。

必须强调的是，为了清楚起见，在图5上仅示出了五个点410。回归所使用的点数通常要高得多。点410由图4上的圆圈表示，点440对应于沿着法线430滑动的三角形的顶点。

这副眼镜的模型的轮廓点与图像中这副眼镜110的轮廓点的关联对应于这副眼镜的模型的3D点与图像的2D点的配对。必须强调的是，因为图像中的对应点从一个图像到另一个图像可能已经滑动，所以在每次迭代时或甚至在每个图像处优先评估该配对。

此外，图像中轮廓点的一个或多个类别有利地是已知的，通过对具有相同类别的点进行配对，可以更有效地实施这个点与这副眼镜的模型的3D点的配对。事实上，必须强调的是，这副眼镜的模型的点也可以根据与图像中这副眼镜的掩模轮廓的点相同的类别来分类。

为了改进围绕这副眼镜的模型的定位的回归，区段的轮廓有利地与这副眼镜的模型的轮廓的所考虑的大多数点相关联。与点相关联的区段通常对应于包括这个点的镜架边缘。每个区段由包括预定数量的脊部的多边形定义。因此，在回归期间，通过更精确来改进法线的计算，这使得能够更好地估计这副眼镜的模型相对于图像的姿态。这种改进特别适用于使用具有厚度的3D形式的这副眼镜的参数模型的情况。

还必须强调，在回归期间，有利地考虑面部的模型与这副眼镜的模型之间的定位约束，以便减少计算时间同时提供更好的姿态质量。这些约束指示例如面部的模型的一部分与这副眼镜的模型的一部分之间的点的冲突。这些约束例如表示这样的事实，即，这副眼镜的镜圈通过或不通过鼻托搁置在鼻子上并且镜腿搁置在耳朵上。通常，面部的模型与这副眼镜的模型之间的定位约束使得可以用单个参数，例如，这副眼镜在个体的鼻子上的位置，来参数化这副眼镜在面部上的定位。在鼻子上的两个位置之间，这副眼镜在对应于鼻子的脊部的3D曲线上平移或者甚至在垂直于这个对称中平面(midplane)的轴线上旋转。在两个接近的点之间的局部，可以认为这副眼镜在3D曲线上的平移遵循鼻子的局部对称平面。

换句话说，约束由面部的模型的点与这副眼镜的模型的点的配对来表示。必须强调的是，两个点之间的配对可以是局部类型的，即仅涉及一种类型的坐标，例如仅涉及x轴，以便使两个模型中的一个模型相对于另一个模型沿着另外两个轴线自由平移。

此外，包括在化身中的两个参数模型中的每一个参数模型(即，面部的参数模型和这副眼镜的参数模型)也可以有利地是关于已知尺寸的约束，例如关于先前为面部测量的瞳孔间距或先前识别的镜架的特征尺寸的约束。因此，可以实施同一模型的两个点之间的配对从而在已知维度上约束这两个点之间的距离。

关于该算法的更多数学细节，可以参考下面标题为“Details of the methodimplemented(所实施的方法的细节)”部分中的介绍。

必须强调的是，当至少一个辅助相机可用时，戴着这副眼镜的个体的面部的若干视图可用，这使得可以改进化身的参数的回归计算。这是因为以不同的角度采集不同视图，因此使得可以通过显示隐藏在由主相机采集的图像上的部分来提高对个体面部的认识。

图6图示了这副眼镜的参数模型610在化身面部的参数模型620上的位置，该位置在分图a中的立体图中是可见的。图6的分图e图示了所使用的参考系。这副眼镜的参数模型610的运动在此根据镜腿630在耳朵640上的运动来参数化，上述运动对应于沿着z轴的平移(图6的分图c)。沿着对应的y轴的平移在图6的分图b上是可见的。在图6的分图d中图示了围绕x轴的旋转。

还可以在面部的模型的某些部分与这副眼镜的模型的某些部分之间添加不冲突的约束，以便避免这副眼镜的模型在面部的模型上的定位错误，例如镜腿位于个体的眼睛中等。

本发明克服的一个困难是对初始图像中的这副眼镜的隐藏部分的管理，初始图像中的这副眼镜的隐藏部分可能导致这副眼镜的参数模型的回归误差，特别是关于参数模型相对于由个体120实际戴着的这副眼镜110的位置和取向的误差。这些隐藏部分通常对应于被个体的面部遮盖的镜架部分(例如，当将面部相对于相机转动以便看到面部的轮廓时)或者直接被这副眼镜遮盖的镜架部分(例如，被有色镜片遮盖的镜架部分)。还必须强调的是，无论个体120的面部的取向如何，放置在每个耳朵上的镜腿部分通常被个体120的耳朵和/或头发遮住。

这些隐藏部分可以例如在检测期间通过考虑镜架的分割模型和/或这些隐藏部分的轮廓点来估计。还可以通过计算这副眼镜的参数模型相对于个体120的面部的估计位置的姿态来估计一副眼镜的隐藏部分。在此使用的参数模型可以与用于化身的参数模型相同。

将这副眼镜的参数模型对齐还使得可以识别由个体120实际戴着的这副眼镜110的模型。这是因为点的回归使得可以获得这副眼镜110的至少一部分的近似3D轮廓。接下来将这个近似轮廓与先前建模的、记录在数据库中的这副眼镜的轮廓进行比较。还可以将该轮廓中所包括的图像与记录在数据库中的这副眼镜的外观进行比较，以便更好地识别个体120戴着的这副眼镜110的模型。事实上，必须强调的是，存储在数据库中的这副眼镜的模型通常是在纹理和材料方面建模的。

可以将这副眼镜的参数模型变形和/或铰接，以便最好地对应于个体120戴着的这副眼镜110。通常，这副眼镜的模型的镜腿最初在这些镜腿之间形成大约5°角度。该角度可以通过根据镜架的形式和用于镜腿的材料的刚性或者甚至还根据用于这副眼镜的镜架的前部的材料的刚性对这副眼镜的变形进行建模来调节，镜架的前部的材料可以不同于镜腿的材料。参数化方法可以用于对这副眼镜的参数模型的变形进行建模。

在图2所示的方法200的第三步骤230期间，继所述初始图像之后的图像上实施对视频流中的面部和/或这副眼镜的实时跟踪。

实时跟踪可以例如基于例如使用光流方法对视频流的相继图像中的特征点的跟踪。

特别地，由于对视频流的图像的参数的更新通常是结合在先前图像处计算的对齐参数来实施的，所以可以实时地实施这种跟踪。

为了提高跟踪的稳定性，在化身相对于个体面部的姿态被认为是令人满意的情况下，对的关键图像(通常称为英文术语“关键帧”)的使用可以用于对呈现以与关键图像中的面部相似的方式定向的面部的视图的图像提供约束。换句话说，视频流的图像选择的关键图像(也可以被称为参考图像)通常对应于选择的图像中的一个图像，其中与化身相对于个体图像的姿势相关联的分数是最高的。例如，以编号WO 2016/135078公布的国际专利申请中详细描述了这样的跟踪。

必须强调的是，对关键图像的选择可以动态地进行，并且对图像的选择可以对应于视频流的连续序列。

此外，跟踪可以有利地使用多个关键图像，该多个关键图像各自对应于个体面部的不同取向。

还必须强调的是，因为更好、更稳定的结果基于更大数量的特征点，所以对面部和这副眼镜的联合跟踪使得可以获得更好、更稳定的结果。此外，面部和这副眼镜的参数模型的相对定位约束通常在跟踪期间使用，这使得可以实时获得个体头部的更精确的跟踪，从而获得化身的更好姿态。

此外，因为这副眼镜包括能够在图像中清楚识别的界标，比如镜腿的脊部、面的脊部、或镜架前部的镜圈，所以对作为制造物的这副眼镜的跟踪通常比单独跟踪面部更精确。

必须强调的是，在不使用这副眼镜的参数模型的情况下，对这副眼镜的跟踪将不太稳定并且将需要对每个图像进行大量计算。因此，考虑到当前可用的计算能力，这样的跟踪更难以实时实施。然而，由于处理器功率的定期增加，当处理器的功率足以用于这样的应用时，可以设想在不使用这副眼镜的参数模型的情况下进行跟踪。

还必须强调的是，可以仅仅基于这副眼镜的参数模型来实施对个体的跟踪。针对每个图像实施这副眼镜的模型相对于相机的姿态的优化，即，这副眼镜的模型相对于图像的对齐。

接下来，在步骤235期间，伴随着跟踪步骤230，针对相机130采集的视频流的每个新的图像，实施面部的参数模型和这副眼镜的参数模型与图像的对齐参数的更新。

替代性地，在每个关键图像处实施面部和这副眼镜的参数模型的对齐参数的更新。

对齐参数的这种更新还可以包括这副眼镜的参数模型在面部的参数模型上的姿态参数，以便改进对个体的面部相对于相机的定位的估计。特别地，当个体的面部相对于相机不同地定向时，可以实施这种更新，从而提供个体的面部的另一视角。

参数模型的细化可以在方法200的第四步骤240期间通过分析在跟踪期间使用的参考关键图像来实施。这种细化使得例如可以利用先前未捕获的这副眼镜110的细节来完成这副眼镜的参数模型。这些细节例如是特定于这副眼镜的浮雕、孔或绢印。

对关键图像的分析通过簇调整(也被称为英文术语“bundle adjustment(束调整)”)方法来完成，这使得可以细化描述场景中的对象(比如这副眼镜或面部)的几何模型的3D坐标。“束调整”方法基于观察点与模型点之间的重投影误差的最小化。

因此，可以获得更符合戴着这副眼镜的个体的面部的参数模型。

通过“束调整”方法进行的分析在此使用面部的特征点和眼镜的点，在关键图像中可以更精确地识别这些点。这些点可以是面部轮廓的点或眼镜的点。

必须强调的是，一般地说，“束调整”方法处理由一系列可以在两张图像之间移动的3D点定义的场景。“束调整”方法使得可以同时求解给定参考系(例如场景的参考系)中场景的每个3D点的三维位置、场景相对于相机的相对运动的参数、以及采集图像的一个或多个相机的光学参数。

借助于光流方法计算的滑动点，例如与面部或眼镜轮廓的点相关的滑动点，也可以通过“束调整”方法使用。然而，在视频流中通常连续的两个不同图像之间或两个关键图像之间计算光流，在来自光流的点的“束调整”方法期间获得的矩阵通常是中空的。为了补偿这种信息的缺乏，可以通过“束调整”方法有利地使用眼镜轮廓的点。

必须强调的是，对于新的关键图像，可以获得使得可以改进面部的参数模型或这副眼镜的参数模型的新信息。此外，可以在这个新的关键图像中实施对戴着这副眼镜的面部的新检测，比如在步骤210中描述的检测，以便补充或替换由“束调整”方法使用的点。具有较高权重的解析约束可以与检测到的新的点相关联，以便确保参数模型的细化更接近视频流的当前图像。

眼镜轮廓的滑动点可以在眼镜轮廓的水平线上与这副眼镜的3D模型配对，对应于这副眼镜的模型的法线为90度的所有点。

在本发明的实施例的示例中，关键图像对应于当戴着这副眼镜110的个体120的面部朝前时的图像、和/或对应于个体120的面部相对于头部的自然位置向左或向右转动相对于矢状面大约15度的角度的图像。对于这些关键图像，面部125的新部分以及这副眼镜110的新部分是可见的。因此，可以更精确地确定面部的模型的参数和这副眼镜的模型的参数。关键图像的数量可以任意地固定在位于3个到5个图像之间的数量，以便在为了建立对应模型而学习面部125和这副眼镜110中获得令人满意的结果。

在方法200的步骤250中，还可以引入个体120戴着的这副眼镜110的尺寸，特别是以便获得场景的度量以及特别是以便定义用于确定个体面部的光学测量的范围，比如瞳孔间距或虹膜的尺寸，其可以被定义为平均尺寸。

这副眼镜110的尺寸可以相对于先前定义的这副眼镜列表以统计方式定义或者对应于这副眼镜110的实际尺寸。

可以提供用于向方法200指示哪一个是在这副眼镜110中指示的“镜架标记”的接口。替代性地，图像上的自动读取可以通过用于识别“镜架标记”的字符并且自动获得相关联的值的方法200来完成。

必须强调的是，当“镜架标记”已知时，这副眼镜110的参数模型可以有利地是已知的，特别是如果对这副眼镜110预先建模的话。

当没有关于这副眼镜的尺寸信息可用时，例如当“镜架标记”未知时，最初使用的这副眼镜的参数模型是包括正常由个体使用的这副眼镜的统计平均值的标准参数模型。这个统计性框架使得可以获得令人满意的结果，接近于由个体120实际戴着的这副眼镜110的模型，每个新图像改进这副眼镜的模型的参数。

在方法200期间还可以使用深度相机，以便细化面部的形状和位置。

必须强调的是，深度相机是深度传感器的类型，其通常被称为英文术语“depthsensor(深度传感器)”。此外，特别是因为由镜片和/或这副眼镜前部的材料引入的折射、透射和/或反射问题，因此通常使用红外光发射操作的深度传感器不足以精确地采集个体120戴着的这副眼镜110的轮廓。在一些情况下，光条件(比如在相机的视野中存在强光源)由于引入阻止任何可靠测量的高噪声而阻碍红外深度相机的正确操作。然而，可以在面部的可见部分上使用深度测量，以便保证面部的可见表面上的深度测量、面部的模型或者甚至还有这副眼镜的模型的尺寸和形式的度量和更好的估计。

假设通过前述方法200跟踪个体120的面部或者至少仅跟踪这副眼镜110的面部，则可以通过特别是参考以编号WO 2018/002533公布的国际专利申请中描述的技术来实施视频流中个体120戴着的这副眼镜110的删除。还可以实施一副新的眼镜的虚拟试戴。

必须强调的是，跟踪方法200更有效，因为通过本跟踪方法更精确地确定这副眼镜相对于相机的位置，所以更真实地实现通过遮蔽所戴着的这副眼镜来删除图像中的这副眼镜。

凭借在此描述的跟踪方法，例如通过改变镜片的颜色或阴影、添加诸如绢印等元素，还可以修改个体戴着的这副眼镜的全部或一部分。

因此，跟踪方法200可以包括于增强现实方法中。

必须强调的是，跟踪方法200也可以用于测量光学参数的方法中，比如以编号WO2019/020521公布的国际专利申请中描述的方法。通过使用跟踪方法200，对光学参数的测量可以更加精确，这是因为这副眼镜的参数模型以及面部的参数模型在同一个参考系中被联合地解析，现有技术中不是这种情况，在现有技术中，每个模型被独立优化而不考虑这副眼镜的模型与面部的模型的相对定位约束。

所使用的方法的细节

本部分中提出的算法对应于作为先前详述的示例的对象的跟踪方法的一部分的通用实施。该部分特别地对应于关于在至少一个图像流中检测到的点的面部的模型和这副眼镜的模型的参数(特别是姿势和配置/形态)的解析(上述步骤220)及其更新(上述步骤235)。必须强调的是，这两个步骤一般是基于约束下求解的同一方程。在这个部分期间，还可以解析面部的模型的形态模式和这副眼镜的模型的形态模式。

同时解析面部的模型和这副眼镜的模型的优点是在面部的模型与这副眼镜的模型之间提供新的碰撞约束或接近约束。这是因为因此首先确保两个网(各自对应于不同的模型)不彼此互穿，而且在两个网之间，特别是在个体的耳朵和鼻子处，至少有碰撞或接近的点。必须强调的是，解析面部的模型的姿势的主要问题中的一个对应于颞部处的点的定位，颞部的位置很少由正常使用的点检测器精确确定。因此，使用眼镜的镜腿是有利的，眼镜的镜腿通常在图像中更明显并且在物理上靠着颞部。

必须强调的是，因为所使用的两个模型是参数模型并且因此是易变形的，所以很难在最小限度内建立碰撞算法。因为这两个模型在每次迭代时都会变形，所以接触点在迭代之间可以是不同的。

在本发明的本非限制性示例中，考虑n校准的相机，这些校准的相机各自采集p视图，即p图像。必须强调的是，每个相机的固有参数及其相对位置是已知的。然而，对于视图中的每个视图，要确定面部的位置和取向。所使用的面部的3D参数模型(表示为M_f)是由3D点p3D构成的网，这些3D点能够通过v参数(表示为α_k,k＝1..v)线性地变形。因此，以线性组合的形式来写入这个网的每个3D点

[数学式1]

其中m3D_j表示模型的第j个平均点，并且表示模型的第k个模式的第j个向量。索引_f被添加到m3D_j，p3D和/>表示所使用的模型是面部的模型。对于表示为M_g的这副眼镜的模型，可以写入类似的方程：

[数学式2]

其中β_k,k＝1...μ对应于这副眼镜的参数模型M_g的μ参数。

对于p采集中的每次采集，最初在被称为世界参考系的三维参考系中替换3D面部。世界参考系可以例如对应于相机的参考系或者对应于两个模型中的一个的参考系。面部的模型的位置和取向最初是未知的并且因此在最小化期间被寻找，该最小化对应于面部的模型的点与图像中检测到的特征点的回归阶段。

在实施这种回归之前，将这副眼镜的模型M_g定位在面部的模型M_f上。为此目的，在考虑3D旋转矩阵R_g和平移向量T_g的同时，可以将这副眼镜的模型的点p3D_g写入面部的参考系中。

[数学式3]

回归接下来产生在相机中的一个相机的视图l的参考系中的参考系(此处对应于世界参考系)中的面部的模型在取向和平移上的姿势。

[数学式4]

其中R表示3D旋转矩阵，T表示平移向量，并且l表示相机视图。

在该方法期间使用的图像i中的模型p3D的投影函数表示为：

[数学式5]

Projⁱ(p3D)～Kⁱ[RⁱTⁱ]p3D

其中Kⁱ对应于图像i的校准矩阵。Rⁱ和Tⁱ分别对应于旋转矩阵和世界参考系与采集图像i的相机的参考系之间的平移向量。其部分的符号～表示在比例因子内的相等性。这种相等性尤其可以由投影的最后一个分量等于1这一事实来表示。

当解析面部表示的模型的姿态时，存在五种类型的约束：

-2D面部约束；

-2D眼镜约束；

-3D面部-眼镜约束；

-3D面部约束，例如对应于瞳孔间距PD、颞部之间的距离、平均虹膜尺寸、或若干尺寸约束的分布的混合。分布的混合可以对应于围绕虹膜尺寸和瞳孔间距的两个高斯分布的混合。组合这些约束可以求助于g-h滤波器类型的公式；

-眼镜的3D约束，例如对应于由镜架上的标记产生的已知尺寸，通常被称为英语术语“镜架标记”。

对于至少一个观察者以及对于至少一个相机，面部的2D约束基于3D模型的点与面部图像中的2D点的配对。优选地，对于每个视图以及对于每个相机进行这种配对。必须强调的是，对于不包括在图像中的面部轮廓上的面部点，配对可以是固定的，或者对于面部轮廓的点，配对可以沿着水平线滑动。面部轮廓的点与图像的点配对的这种自由度使得可以特别地提高面部的3D模型相对于图像的姿态的稳定性，从而在两个相继的图像之间提供面部的3D模型的姿态的更好的连续性。

面部的3D模型的点与图像的2D点的配对可以通过以下方程在数学上表示：

[数学式6]

其中和σ_j，i，l分别表示用于视图i的图像和相机l的图像中的面部的参数模型Mf的3D点的索引和面部的2D点的索引。

眼镜的2D约束基于特别是使用图像中掩模的轮廓对这副眼镜的模型的3D点与图像中眼镜的2D点的配对。

[数学式7]

其中θ_j，i，l和ω_j，i，l分别表示用于视图i和相机l的图像中的这副眼镜的参数模型Mg的3D点的索引和这副眼镜的2D点的索引。

3D面部-眼镜约束基于面部的模型的3D点与这副眼镜的模型的3D点的配对，该配对的距离由接近约束或甚至碰撞(零距离)约束定义。可以应用影响函数来计算碰撞距离，例如较大的权重用于相对于朝向面部的模型外部定向的面部的模型表面的法线的负距离。必须强调的是，对于一些点，约束可以仅在一些坐标上，比如在用于面部的颞部与这副眼镜的镜腿之间的关系的轴线上。

面部的模型的3D点与这副眼镜的模型的3D点的配对可以通过以下方程在数学上表示：

[数学式8]

其中ρ_j和τ_j分别表示面部的参数模型Mf的3D点的索引和这副眼镜的参数模型Mg的3D点的索引。

面部上的3D约束基于先前测量的面部的已知距离，比如瞳孔间距(每个瞳孔中心之间的距离，也对应于每只眼睛的转动中心之间的距离)。因此，可以将度量距离与一对点配对。

[数学式9]

其中t_j和u_j各自表示面部的参数模型Mf的不同3D点的索引。

对这副眼镜的3D约束基于由个体戴着的这副眼镜的模型的已知距离，比如镜片的尺寸(例如根据BOXING标准或DATUM标准)、鼻梁的尺寸或镜腿的尺寸。这种距离特别地可以由镜架的通常位于镜腿内的标记(通常被称为“frame marking(镜架标记)”)来表示。然后，可以将度量距离与这副眼镜的模型的一对点配对。

[数学式10]

其中v_j和w_j各自表示这副眼镜的参数模型Mg的不同3D点的索引。

因此，算法的输入数据是：

-戴着一副眼镜的人的来自n个相机的p图像；

-在图像中检测到的面部的特征2D点；

-在所谓的滑动点的情况下(例如：沿着水平线)，可选地在每次迭代时评估的一些点的2D或3D配对；

-至少一个图像中的这副眼镜的掩模；

-校准矩阵和每个相机的姿态。

该算法将使得可以计算以下输出数据：

-化身的p姿势：

-面部的参数模型的v模式：α₁，α₂，...，α_v；

-这副眼镜的模型相对于面部的模型的姿势：R_g、T_g；

-这副眼镜的参数模型的μ模式：β₁，β₂，...，β_μ.

为此目的，算法按照以下步骤进行：

-实施用于面部的2D约束的点的配对

-实施用于这副眼镜的2D约束的点的配对

-实施面部的模型与这副眼镜的模型之间的3D约束点的配对

-实施点的配对并将点的配对与度量距离/>相关联以便在面部的模型上建立3D约束；

-实施点的配对并将点的配对与度量距离/>相关联以便在这副眼镜的模型上建立3D约束；

-对下面的数学方程求解。

[数学式11]

其中γ₁，γ₂，γ₃，γ₄，γ₅是每个约束块之间的权重，visi是指示点p2D在图像中是否可见(即没有被面部的模型Mf或这副眼镜的模型Mg遮挡)的函数，#(visi＝＝1)对应于可见点的数量。

在本发明的该特定实施例的变型中，相机的焦距形成要优化的参数的一部分。这是因为，在图像的采集由未知相机完成的情况下，所采集的一些图像被预先重新帧化或重新调整尺寸。在这种情况下，优选在最小化期间将相机的焦距保留为自由度。

在本发明的这个具体实施例的变型中，在求解中考虑表示面部的模型与这副眼镜的模型之间的碰撞约束方程的参数的轴线和不确定性/置信度值的方差和协方差矩阵。

在本发明的这个具体实施例的变型中，这副眼镜的模型相对于面部的模型的姿态的一些参数是固定的。这可以表示这副眼镜的模型与面部的模型之间对齐的假设。在这种情况下，仅计算x轴上的旋转(即，垂直于矢状面的轴线上的旋转)以及沿y和z的平移(即，在矢状面内的平移)。由[数学式11]表示的成本函数可以简化，这使得可以获得更容易的结果收敛。以这种方式，相比于对称的面部，在这副眼镜可能不同地定位(例如在面部的一侧稍微倾斜)的情况下，对于高度不对称的面部，也可以获得非常令人满意的结果。

一副眼镜的参数模型的示例

每副眼镜都包括共同的元素，比如镜片、鼻梁和镜腿。如图7所示，一副眼镜的参数模型(3DMM)700因此可以被定义为由先前定义的三角形面715连接在一起的一组区段710。

三角形面715形成凸形包络720，该凸形包络的一部分在图7中未示出。

由相同数量的点限定的区段710中的每个区段有利地位于一副眼镜的所有模型上的相同位置。

此外，每个区段710在垂直于骨架730的平面上与这副眼镜相交。

因此可以定义三种类型的区段：

-围绕镜片的区段710_A，例如通过相对于垂直于镜圈骨架的基准平面的角度来参数化，以便每n度具有一个区段；

-鼻梁的区段710_B，平行于基准平面；

-镜腿的区段710_C，沿着镜腿的骨架730_B。

必须强调的是，在镜片周围没有镜圈，通常称为英文术语“无框”的一副眼镜的情况下，或者在被称为“半框”，即镜圈仅围绕镜片的一部分的一副眼镜的情况下，镜片周围的所有或一些区段710_A仅具有对应于同一个区段710_A的所有点的组合的单个点。

此外，在将这副眼镜的模型700与这副眼镜在图像中的表示对齐时使用的主成分分析(PCA)需要多个共用点。为此目的，选择位于这副眼镜的模型的凸形包络720上的点，以确保在图像中找到属于对齐的这副眼镜的所有像素。

为了比如在具有双鼻梁的一副眼镜的情况下使得可以找到这副眼镜中的孔，可以预先选择例如具有双鼻梁的这副眼镜的模型的模板，以尽可能接近地适应这副眼镜。

因为以给定索引引用的参数模型的点连续地位于这副眼镜的模型上的相同相对点，所以可以有助于定义两点之间的已知距离。这种已知距离可以通过刻在一副眼镜上的“镜架标记”来获得，该镜架标记定义了镜片的宽度、鼻梁的宽度、以及整个镜腿的长度。

然后，如图8所示，通过选择相应的点，可以将此信息应用于对眼镜模型700的解析中。在图8中，仅示出了表征这副眼镜前部的区段710的轮廓的点810，并且d对应于特别是借助于“镜架标记”限定的镜片宽度。

在面部和这副眼镜对齐的变型中，从面部的和这副眼镜的两个相应的参数模型生成大量的面部和大量的眼镜。接下来，使用自动定位算法用于将一副眼镜的每个模型各定位在一个面部模型上。有利地，噪声产生和不同的定位统计信息用于将这副眼镜自动定位在面部上，定位统计信息包括眼镜位于鼻子的端部处、鼻托的凹进、颞部上的松散定位等。接下来，根据面部的模型的所有点和这副眼镜的模型的所有点计算这副眼镜以及面部的新参数模型。这种新参数模型保证这副眼镜在面部上的碰撞和完美定位，这简化了解析。这是因为寻求对应于六个参数而不是十二个参数的计算的单一变换，并且碰撞方程被撤回。然而，在这种情况下，通常估计更大数量的模式，这是因为正是这些模式对这些约束进行编码。

Claims

1.一种用于跟踪由图像采集设备（130）采集的视频流中的个体（120）的面部（125）的方法（200），所述面部戴着一副眼镜（110），所述视频流包括相继采集的多个图像，其特征在于，所述跟踪方法包括以下步骤（220，235）：评估包括所述一副眼镜的模型和所述面部的模型的面部表示的参数，使得所述面部表示叠置在所述视频流中的所述面部的图像上，其中，通过考虑所述面部的模型的至少一个点与所述一副眼镜的模型的至少一个点之间的至少一个接近约束来评估所述表示的所有或一些参数。

2.根据前述权利要求所述的跟踪方法，其中，所述表示的参数包括所述面部表示的外部值和所述面部表示的内部值，所述外部值包括所述面部表示相对于所述图像采集设备的三维位置和三维取向，所述内部值包括所述一副眼镜的模型相对于所述面部的模型的三维位置和三维取向，结合所述面部表示的多个特征点来评估所述参数，所述特征点是先前在被称为第一图像的所述视频流的图像中被检测到的或者在由多个图像采集设备同时采集的一组图像中被检测到的，所述一组图像包括所述第一图像。

3.根据前述权利要求中任一项所述的跟踪方法，其中，结合所述视频流的第二图像或由所述多个图像采集设备同时采集的第二组图像中被跟踪或被检测的所有或一些所述特征点的位置，更新所述表示的所有或一些所述参数，所述第二组图像包括所述第二图像。

4.根据前述权利要求中任一项所述的跟踪方法，其中，在评估所述表示的所有或一些所述参数时，还考虑所述面部表示中所包括的所述模型中的一个模型的三维点与所述视频流的至少一个图像中所包括的至少一个点或水平线之间的至少一个接近约束。

5.根据前述权利要求中任一项所述的跟踪方法，其中，在评估所述表示的所有或一些所述参数时，还考虑所述面部表示中所包括的所述模型中的一个模型的至少一个尺寸约束。

6.根据前述权利要求中任一项所述的跟踪方法，其中，所述方法包括将两个不同的点配对的步骤，所述两个不同的点或者属于所述面部表示中所包括的两个模型中的一个模型，或者所述两个不同的点各自属于所述面部表示中所包括的所述模型的不同模型。

7.根据前述权利要求中任一项所述的跟踪方法，其中，所述方法包括前一步骤：将所述面部表示中所包括的两个模型中的一个模型的点与图像采集设备采集的图像的至少一个点配对。

8.根据前述权利要求中任一项所述的跟踪方法，其中，在对所述表示的所述参数进行评估期间，所述一副眼镜的模型与所述视频流中的所述一副眼镜的图像的对齐和所述面部的模型与所述视频流中的所述面部的图像的对齐连续地实施。

9.根据前述权利要求所述的跟踪方法，其中，通过最小化在所述面部的图像中检测到的所述面部的特征点与投影在所述图像中的所述面部的模型的特征点之间的距离来实施所述面部的模型的对齐。

10.根据权利要求8和9中任一项所述的跟踪方法，其中，通过最小化所述图像中的所述一副眼镜的轮廓的至少一部分与投影在所述图像中的所述一副眼镜的模型的类似轮廓部分之间的距离来实施所述一副眼镜的模型的对齐。

11.根据前述权利要求中任一项所述的跟踪方法，其中，所述表示的所述参数包括以下列表中的全部或一部分：

•所述面部表示的三维位置；

•所述面部表示的三维取向；

•所述一副眼镜的模型的尺寸；

•所述面部的模型的尺寸；

•所述一副眼镜的模型与所述面部的模型之间的相对三维位置；

•所述一副眼镜的模型与所述面部的模型之间的相对三维取向；

•所述一副眼镜的模型的配置的一个或多个参数；

•所述面部的模型的配置的一个或多个参数；

•所述相机的一个或多个参数。

12.根据前一项权利要求所述的跟踪方法，包括以下步骤：

•检测所述视频流的第一图像中的所述面部的多个点；

•相对于所述第一初始图像中的所述面部的图像初始化所述面部的模型的参数组；

•在所述视频流的被称为第二初始图像的第二图像中检测所述个体的面部戴着的一副眼镜的多个点，所述第二初始图像在所述视频流中的所述第一初始图像之后或之前，或者与所述视频流中的所述第一图像相同；

•相对于所述第二初始图像中的所述一副眼镜的图像初始化所述一副眼镜的模型的所述参数组。

13.根据前述权利要求所述的跟踪方法，其中，通过分析所检测到的所述面部的点中所有或一些点的深度学习方法来实施所述面部的模型的参数的初始化。

14.根据前述权利要求所述的跟踪方法，其中，所述深度学习方法还确定所述面部的模型在所述三维参考系中的初始位置。

15.根据前述权利要求中任一项所述的跟踪方法，还包括以下步骤：通过所述一副眼镜的已知尺寸的元素在所述图像中的尺寸来确定所述个体的面部戴着的所述一副眼镜的图像的比例。

16.根据前述权利要求所述的跟踪方法，其中，通过事先识别所述个体的面部戴着的所述一副眼镜来确定所述比例。

17.根据前述权利要求中任一项所述的跟踪方法，其中，使用由第二图像采集设备采集的图像来评估所述表示的参数。

18.根据前述权利要求中任一项所述的跟踪方法，其中，所述表示的所述一副眼镜的模型对应于所述一副眼镜的先前建模并且仅在变形方面不同。

19.一种增强现实方法，所述方法包括以下步骤：

•通过至少一个图像采集设备采集面部上戴着一副眼镜的个体的至少一个图像流；

•通过根据权利要求1至18中任一项所述的跟踪方法跟踪所述个体的面部、所述面部的表示的位置和取向；

•通过在所述主视频流上将所述面部的表示实时叠置在所述个体的面部上，修正由所述图像采集设备或所述图像采集设备中的被称为主图像采集设备的一个图像采集设备采集的所述图像流或所述图像流中的被称为主视频流的一个图像流的所有或一些图像；

•在屏幕上显示所述先前修正的主视频流。

20.一种包括计算机存储器的电子设备，所述计算机存储器存储根据前述权利要求中任一项所述的方法的指令。