CN117809002B

CN117809002B - 一种基于人脸表情识别与动作捕捉的虚拟现实同步方法

Info

Publication number: CN117809002B
Application number: CN202410224408.0A
Authority: CN
Inventors: 曾昱锦
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-05-14
Anticipated expiration: 2044-02-29
Also published as: CN117809002A

Abstract

本发明涉及虚拟现实同步技术领域，具体涉及一种基于人脸表情识别与动作捕捉的虚拟现实同步方法，包括以下步骤：对目标对象进行人脸表情识别，得到人脸表情图像；对所述目标对象进行动作捕捉，得到动作图像；分别对所述人脸表情图像和所述动作图像进行图像配准；将经过图像配准后的人脸表情图像与经过图像配准后的动作图像融合为表情动作图像；将所述表情动作图像剪切为多个时序图像片段；分别对每一个时序图像片段进行状态特征同步处理和自适应时间同步处理，得到处理后的同步图像。本方法无需利用复杂的虚拟现实同步算法，通过对状态特征分配优先级来调整状态特征序列中元素的有效时间，并消除由此造成的时间偏差负效应，保证动作的一致连续性。

Description

一种基于人脸表情识别与动作捕捉的虚拟现实同步方法

技术领域

本发明涉及虚拟现实同步技术领域，具体涉及一种基于人脸表情识别与动作捕捉的虚拟现实同步方法。

背景技术

虚拟现实技术囊括计算机、电子信息、仿真技术，其基本实现方式是以计算机技术为主，利用并综合三维图形技术、多媒体技术、仿真技术、显示技术、伺服技术等多种高科技的最新发展成果，借助计算机等设备产生一个逼真的三维视觉、触觉、嗅觉等多种感官体验的虚拟世界。为了实现虚拟现实的时空一致性，目前提出了多种同步方法，包括保守同步方法、乐观同步方法、集中控制同步方法，以及基于真实时间的时间比例同步方法等。然而，在实时运动的动态环境中，动画所采样的基本运动不仅是交互自适应的，而且受到外部条件的制约，随着外部环境的变化而变化。但目前所提出的多种同步方法在解决同步问题时提高了运算的复杂度，特别是在对存在多个运动目标的复杂动画进行同步处理时，会消耗大量的运算资源。

发明内容

本发明目的在于提供一种基于人脸表情识别与动作捕捉的虚拟现实同步方法，解决利用现有技术对人脸表情和动作进行虚拟现实同步过程中消耗大量运算资源的问题。

本发明通过下述技术方案实现：

提供一种基于人脸表情识别与动作捕捉的虚拟现实同步方法，包括以下步骤：对目标对象进行人脸表情识别，得到人脸表情图像；对所述目标对象进行动作捕捉，得到动作图像；分别对所述人脸表情图像和所述动作图像进行图像配准；将经过图像配准后的人脸表情图像与经过图像配准后的动作图像融合为表情动作图像；将所述表情动作图像剪切为多个时序图像片段；分别对每一个时序图像片段进行状态特征同步处理和自适应时间同步处理，得到处理后的同步图像。

进一步的，所述图像配准包括以下步骤：对目标图像进行特征提取，得到所述目标图像的多个特征点；所述目标图像包括：人脸表情图像和动作图像；从多个特征点中提取多组特征点对；对每一组特征点对进行匹配，得到多组图像空间坐标参数；一组图像空间坐标参数对应一组特征点对；根据多组图像空间坐标参数对所述目标图像进行图像配准。

进一步的，将所述表情动作图像剪切为多个时序图像片段之后，包括以下步骤：对每一个时序图像片段进行去噪、裁剪和色度变换。

进一步的，所述状态特征同步处理包括以下步骤：S1：提取时序图像片段中的多种状态特征，为每一种状态特征分配优先级；任一种状态特征中包含动作特征与表情特征；S2：根据提取的多种状态特征建立状态特征序列；S3：利用所述状态特征序列建立状态特征融合矩阵；所述状态特征融合矩阵中包含多种融合状态，一种融合状态对应一种同步状态或一种非同步状态；S4：检测所述状态特征融合矩阵中是否存在一种或多种融合状态为非同步状态；若存在一种或多种非同步状态的融合状态，则执行S5；若不存在非同步状态的融合状态，则执行S6；S5：根据优先级对所述状态特征序列中各状态特征的持续时间进行调整，返回所述S3；S6：输出处理后的状态特征融合矩阵。

进一步的，所述建立状态特征融合矩阵的方法为：获取所述状态特征序列的转置；建立特征融合函数；利用所述特征融合函数对转置后的状态特征序列的每一个状态特征与转置前的状态特征序列中的每一个状态特征进行融合处理，得到多个融合状态；利用多个融合状态建立所述状态特征融合矩阵。

进一步的，所述S5包括以下步骤：S51：对组成融合状态的两种状态特征进行标记；S52：比较标记的状态特征之间的优先级，得到第一状态特征和第二状态特征；所述第一状态特征的优先级高于第二状态特征的优先级；S53：保持所述第一状态特征的持续时间不变，将所述第二状态特征的持续时间进行扩展，得到调整后的状态特征序列；S54：针对调整后的状态特征序列中的每个状态特征，消除特征状态的持续时间的时间偏差。

进一步的，所述S54中，所述消除特征状态的持续时间的时间偏差，包括以下步骤：获取特征状态在调整前的持续时间、调整后的持续时间和调整前的持续时间偏差向量；获取所述持续时间偏差向量在调整后的持续时间内的对称向量；根据所述持续时间偏差向量和所述对称向量建立单调抵消函数；利用所述单调抵消函数消除特征状态的持续时间的时间偏差。

进一步的，所述自适应时间同步处理包括以下步骤：获取处理后的状态特征融合矩阵所对应的时序图像片段中，相邻两个状态特征之间的间隔时长；设置数据缓冲区存储状态特征，设置间隔时长阈值；在间隔时长大于间隔时长阈值的两个状态特征之间进行插值处理，直到所有相邻状态特征之间的间隔时长相等。

进一步的，所述插值处理包括：最近邻插值、线性插值和双三次插值。

本发明与现有技术相比，具有如下的优点和有益效果：通过对人脸表情图像和动作图像进行融合，结合虚拟动画的实时性和交互性，对融合后的每一时序图像片段进行状态特征同步处理和自适应时间同步处理，实现运动相位序列的重组同步。本方法无需利用复杂的虚拟现实同步算法，通过对状态特征分配优先级来调整状态特征序列中元素的有效时间，并消除由此造成的时间偏差负效应，保证动作的一致连续性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明实施例提供的一种基于人脸表情识别与动作捕捉的虚拟现实同步方法的流程示意图。

图2为本发明实施例提供的状态同步处理方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

在以下描述中，为了提供对本发明的透彻理解阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的结构、电路、材料或方法。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此，在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的示图都是为了说明的目的，并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。

在本发明的描述中，需要理解的是，术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制。

实施例

如图1所示，本实施例第一方面提供一种基于人脸表情识别与动作捕捉的虚拟现实同步方法，包括以下步骤：

步骤1：对目标对象进行人脸表情识别，得到人脸表情图像。

步骤2：对所述目标对象进行动作捕捉，得到动作图像。

步骤3：分别对所述人脸表情图像和所述动作图像进行图像配准。

具体的，步骤3包括：

步骤3.1：对目标图像进行特征提取，得到所述目标图像的多个特征点。所述目标图像包括：人脸表情图像和动作图像；

步骤3.2：从多个特征点中提取多组特征点对。

步骤3.3：对每一组特征点对进行匹配，得到多组图像空间坐标参数；一组图像空间坐标参数对应一组特征点对。

步骤3.4：根据多组图像空间坐标参数对所述目标图像进行图像配准。

图像配准能够更好地将人脸表情图像与动作图像进行合成。在虚拟现实图像中，特征点包含位置、方向、尺度等图像信息，具有较高的独立性和鲁棒性。

步骤4：将经过图像配准后的人脸表情图像与经过图像配准后的动作图像融合为表情动作图像。

所述表情动作图像中既包含目标对象的表情特征，也包含目标对象的动作特征。

步骤5：将所述表情动作图像剪切为多个时序图像片段。

根据实际情况，可将表情动作图像以帧为单位进行剪切，每个时序图像片段可以对应一帧或多帧。当目标对象的表情或动作变化频率高时，可将表情动作图像按照一帧一片段的方式进行剪切，当目标对象的表情或动作变化频率较低时，可将表情动作图像按照多帧一片段的方式进行剪切，每一片段对应的帧数根据实际情况而定。

步骤6：为便于后续对时序图像片段进行处理，对每一个时序图像片段进行去噪、裁剪和色度变换。

步骤7：分别对每一个时序图像片段进行状态特征同步处理和自适应时间同步处理，得到处理后的同步图像。

1、对每一个时序图像片段进行状态特征同步处理的实施步骤如图2所示，包括：

步骤7.11：提取时序图像片段中的多种状态特征，为每一种状态特征分配优先级。任一种状态特征中包含动作特征与表情特征。例如，提取的多种状态特征中包括：状态1——无表情前后摆动双臂；状态2——微笑慢走；状态3：无表情跑步。若当前图像需反映的是目标对象的运动状态，则可将状态1、状态2和状态3的优先级按照从高到底的顺序依次为状态1＞状态2＞状态3。

步骤7.12：根据提取的多种状态特征建立状态特征序列。例如，状态特征序列可表示为（状态1，状态2，状态3）。

步骤7.13：利用所述状态特征序列建立状态特征融合矩阵；所述状态特征融合矩阵中包含多种融合状态，一种融合状态对应一种同步状态或一种非同步状态。

具体的，首先获取所述状态特征序列的转置。若状态特征序列用行向量表示，则其转置为列向量。

然后，建立特征融合函数。根据实际需要可从现有的特征融合函数中进行选择。

接下来，利用所述特征融合函数对转置后的状态特征序列的每一个状态特征与转置前的状态特征序列中的每一个状态特征进行融合处理，得到多个融合状态。

以（状态1，状态2，状态3）为例，最终得到的多个融合状态包括：融合状态11、融合状态12、融合状态13、融合状态21、融合状态22、融合状态23、融合状态31、融合状态32、融合状态33。

最后，利用多个融合状态建立所述状态特征融合矩阵，见下述表1所示。

表1

步骤7.14：检测所述状态特征融合矩阵中是否存在一种或多种融合状态为非同步状态；若存在一种或多种非同步状态的融合状态，则执行步骤7.15；若不存在非同步状态的融合状态，则执行步骤7.16。其中，同步状态表示两种状态可以同步进行，例如状态1（无表情前后摆动双臂）与状态2（微笑慢走）可同步进行，则融合状态12即为同步状态；而状态（微笑慢走）与状态3（无表情跑步）无法同时进行，则融合状态23即为非同步状态，表1中用Err表示。

步骤7.15：根据优先级对所述状态特征序列中各状态特征的持续时间进行调整，返回所述7.13。具体的，本步骤包括：

S51：对组成融合状态的两种状态特征进行标记。标记结果为状态2、状态3

S52：比较标记的状态特征之间的优先级，得到第一状态特征和第二状态特征；所述第一状态特征的优先级高于第二状态特征的优先级。即状态2的优先级高于状态3。

S53：保持所述第一状态特征的持续时间不变，将所述第二状态特征的持续时间进行扩展，得到调整后的状态特征序列。当状态3的持续时间进行扩展，扩展的时间可分配至状态2，从而实现状态2与状态3在持续时间内同步进行。引入优先级的概念就可以达到优化的效果。为每个融合状态设置优先级，从高到低，当出现不同步问题时，保持高优先级动作的持续时间不变，扩展低优先级动作的持续时间，可以提高运动混合的逼真度和动作的连续性。

S54：针对调整后的状态特征序列中的每个状态特征，消除特征状态的持续时间的时间偏差。具体的：S54中，所述消除特征状态的持续时间的时间偏差，包括以下步骤：

S54.1：获取特征状态在调整前的持续时间、调整后的持续时间和调整前的持续时间偏差向量。

S54.2：获取所述持续时间偏差向量在调整后的持续时间内的对称向量。

S54.3：根据所述持续时间偏差向量和所述对称向量建立单调抵消函数。

S54.4：利用所述单调抵消函数消除特征状态的持续时间的时间偏差。

调整运动混合序列元素的持续时间势必造成动画时间与真实时间之间的时间偏差，即动作有效时间的缩小或扩大。这种偏差可以用函数偏差函数表示，它会造成速度与加速度的不连续性。利用对称性规则，取偏差向量的对称向量尽可能抵消偏差的负效应。综合考虑时刻两端可以得到每个时域的单调抵消函数。利用抵消函数消除时间偏差。

步骤7.16：输出处理后的状态特征融合矩阵。

2、对每一个时序图像片段进行自适应时间同步处理的方法为：

步骤7.21：获取处理后的状态特征融合矩阵所对应的时序图像片段中，相邻两个状态特征之间的间隔时长。

步骤7.22：设置数据缓冲区存储状态特征，设置间隔时长阈值。

步骤7.23：在间隔时长大于间隔时长阈值的两个状态特征之间进行插值处理，直到所有相邻状态特征之间的间隔时长相等。可选择的插值方法可以是：最近邻插值、线性插值和双三次插值。

综上所述，本实施例第一方面提供的一种基于人脸表情识别与动作捕捉的虚拟现实同步方法，通过对人脸表情图像和动作图像进行融合，结合虚拟动画的实时性和交互性，对融合后的每一时序图像片段进行状态特征同步处理和自适应时间同步处理，实现运动相位序列的重组同步。本方法无需利用复杂的虚拟现实同步算法，通过对状态特征分配优先级来调整状态特征序列中元素的有效时间，并消除由此造成的时间偏差负效应，保证动作的一致连续性。

与第一方面对应的，本实施例第二方面提供一种基于人脸表情识别与动作捕捉的虚拟现实同步***，包括：表情识别模块、动作识别模块、图像配准模块、图像融合模块、图像剪切模块、图像处理模块、第一同步处理模块和第二同步处理模块。其中，表情识别模块，用于对目标对象进行人脸表情识别，得到人脸表情图像。动作识别模块，用于对所述目标对象进行动作捕捉，得到动作图像。图像配准模块，用于分别对所述人脸表情图像和所述动作图像进行图像配准。图像融合模块，用于将经过图像配准后的人脸表情图像与经过图像配准后的动作图像融合为表情动作图像。图像剪切模块，用于将所述表情动作图像剪切为多个时序图像片段。图像处理模块，用于对每一个时序图像片段进行去噪、裁剪和色度变换。第一同步处理模块，用于对每一个时序图像片段进行状态特征同步处理。第二同步处理模块，用于对每一个时序图像片段进行自适应时间同步处理，得到处理后的同步图像。

其中，图像配准包括：特征点提取单元、特征点对提取单元、特征点对匹配单元和图像配准单元。特征点提取单元用于对目标图像进行特征提取，得到所述目标图像的多个特征点。特征点对提取单元用于从多个特征点中提取多组特征点对。特征点对匹配单元用于对每一组特征点对进行匹配，得到多组图像空间坐标参数；一组图像空间坐标参数对应一组特征点对。图像配准单元用于根据多组图像空间坐标参数对所述目标图像进行图像配准。

进一步的，第一同步处理模块包括：状态特征提取单元、优先级分配单元、序列构建单元、矩阵构建单元、状态检测单元、控制单元、时间调整单元和输出单元。其中，状态特征提取单元用于提取时序图像片段中的多种状态特征；任一种状态特征中包含动作特征与表情特征。优先级分配单元用于为每一种状态特征分配优先级。序列构建单元用于根据提取的多种状态特征建立状态特征序列。矩阵构建单元用于利用所述状态特征序列建立状态特征融合矩阵；所述状态特征融合矩阵中包含多种融合状态，一种融合状态对应一种同步状态或一种非同步状态。状态检测单元用于检测所述状态特征融合矩阵中是否存在一种或多种融合状态为非同步状态。控制单元用于当存在一种或多种非同步状态的融合状态情况下，控制时间调整单元和矩阵构建单元工作，当不存在非同步状态的融合状态的情况下，控制输出单元工作。时间调整单元用于根据优先级对所述状态特征序列中各状态特征的持续时间进行调整。输出单元用于输出处理后的状态特征融合矩阵。

进一步的，矩阵构建单元包括：向量变换子单元、函数构建子单元、特征融合子单元、矩阵构建子单元和时间偏差消除子单元。其中，向量变换子单元用于获取所述状态特征序列的转置。函数构建子单元用于建立特征融合函数。特征融合子单元用于利用所述特征融合函数对转置后的状态特征序列的每一个状态特征与转置前的状态特征序列中的每一个状态特征进行融合处理，得到多个融合状态。矩阵构建子单元用于利用多个融合状态建立所述状态特征融合矩阵。时间偏差消除单元用于针对调整后的状态特征序列中的每个状态特征，消除特征状态的持续时间的时间偏差。具体时间偏差消除单元执行以下操作：首先获取特征状态在调整前的持续时间、调整后的持续时间和调整前的持续时间偏差向量；然后获取所述持续时间偏差向量在调整后的持续时间内的对称向量；接下来根据所述持续时间偏差向量和所述对称向量建立单调抵消函数；最后利用所述单调抵消函数消除特征状态的持续时间的时间偏差。

进一步的，第二同步处理模块包括：

间隔时长获取模块，用于获取处理后的状态特征融合矩阵所对应的时序图像片段中，相邻两个状态特征之间的间隔时长。

阈值设置模块，用于设置数据缓冲区存储状态特征，设置间隔时长阈值。

插值模块，用于在间隔时长大于间隔时长阈值的两个状态特征之间进行插值处理，直到所有相邻状态特征之间的间隔时长相等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人脸表情识别与动作捕捉的虚拟现实同步方法，其特征在于，包括以下步骤：

对目标对象进行人脸表情识别，得到人脸表情图像；对所述目标对象进行动作捕捉，得到动作图像；

分别对所述人脸表情图像和所述动作图像进行图像配准；

将经过图像配准后的人脸表情图像与经过图像配准后的动作图像融合为表情动作图像；

将所述表情动作图像剪切为多个时序图像片段；

分别对每一个时序图像片段进行状态特征同步处理和自适应时间同步处理，得到处理后的同步图像；

所述状态特征同步处理包括以下步骤：

S1：提取时序图像片段中的多种状态特征，为每一种状态特征分配优先级；任一种状态特征中包含动作特征与表情特征；

S2：根据提取的多种状态特征建立状态特征序列；

S3：利用所述状态特征序列建立状态特征融合矩阵；所述状态特征融合矩阵中包含多种融合状态，一种融合状态对应一种同步状态或一种非同步状态；

S4：检测所述状态特征融合矩阵中是否存在一种或多种融合状态为非同步状态；若存在一种或多种非同步状态的融合状态，则执行S5；若不存在非同步状态的融合状态，则执行S6；

S5：根据优先级对所述状态特征序列中各状态特征的持续时间进行调整，返回所述S3；

S6：输出处理后的状态特征融合矩阵；

所述建立状态特征融合矩阵的方法为：

获取所述状态特征序列的转置；

建立特征融合函数；

利用所述特征融合函数对转置后的状态特征序列的每一个状态特征与转置前的状态特征序列中的每一个状态特征进行融合处理，得到多个融合状态；

利用多个融合状态建立所述状态特征融合矩阵；

所述S5包括以下步骤：

S51：对组成融合状态的两种状态特征进行标记；

S52：比较标记的状态特征之间的优先级，得到第一状态特征和第二状态特征；所述第一状态特征的优先级高于第二状态特征的优先级；

S53：保持所述第一状态特征的持续时间不变，将所述第二状态特征的持续时间进行扩展，得到调整后的状态特征序列；

还包括S54：针对调整后的状态特征序列中的每个状态特征，消除特征状态的持续时间的时间偏差；

所述S54中，所述消除特征状态的持续时间的时间偏差，包括以下步骤：

获取特征状态在调整前的持续时间、调整后的持续时间和调整前的持续时间偏差向量；

获取所述持续时间偏差向量在调整后的持续时间内的对称向量；

根据所述持续时间偏差向量和所述对称向量建立单调抵消函数；

利用所述单调抵消函数消除特征状态的持续时间的时间偏差。

2.根据权利要求1所述的一种基于人脸表情识别与动作捕捉的虚拟现实同步方法，其特征在于，所述图像配准包括以下步骤：

对目标图像进行特征提取，得到所述目标图像的多个特征点；所述目标图像包括：人脸表情图像和动作图像；

从多个特征点中提取多组特征点对；

对每一组特征点对进行匹配，得到多组图像空间坐标参数；一组图像空间坐标参数对应一组特征点对；

根据多组图像空间坐标参数对所述目标图像进行图像配准。

3.根据权利要求1或2所述的一种基于人脸表情识别与动作捕捉的虚拟现实同步方法，其特征在于，将所述表情动作图像剪切为多个时序图像片段之后，包括以下步骤：对每一个时序图像片段进行去噪、裁剪和色度变换。

4.根据权利要求1所述的一种基于人脸表情识别与动作捕捉的虚拟现实同步方法，其特征在于，所述自适应时间同步处理包括以下步骤：

获取处理后的状态特征融合矩阵所对应的时序图像片段中，相邻两个状态特征之间的间隔时长；

设置数据缓冲区存储状态特征，设置间隔时长阈值；

在间隔时长大于间隔时长阈值的两个状态特征之间进行插值处理，直到所有相邻状态特征之间的间隔时长相等。

5.根据权利要求4所述的一种基于人脸表情识别与动作捕捉的虚拟现实同步方法，其特征在于，所述插值处理包括：最近邻插值、线性插值和双三次插值。