CN111009028A

CN111009028A - 虚拟脸部模型的表情拟真***及方法

Info

Publication number: CN111009028A
Application number: CN201811219066.4A
Authority: CN
Inventors: 王荣升; 何婉琦; 张晓珍
Original assignee: Institute for Information Industry
Current assignee: Institute for Information Industry
Priority date: 2018-10-08
Filing date: 2018-10-19
Publication date: 2020-04-14
Also published as: US20200110925A1; TW202014992A; US10713471B2

Abstract

一种虚拟脸部模型的表情拟真***及方法。该表情拟真***储存多个三维脸部模型，该多个三维脸部模型一对一地对应至多个预设情绪。该表情拟真***根据一声音信号辨识出一当前情绪，且根据该当前情绪从该多个三维脸部模型选取一选定模型，该选定模型所对应的该预设情绪与该当前情绪相同。该表情拟真***根据一下半脸影像预测一上半脸影像，将之整合为一全脸影像，再借由将该全脸影像的多个脸部特征与该选定模型的多个脸部特征匹配以获得多个特征对应关系，俾一虚拟脸部模型根据该多个特征对应关系而改变以模拟一表情。

Description

虚拟脸部模型的表情拟真***及方法

【技术领域】

本发明是关于一种虚拟脸部模型的表情拟真***及方法。更具体而言，本发明是关于一种利用影像预测及声音信号来进行辨识的虚拟脸部模型的表情拟真***及方法。

【背景技术】

在虚拟实境(Virtual Reality；VR)的应用中，使虚拟人物具有拟真的表情变化以提升使用者在虚拟实境中的互动体验为相当重要的议题。某些已知技术中，会利用影像来即时辨识使用者的即时脸部表情，再据以模拟虚拟人物的表情，但在虚拟实境的应用中使用者会配戴头戴式显示器(Head-Mounted Display；HMD)而遮蔽使用者的上半脸部，导致辨识不准确，进而导致模拟效果不佳。

为克服上半脸被遮蔽的问题，某些已知技术则在头戴式显示器中配置多个传感器(例如：三维传感器、红外线传感器、肌电图(Electromyogram；EMG)传感器、眼动图(Electrooculogram；EOG)传感器等)以检测被遮蔽的上半脸的肌肉变化等信息，再依据肌肉变化模拟上半脸的表情。然而，配置大量的传感器将使得硬件的成本增加，且由传感器的数据所模拟出的上半脸表情与由即时脸部影像所模拟的下半脸表情可能会有冲突，或是无法整合。

有鉴于此，如何使虚拟人物在虚拟实境中具有拟真的脸部表情仍为业界亟需努力的目标。

【发明内容】

本发明的一目的在于提供一种虚拟脸部模型的表情拟真***。该表情拟真***包含一存储器及处理器，其中，该处理器电性连接至该存储器。该存储器储存多个三维脸部模型，其中，该多个三维脸部模型一对一地对应至多个预设情绪。该处理器根据一声音信号辨识出一当前情绪，且根据该当前情绪从该多个三维脸部模型选取出一选定模型，其中，该选定模型所对应的该预设情绪与该当前情绪相同。该处理器根据一下半脸影像预测出一上半脸影像，将该下半脸影像及该上半脸影像整合为一全脸影像，以及借由将该全脸影像的多个脸部特征与该选定模型的多个脸部特征匹配以获得多个特征对应关系，俾一虚拟脸部模型根据该多个特征对应关系而改变以模拟一表情。

本发明的又一目的在于提供一种虚拟脸部模型的表情拟真方法，其是适用于一电子计算装置。该电子计算装置储存多个三维脸部模型，其中，该多个三维脸部模型一对一地对应至多个预设情绪。该虚拟脸部模型的表情拟真方法包含下列步骤：(a)根据一声音信号辨识出一当前情绪，(b)根据该当前情绪从该多个三维脸部模型选取出一选定模型，其中，该选定模型所对应的该预设情绪与该当前情绪相同，(c)根据一下半脸影像预测出一上半脸影像，(d)将该下半脸影像及该上半脸影像整合为一全脸影像，以及(e)借由将该全脸影像的多个脸部特征与该选定模型的多个脸部特征匹配以获得多个特征对应关系，俾一虚拟脸部模型根据该多个特征对应关系而改变以模拟一表情。

本发明所提供的虚拟脸部模型的表情拟真技术(包含表情拟真***及其方法)根据使用者的声音辨识出一当前情绪，再根据该当前情绪从该多个三维脸部模型中选取出一选定模型，因此该选定模型所具有的表情确实符合使用者的当前情绪。本发明所提供的表情拟真技术还会根据使用者当前的一下半脸影像预测出一上半脸影像，且整合出使用者当前的一全脸影像。由于当前的全脸影像具有更即时、明确及细微的表情变化，因此借由找出该全脸影像的多个脸部特征与该选定模型的多个脸部特征间的特征对应关系，再据以改变使用者所对应的虚拟脸部模型，能使该虚拟脸部模型更精准地模拟使用者的表情。因此，本发明能在不额外地配置传感器的情况下，解决头戴式显示器遮蔽使用者部分脸部而无法使虚拟脸部模型具有拟真表情的问题。

以下结合附图阐述本发明的详细技术及实施方式，俾使本领域技术人员能理解所请求保护的发明的技术特征。

【附图说明】

图1是描绘本发明的第一实施方式的虚拟脸部模型的表情拟真***1的示意图；

图2是描绘本发明的第二实施方式的虚拟脸部模型的表情拟真***2的示意图；

图3A是描绘本发明的第三实施方式的虚拟脸部模型的表情拟真方法的流程图；

图3B是描绘本发明某些实施方式所执行的模型建置流程；以及

图3C是描绘本发明的某些实施方式所执行的模型建置流程。

【符号说明】

1：虚拟脸部模型的表情拟真***

11：处理器

13：存储器

15：收发接口

17：声音传感器

19：红外线摄影机

102a、102b、102c、102d、102e、102f、102g：三维脸部模型

104：声音情绪判断模型

106：深度学习模型

120：声音信号

122：下半脸影像

2：虚拟脸部模型的表情拟真***

21：深度摄影机

202a、202b、202c、202d、202e、202f、202g：三维标准模板

S301～S309：步骤

S311～S313：步骤

S321～S325：步骤

【具体实施方式】

以下将通过实施方式来解释本发明所提供的虚拟脸部模型的表情拟真***及方法。然而，该多个实施方式并非用以限制本发明需在如该多个实施方式所述的任何环境、应用或方式方能实施。因此，关于以下实施方式的说明仅在于阐释本发明的目的，而非用以限制本发明的范围。应理解，在以下实施方式及附图中，与本发明非直接相关的元件已省略而未绘示，且附图中各元件的尺寸以及元件间的尺寸比例仅为便于绘示及说明，而非用以限制本发明的范围。

本发明的第一实施方式为虚拟脸部模型的表情拟真***1，其示意图是描绘于图1。表情拟真***1包含一处理器11及一存储器13，其中，处理器11电性连接至存储器13。存储器13可为一硬盘(Hard Disk Drive；HDD)(例如：行动硬盘、云端硬盘)、一通用串列总线(Universal Serial Bus；USB)盘、一光盘(Compact Disk；CD)或本领域技术人员所知的任何其他具有相同功能的非暂态储存媒体或装置。处理器11可为各种处理器、中央处理单元(Central Processing Unit；CPU)、微处理器(Microprocessor Unit；MPU)、数字信号处理器(Digital Signal Processor；DSP)或本领域技术人员所知的任何其他具有相同功能的计算装置。

表情拟真***1可用于多种虚拟实境应用。当一使用者于一虚拟实境应用使用表情拟真***1时，表情拟真***1会依据该使用者实际的声音及脸部表情来模拟该使用者于虚拟实境中的虚拟脸部模型的表情。需说明者，本发明未限制表情拟真***1的具体实施态样。举例而言，表情拟真***1可为虚拟实境应用的主机、可整合于头戴式显示器、可为云端服务器或其他具有类似计算能力的装置。

于本实施方式中，存储器13储存七个三维脸部模型102a、102b、102c、102d、102e、102f、102g，其是一对一地对应至七种预设情绪(例如：中性、高兴、生气、伤心、害怕、惊讶、恶心)。需说明者，于本发明中，存储器13需储存至少二个三维脸部模型(例如：对应至中性情绪及高兴情绪的三维脸部模型102a、102b)。

于本实施方式中，处理器11根据该使用者的一声音信号120辨识出一当前情绪(未绘示)，其中，该当前情绪为前述七种预设情绪其中之一。需说明者，从声音信号120辨识出情绪的技术为本领域技术人员所熟知，故不赘言。于某些实施方式中，存储器13还可预先储存一声音情绪判断模型104，处理器11可自声音信号120撷取多个声音信号特征值，再利用声音情绪判断模型104将该多个声音信号特征值辨识为对应至该当前情绪。

另需说明者，本发明未限制声音信号120的取得方式。于本实施方式中，表情拟真***1可经由一外接的声音传感器17来取得声音信号120，声音传感器17可感测使用者所发出的声音而产生声音信号120，表情拟真***1通过一收发接口15自声音传感器17接收声音信号120。举例而言，声音传感器17可为一麦克风、一体感机的麦克风、一耳机的麦克风、一头戴式显示器的麦克风或本领域技术人员所知的任何其他具有相同功能的声音感测装置。于某些实施方式中，表情拟真***1则可内建一声音传感器17，由该声音传感器17直接感测使用者所发出的声音而产生声音信号120。

接着，处理器11根据该当前情绪，从存储器13所储存的七个三维脸部模型102a、102b、102c、102d、102e、102f、102g中选取出一选定模型(未绘示)，其中，该选定模型所对应的预设情绪与当前情绪相同。举例而言，若处理器11根据声音信号120所辨识出的该当前情绪为「高兴」，则处理器11从存储器13中选取出三维脸部模型102b(亦即，对应至「高兴」的三维脸部模型)作为选定模型。

另外，处理器11会根据该使用者的一下半脸影像122预测出一上半脸影像(未绘示)(例如：被头戴式显示器遮蔽的部分脸部的影像)。于某些实施方式中，存储器13可储存一深度学习模型106，处理器11可利用深度学习模型106由下半脸影像122预测出该上半脸影像。本领域技术人员皆了解如何训练深度学习模型106以及如何利用深度学习模型106进行预测，故不赘言。之后，处理器11再将下半脸影像122及上半脸影像(未绘示)整合为一全脸影像(未绘示)。举例而言，处理器11可利用特征点匹配的技术来将下半脸影像122及上半脸影像整合为全脸影像，但不以此为限。

需说明者，在某些情况下，头戴式显示器会挡住部分光线，导致下半脸影像122有些失真。于某些实施方式中，为克服此一问题以获得更佳的预测效果，处理器11可先对下半脸影像122进行亮度补偿，再以亮度补偿后的下半脸影像122预测出该上半脸影像。于某些实施方式中，为使后续的匹配(容后详述)更为准确，处理器11可对整合后的该全脸影像进行亮度补偿。

另需说明者，本发明未限制下半脸影像122的取得方式。于本实施方式中，表情拟真***1可经由一外接的红外线摄影机19取得下半脸影像122，红外线摄影机19可扫描使用者的下半脸以产生的一二维影像，该二维影像即为使用者的下半脸影像122，表情拟真***1则通过收发接口15(或另一收发接口)自该红外线摄影机19接收下半脸影像122。于某些实施方式中，表情拟真***1可内建一红外线摄影机19，且由该红外线摄影机19扫描使用者的下半脸所产生的一二维影像作为使用者的下半脸影像122。

在得到该全脸影像及该选定模型后，处理器11借由将该全脸影像的多个脸部特征与该选定模型的多个脸部特征匹配以获得多个特征对应关系。需说明者，该选定模型的各该脸部特征为三维，而该全脸影像的各该脸部特征为二维。于某些实施方式中，处理器11可采用一透视投影法先将该选定模型的该多个脸部特征由三维降维成为二维，再将该全脸影像的该多个脸部特征与降维后的该选定模型的该多个脸部特征匹配以获得该多个特征对应关系。

获得该多个特征对应关系后，便能使一虚拟脸部模型(未绘示)根据该多个特征对应关系而改变以模拟一表情。举例而言，表情拟真***1可通过一传输接口将该多个对应关系传送至执行虚拟实境应用的虚拟实境平台，该虚拟实境平台再根据该多个特征对应关系来改变虚拟脸部模型，借此达到模拟表情的效果。

综上所述，表情拟真***1是基于使用者所发出的声音辨识出使用者的当前情绪，再选取出符合该当前情绪的三维脸部模型作为后续要采用的选定模型，因此该选定模型所具有的表情确实符合使用者的当前情绪。此外，表情拟真***1会依据使用者的下半脸影像122预测出上半脸影像，且将上半脸影像及下半脸影122像整合出全脸影像(例如：通过特征点匹配的技术来整合)。由于表情拟真***1是采用使用者当前的下半脸影像122，因此经由预测及整合所获得的全脸影像可视为使用者当前的全脸影像。由于当前的全脸影像具有更即时、明确及细微的表情变化，因此借由找出该全脸影像与该选定模型间的特征对应关系再据以改变使用者所对应的虚拟脸部模型，能使该虚拟脸部模型更为精准地模拟该使用者的表情。因此，表情拟真***1能在不额外地配置传感器的情况下，解决头戴式显示器遮蔽使用者上半脸而无法使虚拟脸部模型具有拟真表情的问题。

本发明的第二实施方式为虚拟脸部模型的表情拟真***2，其示意图是描绘于图2。表情拟真***2包含处理器11及存储器13。表情拟真***2能执行第一实施方式的表情拟真***1所能执行的所有运作，因而亦具有其所具有的功能，且能达到其所能达到的技术效果。相较于表情拟真***1，表情拟真***2还会执行各种模型的建置流程，以下叙述将着重于表情拟真***2与表情拟真***1相异之处。

于本实施方式中，在初始的建置阶段，存储器13储存七个三维标准模板202a、202b、202c、202d、202e、202f、202g，其是一对一地对应至七种预设情绪(例如：中性、高兴、生气、伤心、害怕、惊讶、恶心)。需说明者，本发明未限制存储器13所储存的三维标准模板的数目(换言之，未限制预设情绪的数目)，亦未限制其所对应的预设情绪为何。于本实施方式中，处理器11会根据三维标准模板202a、202b、202c、202d、202e、202f、202g产生三维脸部模型102a、102b、102c、102d、102e、102f、102g以供虚拟脸部模型的表情拟真之用。

于本实施方式中，处理器11会先产生一种预设情绪的三维脸部模型，再产生其他几种预设情绪的三维脸部模型。为便于说明，兹假设处理器11所先处理的预设情绪为中性情绪(但不以此为限)。

具体而言，表情拟真***2外接一深度摄影机21(Depth Camera)，深度摄影机21扫描使用者所做出的一第一表情(亦即，对应至中性情绪的表情)而产生多个第一深度值，各该第一深度值为深度摄影机21至使用者做出第一表情时的一脸部位置的一距离。表情拟真***2通过收发接口15(或另一收发接口)自深度摄影机21接收该多个第一深度值。表情拟真***2接着要使用的一第一三维原始模型(未绘示)即包含该多个第一深度值。

接着，处理器11将三维标准模板202a、202b、202c、202d、202e、202f、202g中的一第一三维标准模板(亦即，对应至中性情绪的三维标准模板202a)映射至该第一三维原始模型以产生一第一三维脸部模型(亦即，对应至中性情绪的三维脸部模型102a)。举例而言，处理器11可将第一三维标准模板(亦即，三维标准模板202a)与第一三维原始模型进行特征匹配(例如：找出眼睛、鼻子及嘴唇等特征间的对应关系)，再利用径向基底函数的形状内插技术，对第一三维标准模板(亦即，三维标准模板202a)的网格拓扑进行形变，使之与第一三维原始模型的网格拓扑近似，如此即可得到第一三维脸部模型(亦即，对应至中性情绪的三维脸部模型102a)。

之后，处理器11根据第一三维脸部模型(亦即，三维脸部模型102a)与第一三维标准模板(亦即，三维标准模板202a)间的差异(例如：网络拓扑的座标差异)，以及第一三维标准模板(亦即，三维标准模板202a)与各该其他三维标准模板(亦即，三维标准模板202b、202c、202d、202e、202f、202g)间的差异(例如：网络拓扑的座标差异)，产生其他三维脸部模型(亦即，三维脸部模型102b、102c、102d、102e、102f、102g)。

于某些实施方式中，为达到更为精确的效果，处理器11则是先利用深度摄影机21扫描使用者的二种表情，借此产生二种预设情绪的三维脸部模型，再根据该二个三维脸部模型产生其他几种预设情绪的三维脸部模型。为便于说明，兹假设处理器11所先处理的二种预设情绪为中性情绪及高兴情绪(但不以此为限)。

具体而言，于该多个实施方式中，深度摄影机21扫描使用者做出一第一表情(亦即，对应至中性情绪的表情)而产生多个第一深度值，各该第一深度值为深度摄影机21至使用者做出第一表情时的一脸部位置的一距离。此外，深度摄影机21扫描使用者做出一第二表情(亦即，对应至高兴情绪的表情)而产生多个第二深度值，各该第二深度值为深度摄影机21至使用者做出第二表情时的一脸部位置的一距离。表情拟真***2通过收发接口15(或另一收发接口)自深度摄影机21接收该多个第一深度值及该多个第二深度值。表情拟真***2后续要使用的一第一三维原始模型(未绘示)即包含该多个第一深度值，而后续要使用的一第二三维原始模型(未绘示)则包含该多个第二深度值。

类似的，处理器11将三维标准模板202a、202b、202c、202d、202e、202f、202g中的一第一三维标准模板(亦即，对应至中性情绪的三维标准模板202a)映射至一第一三维原始模型以产生一第一三维脸部模型(亦即，对应至中性情绪的三维脸部模型102a)，且将三维标准模板202a、202b、202c、202d、202e、202f、202g中的一第二三维标准模板(亦即，对应至高兴情绪的三维标准模板202b)映射至一第二三维原始模型以产生一第二三维脸部模型(亦即，对应至高兴情绪的三维脸部模型102b)。

举例而言，处理器11可将第一三维标准模板(亦即，三维标准模板202a)与第一三维原始模型进行特征匹配(例如：找出眼睛、鼻子及嘴唇等特征间的对应关系)，再利用径向基底函数的形状内插技术，对第一三维标准模板(亦即，三维标准模板202a)的网格拓扑进行形变，使的与第一三维原始模型的网格拓扑趋向近似，如此即可得到第一三维脸部模型(亦即，对应至中性情绪的三维脸部模型102a)。类似的，处理器11可将第二三维标准模板(亦即，三维标准模板202b)与第二三维原始模型进行特征匹配(例如：找出眼睛、鼻子及嘴唇等特征间的对应关系)，再利用径向基底函数的形状内插技术，对第二三维标准模板(亦即，三维标准模板202b)的网格拓扑进行形变，使之与第二三维原始模型的网格拓扑趋向近似，如此即可得到第二三维脸部模型(亦即，对应至中性情绪的三维脸部模型102b)。

之后，处理器11根据第一三维脸部模型(三维脸部模型102a)与第一三维标准模板(三维标准模板202a)间的差异(例如：网络拓扑的座标差异)，第二三维脸部模型(三维脸部模型102b)与第二三维标准模板(三维标准模板202b)间的(例如：网络拓扑的座标差异)，以及第一三维标准模板(三维标准模板202a)与各该其他三维标准模板(亦即，三维标准模板202c、202d、202e、202f、202g)间的(例如：网络拓扑的座标差异)，产生其他三维脸部模型(亦即，三维脸部模型102c、102d、102e、102f、102g)。

于某些实施方式中，表情拟真***2所执行的建置流程还包括训练出前述用于辨识出使用者的上半脸影像的预测模型，例如：深度学习模型106或其他具有辨识功能的模型。深度学习模型106可为一卷积神经网络(Convolutional Neural Network；CNN)模型、一循环神经网络(Recurrent Neural Network；RNN)，但不以此为限。以深度学习模型106为例，处理器11利用多张全脸影像进行一训练流程。具体而言，处理器11找出各张全脸影像的表情特征点，将之区分为下半脸的表情特征点及上半脸的表情特征点，以各张全脸影像的下半脸的表情特征点作为一深度学习网络(例如：卷积神经网络或一循环神经网络)的输入，将该深度学习网络训练成能找出对应的上半脸的表情特征点的模型作为深度学习模型106。

于某些实施方式中，存储器13所储存的声音情绪判断模型104为一泰尔情绪模型(Thayer's Emotion Model)，或是其他已知的情绪模型、自行建立的情绪模型等。于该多个实施方式中，声音情绪判断模型104包含三阶分类器。第一阶具有一个分类器，用于将声音信号120的声音信号特征值进行唤起程度(Arousal)分类。第二阶包含二个分类器，用于对第一阶的分类结果进行评价(Valence)分类。第三阶包含四个情绪分类器，用于对第二阶的分类结果进行情绪辨识，以获取使用者的当前情绪。于该多个实施方式中，表情拟真***2所执行的建置流程还包括训练出前述用于从声音信号120中辨识出当前情绪的声音情绪判断模型104。本领域技术人员皆熟知泰尔情绪模型的训练方式，故不赘言。

综上所述，表情拟真***2提供多个三维标准模板供使用者建置三维脸部模型的用。在建置过程，深度摄影机21扫描使用者所做出的一或多个表情而产生三维原始模型，再根据三维标准模板与三维原始模型间的各种关系，产生虚拟实境应用实际运行时所要使用的三维脸部模型。由于建置过程采用了使用者的三维原始模型，因此所产生的三维脸部模型将更为精准，因而能使该虚拟脸部模型的模拟的效果更加准确。

本发明的第三实施方式为一虚拟脸部模型的表情拟真方法，其流程图是描绘于图3A。该表情拟真方法适用于一电子计算装置，例如：前述实施方式中的表情拟真***1、2。该电子计算装置储存多个三维脸部模型，且该多个三维脸部模型一对一地对应至多个预设情绪。该表情拟真方法包含下列步骤S301至步骤S309。

于步骤S301，由该电子计算装置根据一使用者的一声音信号辨识出一当前情绪。于某些实施方式中，该一电子计算装置还储存一声音情绪判断模型，步骤S301可自该声音信号撷取多个声音信号特征值，再利用该声音情绪判断模型将该多个声音信号特征值辨识为对应至该当前情绪。接着，于步骤S303，由该电子计算装置根据该当前情绪从该多个三维脸部模型中选取出一选定模型，其中，该选定模型所对应的预设情绪与该当前情绪相同。

另外，于步骤S305，由该电子计算装置根据该使用者的一下半脸影像预测出一上半脸影像。于某些实施方式中，步骤S305是利用一深度学习模型来从该下半脸影像预测出该上半脸影像。此外，于某些实施方式中，为获得更佳的预测效果，该表情拟真方法可于步骤S305前先执行另一步骤以对下半脸影像进行亮度补偿，步骤S305再以亮度补偿后的下半脸影像预测出该上半脸影像。

需说明者，本发明未限制表情拟真方法如何取得该使用者的该下半脸影像。于某些实施方式中，该表情拟真方法可于步骤S305前执行另一步骤，由一红外线摄影机扫描该使用者的下半脸以产生一二维影像，该二维影像即为使用者的下半脸影像。于某些实施方式中，该表情拟真方法则是于步骤S305前执行另一步骤，由该电子计算装置从一外接的红外线摄影机接收该下半脸影像。

于步骤S305后，该电子计算装置执行步骤S307，将该下半脸影像及该上半脸影像整合为一全脸影像(例如：通过特征点匹配的技术来整合)。于某些实施方式中，表情拟真方法还可于步骤S307后执行一步骤，由该电子计算装置对该全脸影像进行亮度补偿。

需说明者，于本实施方式中，表情拟真方法是以平行运算的方式处理前述与声音有关的步骤(包含步骤S301、S303)以及前述与影像有关的步骤(包含步骤S305、S307)，如图3所示。然而，于某些实施方式中，表情拟真方法可先执行前述与声音有关的步骤(包含步骤S301、S303)，再执行前述与影像有关的步骤(包含步骤S305、S307)。于某些实施方式中，表情拟真方法则可先执行前述与影像有关的步骤(包含步骤S305、S307)，再执行前述与声音有关的步骤(包含步骤S301、S303)。

当取得该全脸影像及该选定模型后，于步骤S309，该电子计算装置借由将该全脸影像的多个脸部特征与该选定模型的多个脸部特征匹配以获得多个特征对应关系。需说明者，该选定模型的各该脸部特征为三维，而该全脸影像的各该脸部特征为二维。因此，于某些实施方式中，步骤S309是以一透视投影法先将该选定模型的该多个脸部特征由三维降维成为二维，再将该全脸影像的该多个脸部特征与降维后的该选定模型的该多个脸部特征匹配以获得该多个脸部特征对应关系。在获得该多个特征对应关系后，该使用者于虚拟实境中的一虚拟脸部模型便能根据该多个特征对应关系而改变，借此模拟使用者的表情。

于某些实施方式中，表情拟真方法还可在执行步骤S301至步骤S309前执行如图3B所示的一建置流程。于该多个实施方式中，该电子计算装置还储存多个三维标准模板，其是一对一地对应至多个预设情绪。该建置流程包括步骤S311至步骤S313。

于步骤S311，该电子计算装置将该多个三维标准模板中的一第一三维标准模板映射至一第一三维原始模型以产生一第一三维脸部模型。于步骤S313，该电子计算装置根据该第一三维脸部模型与该第一三维标准模板间的差异，以及该第一三维标准模板与各该其他三维标准模板间的差异，产生其他三维脸部模型。

需说明者，于某些实施方式中，表情拟真方法可于步骤S311之前执行另一步骤，由一深度摄影机扫描使用者所做出的第一表情以产生多个第一深度值，再以该多个第一深度值形成该第一三维原始模型。前述该多个第一深度值为该深度摄影机至该使用者所做出的该第一表情时的一脸部位置的一距离。

于某些实施方式中，为达到更为精确的效果，表情拟真方法则可改为执行如图3C所示的一建置流程。该建置流程包含步骤S321至步骤S325。

于步骤S321，该电子计算装置将该多个三维标准模板中的一第一三维标准模板映射至一第一三维原始模型以产生一第一三维脸部模型。于步骤S323，该电子计算装置将该多个三维标准模板中的一第二三维标准模板映射至一第二三维原始模型以产生一第二三维脸部模型。于步骤S325，该电子计算装置根据该第一三维脸部模型与该第一三维标准模板间的差异，该第二三维标准模板与该第二三维标准模板间的差异，以及该第一三维标准模板与各该其他三维标准模板间的差异，产生其他三维脸部模型。

类似的，于某些实施方式中，表情拟真方法可于步骤S321之前执行另一步骤，由一深度摄影机扫描使用者所做出的第一表情以产生多个第一深度值，再以该多个第一深度值形成该第一三维原始模型。表情拟真方法可于步骤S321之前再执行另一步骤，由该深度摄影机扫描使用者所做出的第二表情以产生多个第二深度值，再以该多个第二深度值形成该第二三维原始模型。需说明者，各该第一深度值为该深度摄影机至使用者做出该第一表情时的一脸部位置的一距离，而各该第二深度值为该深度摄影机至使用者做出该第二表情时的一脸部位置的一距离。

除了上述步骤，第三实施方式亦能执行第一及第二实施方式所描述的所有运作及步骤，具有同样的功能，且达到同样的技术效果。本领域技术人员可直接了解第三实施方式如何基于上述第一及第二实施方式以执行此等运作及步骤，具有同样的功能，并达到同样的技术效果，故不赘述。

综上所述，本发明所提供的虚拟脸部模型的表情拟真技术(至少包含***及方法)应用于一虚拟实境应用时，会根据使用者所发出的声音辨识出使用者的当前情绪，再选取出符合该当前情绪的三维脸部模型作为后续要采用的选定模型，因此该选定模型具有符合使用者当前情绪的表情。此外，本发明所提供的表情拟真技术会根据使用者的下半脸影像预测出上半脸影像，且将该下半脸影像及上半脸影像整合出全脸影像，借此取得更精确、拟真的全脸影像。由于选定模型与全脸影像是分别基于使用者当前的声音及下半脸影像所产生，因此借由找出该全脸影像与该选定模型间的特征对应关系再据以改变使用者所对应的虚拟脸部模型，能使该虚拟脸部模型更为精准地模拟该使用者的表情，达到更为拟真的效果。由此可知，本发明所提供的表情拟真技术能在不额外地配置传感器的情况下，解决头戴式显示器遮蔽使用者上半脸而无法使虚拟脸部模型具有拟真表情的问题。

另外，本发明所提供的表情拟真技术还可包括三维脸部模型的建置流程，其是基于使用者所做出的一或多个表情而建置，因此能产生出更为精确的三维脸部模型，使得该虚拟脸部模型的模拟效果更加准确，达到更为拟真的效果。

上述实施方式仅为例示性说明本发明的部分实施态样，以及阐释本发明的技术特征，而非用来限制本发明的保护范畴及范围。任何熟悉此技艺的人士可轻易完成的改变或均等性的安排均属于本发明所主张的范围，本发明的权利保护范围应以申请专利范围为准。

Claims

1.一种虚拟脸部模型的表情拟真***，其特征在于，包含：

一存储器，储存多个三维脸部模型，其中，该多个三维脸部模型一对一地对应至多个预设情绪；以及

一处理器，电性连接至该存储器，根据一声音信号辨识出一当前情绪，且根据该当前情绪从该多个三维脸部模型中选取出一选定模型，其中，该选定模型所对应的该预设情绪与该当前情绪相同；

其中，该处理器根据一下半脸影像预测出一上半脸影像，将该下半脸影像及该上半脸影像整合为一全脸影像，以及借由将该全脸影像的多个脸部特征与该选定模型的多个脸部特征匹配以获得多个特征对应关系，俾一虚拟脸部模型根据该多个特征对应关系而改变以模拟一表情。

2.如权利要求1所述的虚拟脸部模型的表情拟真***，其特征在于，该存储器还储存多个三维标准模板，该多个三维标准模板一对一地对应至该多个预设情绪，该处理器是借由以下运作产生该多个三维脸部模型：(i)将该多个三维标准模板中的一第一三维标准模板映射至一第一三维原始模型以产生该多个三维脸部模型中的一第一三维脸部模型，以及(ii)根据该第一三维脸部模型与该第一三维标准模板间的差异以及该多个三维标准模板中的该第一三维标准模板与各该其他三维标准模板间的差异，产生该多个三维脸部模型中的其他三维脸部模型。

3.如权利要求2所述的虚拟脸部模型的表情拟真***，其特征在于，该第一三维原始模型包含由一深度摄影机扫描一使用者做出一第一表情时所产生的多个第一深度值，各该第一深度值为该深度摄影机至该使用者做出该第一表情时的一脸部位置的一距离。

4.如权利要求1所述的虚拟脸部模型的表情拟真***，其特征在于，该存储器还储存多个三维标准模板，该多个三维标准模板一对一地对应至该多个预设情绪，该处理器是借由以下运作产生该多个三维脸部模型：(i)将该多个三维标准模板中的一第一三维标准模板映射至一第一三维原始模型以产生该多个三维脸部模型中的一第一三维脸部模型，(ii)将该多个三维标准模板的一第二标准模板映射至一第二三维原始模型以产生该多个三维脸部模型中的一第二三维脸部模型，以及(iii)根据该第一三维脸部模型与该第一三维标准模板间的差异，该第二三维脸部模型与该第二三维标准模板间的差异，以及该多个三维标准模板中的该第一三维标准模板与各该其他三维标准模板间的差异，产生该多个三维脸部模型中的其他三维脸部模型。

5.如权利要求4所述的虚拟脸部模型的表情拟真***，其特征在于，该第一三维原始模型包含由一深度摄影机扫描一使用者做出一第一表情时所产生的多个第一深度值，各该第一深度值为该深度摄影机至该使用者做出该第一表情时的一脸部位置的一距离，该第二三维原始模型包含由该深度摄影机扫描该使用者做出一第二表情时所产生的多个第二深度值，各该第二深度值为该深度摄影机至该使用者做出该第二表情时的一脸部位置的一距离。

6.如权利要求1所述的虚拟脸部模型的表情拟真***，其特征在于，该下半脸影像是由一红外线摄影机扫描一使用者的下半脸所产生的一二维影像。

7.如权利要求1所述的虚拟脸部模型的表情拟真***，其特征在于，该处理器是利用一深度学习模型预测出该上半脸影像。

8.如权利要求1所述的虚拟脸部模型的表情拟真***，其特征在于，该处理器还将该全脸影像进行亮度补偿。

9.如权利要求1所述的虚拟脸部模型的表情拟真***，其特征在于，该选定模型的各该脸部特征为三维，该全脸影像的各该脸部特征为二维，该处理器是以一透视投影法先将该选定模型的该多个脸部特征由三维降维成为二维，再将该全脸影像的该多个脸部特征与降维后的该选定模型的该多个脸部特征匹配以获得该多个特征对应关系。

10.如权利要求1所述的虚拟脸部模型的表情拟真***，其特征在于，该存储器还储存一声音情绪判断模型，该处理器还自该声音信号撷取多个声音信号特征值，且该处理器还利用该声音情绪判断模型将该多个声音信号特征值辨识为对应至该当前情绪。

11.一种虚拟脸部模型的表情拟真方法，其特征在于，适用于一电子计算装置，该电子计算装置储存多个三维脸部模型，该多个三维脸部模型一对一地对应至多个预设情绪，该表情拟真方法包含下列步骤：

(a)根据一声音信号辨识出一当前情绪；

(b)根据该当前情绪从该多个三维脸部模型中选取出一选定模型，其中，该选定模型所对应的该预设情绪与该当前情绪相同；

(c)根据一下半脸影像预测出一上半脸影像；

(d)将该下半脸影像及该上半脸影像整合为一全脸影像；以及

(e)借由将该全脸影像的多个脸部特征与该选定模型的多个脸部特征匹配以获得多个特征对应关系，俾一虚拟脸部模型根据该多个特征对应关系而改变以模拟一表情。

12.如权利要求11所述的虚拟脸部模型的表情拟真方法，其特征在于，该电子计算装置还储存多个三维标准模板，该多个三维标准模板一对一地对应至该多个预设情绪，该脸部表情拟真方法还包含以下步骤：

将该多个三维标准模板中的一第一三维标准模板映射至一第一三维原始模型以产生该多个三维脸部模型中的一第一三维脸部模型；以及

根据该第一三维脸部模型与该第一三维标准模板间的差异以及该多个三维标准模板中的该第一三维标准模板与各该其他三维标准模板间的差异，产生该多个三维脸部模型中的其他三维脸部模型。

13.如权利要求12所述的虚拟脸部模型的表情拟真方法，其特征在于，还包含下列步骤：

由一深度摄影机扫描一使用者所做出的一第一表情以产生多个第一深度值，其中，各该第一深度值为该深度摄影机至该使用者做出该第一表情时的一脸部位置的一距离；

其中，该第一三维原始模型包含该多个第一深度值。

14.如权利要求11所述的虚拟脸部模型的表情拟真方法，其特征在于，该电子计算装置还储存多个三维标准模板，该多个三维标准模板一对一地对应至该多个预设情绪，该脸部表情拟真方法还包含以下步骤：

将该多个三维标准模板中的一第一三维标准模板映射至一第一三维原始模型以产生该多个三维脸部模型中的一第一三维脸部模型；

将该多个三维标准模板中的一第二三维标准模板映射至一第二三维原始模型以产生该多个三维脸部模型中的一第二三维脸部模型；以及

根据该第一三维脸部模型与该第一三维标准模板间的差异，该第二三维脸部模型与该第二三维标准模板间的差异，以及该多个三维标准模板中的该第一三维标准模板与各该其他三维标准模板间的差异，产生该多个三维脸部模型中的其他三维脸部模型。

15.如权利要求14所述的虚拟脸部模型的表情拟真方法，其特征在于，还包含下列步骤：

由一深度摄影机扫描一使用者所做出的一第一表情以产生多个第一深度值，其中，各该第一深度值为该深度摄影机至该使用者做出该第一表情时的一脸部位置的一距离；以及

由该深度摄影机扫描该使用者所做出的一第二表情以产生多个第二深度值，其中，各该第二深度值为该深度摄影机至该使用者做出该第二表情时的一脸部位置的一距离；

其中，该第一三维原始模型包含该多个第一深度值，且该第二三维原始模型包含该多个第二深度值。

16.如权利要求11所述的虚拟脸部模型的表情拟真方法，其特征在于，还包含下列步骤：

由一红外线摄影机扫描一使用者的下半脸以产生该下半脸影像，其中，该下半脸影像为一二维影像。

17.如权利要求11所述的虚拟脸部模型的表情拟真方法，其特征在于，该步骤(c)是利用一深度学习模型预测出该上半脸影像。

18.如权利要求11所述的虚拟脸部模型的表情拟真方法，其特征在于，还包含下列步骤：

对该全脸影像进行亮度补偿。

19.如权利要求11所述的虚拟脸部模型的表情拟真方法，其特征在于，该选定模型的各该脸部特征为三维，该全脸影像的各该脸部特征为二维，该步骤(e)是以一透视投影法先将该选定模型的该多个脸部特征由三维降维成为二维，再将该全脸影像的该多个脸部特征与降维后的该选定模型的该多个脸部特征匹配以获得该多个脸部特征对应关系。

20.如权利要求11所述的虚拟脸部模型的表情拟真方法，其特征在于，该电子计算装置还储存一声音情绪判断模型，该步骤

(a)包含下列步骤：

自该声音信号撷取多个声音信号特征值；以及

利用该声音情绪判断模型将该多个声音信号特征值辨识为对应至该当前情绪。