CN111460945A

CN111460945A - 一种基于人工智能获取rgb视频中3d表情的算法

Info

Publication number: CN111460945A
Application number: CN202010215726.2A
Authority: CN
Inventors: 高立艳; 何書廉; 陆晓飞; 徐阳; 刘烨斌; 方浩树
Original assignee: Yiyun Zhixing Shenzhen Technology Co ltd
Current assignee: Yiyun Zhixing Shenzhen Technology Co ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-07-28

Abstract

本发明公开了一种基于人工智能获取RGB视频中3D表情的算法，包括以下步骤：S1、服务器端接收包含人脸的RGB视频信息；S2、从视频中计算出人脸的位置；S3、从视频中计算出人脸特征点检测；S4、对人脸信息进行数据标准化；S5、提取人脸信息的特征数据；S6、将特征数据输入到本地存储的深度学习模型；S7、深度学习模型计算出Blend Shape数值；S8、对输出的出Blend Shape数值进行自动优化。本发明的优点在于：无需过多硬件设备、可输出详细的Blend Shape数值、可应用于3D动画制作。

Description

一种基于人工智能获取RGB视频中3D表情的算法

技术领域

本发明涉及表情识别领域，具体是指一种基于人工智能获取RGB视频中3D表情的算法。

背景技术

随着科技的进步，以深度学习为基础的视频分析技术发展迅速，如：姿态估计，动作跟踪, 人脸特征点检测等，大量重要讯息都可从视频及图像中以计算器视觉算法抽取出来。

对于从视频中对面部表情进行识别，现在的技术一般只输出简陋的信息，如：喜、怒、哀、乐等，作面部表情的标签，或是绑定在某一品牌智能手机的 API 开发软件上，如：苹果手机的ARKit。

发明内容

本发明要解决的技术问题是，针对上述问题，提出一种无需过多硬件设备、可输出详细的Blend Shape 数值、可应用于3D动画制作的基于人工智能获取RGB视频中3D表情的算法。

为解决上述技术问题，本发明提供的技术方案为：一种基于人工智能获取RGB视频中3D表情的算法，包括以下步骤：

一种基于人工智能获取RGB视频中3D表情的算法，包括以下步骤：

S1、用户经网络接口上传视频到服务器，服务器端接收包含人脸的RGB视频信息；

S2、从视频中取出每一帧并以图像格式作暂存，并把每一张图片输入 DLib 的人脸关键点侦测***以取得关键点的 X 及 Y 坐标；

S3、基于取得的关键点坐标抽取人脸特征，以人脸不同部份区分特征点群；

S4、对每一个特征点群进行数据标准化，以 P = {p1, p2, ..., pn} 为所有(n个)特征点为例，标准化的特征点群P’计算公式为:

Q = P / (max(P) – min(P))

P’= Q - mean(Q)；

S5、提取人脸信息的特征数据，已标准化的特征点群将成为不同的特征数据；

S6、将特征数据输入到本地存储的深度学习模型；

S7、深度学习模型计算出Blend Shape数值，以特征数据 P’作输入并计算出BlendShape数值bs，公式为：

bs = P’ * M + b

其中 M 及 b 将从深度学习训练过程中求取；

S8、对输出的出Blend Shape数值进行自动优化。

进一步的，所述S1中服务器接收的人脸信息为用户选择的人脸信息。

进一步的，所述S3中的特征点群包括左眼眉、右眼眉、左眼、右眼、鼻子及嘴巴。

进一步的，所述S7中深度学习模型利用多层神经网络，在训练数据中学习人脸信息的特征数据与Blend Shape数值的相关性。

本发明与现有技术相比的优点在于：该基于智能终端的级联通信资源图形化交互方法，服务器端接收包含人脸的RGB视信息，从视频中计算出人脸的位置，对人脸信息进行数据标准化，从视频中人脸的位置及人脸特征点的位置计算出特征数据，然后将特征数据输入到本地存储的深度学习模型，该深度学习模型利用本发明所收集的大量包含人脸的RGB视频数据训练而成，深度学习模型输出Blend Shape数值，最后，自动优化Blend Shape数值为最终结果，在面部表情识别过程中，直接使用RGB视频，无需其他的硬件如深度摄影机或某一品牌的智能电话，并输出详细的Blend Shape 数值表达细致的表情，可应用于影视、3D动画、虚拟角色的制作。

附图说明

图1本发明一种基于人工智能获取RGB视频中3D表情的算法的流程图。

具体实施方式

实施例

S1、用户经网络接口(如网站以 HTTP 超文本传输协议)上传视频到服务器，服务器端接收包含人脸的RGB视频信息；

S3、基于取得的关键点坐标抽取人脸特征，以人脸不同部份区分特征点群，包括左眼眉、右眼眉、左眼、右眼、鼻子及嘴巴；

Q = P / (max(P) – min(P))

P’= Q - mean(Q)；

S6、将特征数据输入到本地存储的深度学习模型；

bs = P’ * M + b

其中 M 及 b 将从深度学习训练过程中求取；

S8、对输出的出Blend Shape数值进行自动优化。

以上所述仅是本发明的优选实施方式，并不用以限制本发明。凡在本发明的原理之内所作的修改和改进均应包含在本发明的保护范围内。

Claims

1.一种基于人工智能获取RGB视频中3D表情的算法，其特征在于，包括以下步骤：

Q = P / (max(P) – min(P))

P’= Q - mean(Q)；

S6、将特征数据输入到本地存储的深度学习模型；

bs = P’ * M + b

其中 M 及 b 将从深度学习训练过程中求取；

S8、对输出的出Blend Shape数值进行自动优化。

2.根据权利要求1所述的一种基于人工智能获取RGB视频中3D表情的算法，其特征在于：所述S1中服务器接收的人脸信息为用户选择的人脸信息。

3.根据权利要求1所述的一种基于人工智能获取RGB视频中3D表情的算法，其特征在于：所述S3中的特征点群包括左眼眉、右眼眉、左眼、右眼、鼻子及嘴巴。

4.根据权利要求1所述的一种基于人工智能获取RGB视频中3D表情的算法，其特征在于：所述S7中深度学习模型利用多层神经网络，在训练数据中学习人脸信息的特征数据与Blend Shape数值的相关性。