CN106231434B

CN106231434B - 一种基于人脸检测的直播互动特效实现方法及***

Info

Publication number: CN106231434B
Application number: CN201610592350.0A
Authority: CN
Inventors: 赵连超; 张朝兵
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2016-07-25
Filing date: 2016-07-25
Publication date: 2019-09-10
Anticipated expiration: 2036-07-25
Also published as: CN106231434A

Abstract

本发明公开了一种基于人脸检测的直播互动特效实现方法及***，涉及直播特效技术领域。该方法包括：主播通过主播端将直播间设置为特效开启状态，用户通过用户端进入特效开启的直播间；当主播开始直播后，主播端启动音视频采样和编码，用户在用户端进行付费特效的购买；直播过程中，主播端进行实时的人脸检测并上报至直播服务器，用户端完成与主播的特效互动并上报至直播服务器；直播服务器根据收到的信息进行整合处理，并将处理后的数据分别发回至主播端、用户端；最后，分别在主播端、用户端的播放器中进行互动特效渲染。本发明能满足用户的多样化互动需求，使得用户体验更好。

Description

一种基于人脸检测的直播互动特效实现方法及***

技术领域

本发明涉及直播特效技术领域，具体来讲是一种基于人脸检测的直播互动特效实现方法及***。

背景技术

随着互联网技术的迅速发展，越来越多的用户可以使用电脑、手机等终端通过网络观看在线视频直播。在线视频直播是指利用互联网网络资源进行的现场视频直播服务，通过现场的视频拍摄同步发布到网络上，用户可以同一时间在网络上看到实时的现场情况。

目前，随着直播行业的快速发展，用户与自己喜爱的主播之间的互动需求越来越多，而现有的普遍使用的直播互动方式主要为传统的文字互动。但是，实际使用中，有的主播的忠实粉丝往往希望有更多样的互动方式，而且这部分用户的付费意愿高，更愿意尝试一些新的互动方式。

由于传统的文字互动已无法满足用户的多样化互动需求，因此，如何设计出更多样化的直播互动方式，是直播领域亟待解决的问题。

发明内容

本发明的目的是为了克服上述背景技术的不足，提供一种基于人脸检测的直播互动特效实现方法及***，能满足用户的多样化互动需求，使得用户体验更好。

为达到以上目的，本发明提供一种基于人脸检测的直播互动特效实现方法，包括以下步骤：S1：主播通过主播端将直播间设置为特效开启状态；用户通过用户端进入特效开启的直播间，转入S2；S2：当主播开始直播后，主播端启动音视频采样和编码，用户在用户端进行付费特效的购买操作，转入S3；S3：直播过程中，主播端对主播进行实时的人脸检测，并将人脸检测的数据上报至直播服务器；用户端根据用户选择使用的所述付费特效，完成与主播的特效互动，并将特效互动操作的信息上报至直播服务器，转入S4；S4：直播服务器根据收到的人脸检测的数据以及特效互动操作的信息进行整合处理，将特效添加到人脸检测后的相应部位；并将处理后的数据分别发送至主播端、用户端，转入S5；S5：主播端根据直播服务器整合处理后的数据，在主播端的播放器中进行互动特效的渲染；用户端根据直播服务器整合处理后的数据，在用户端的播放器中进行互动特效的渲染，结束；

其中，所述步骤S3中，在对主播进行实时的人脸检测之后还包括人脸关键部位检测操作：利用已经预设好的人脸关键部位的特征映射和线性投影，得到一个更新的关键部位的形状；将关键部位的形状与检测到的人脸进行迭代，直至最终得到人脸关键部位的定位；其中，所述已经预设好的人脸关键部位的特征映射和线性投影是通过对每个关键部位所对应的局部二值化特征离线进行全局回归学习后训练得到的。

在上述技术方案的基础上，步骤S2中所述付费特效包括动画特效和文字特效；所述动画特效包括：脸部墨镜特效、脸部腮红特效、变脸特效、头部花环特效，所述文字特效包括：脸部文字特效、额头文字特效、头顶文字特效。

在上述技术方案的基础上，步骤S3中所述主播端对主播进行实时的人脸检测，具体包括以下步骤：将已经预设好的人脸模型在实时的视频帧中滑动比对，依次判断每个滑窗中是否均存在人脸，若是，则检测出直播场景中有人脸；若否，则检测出直播场景中没有人脸；其中，所述已经预设好的人脸模型是采用离线的人脸数据集进行训练得到的。

在上述技术方案的基础上，步骤S3中，在对主播进行实时的人脸检测之后还包括人脸校正操作，用于实现对人脸图像的校正调整。

本发明同时还提供一种基于人脸检测的直播互动特效实现***，包括客户端和直播服务器，客户端分为主播端和用户端；主播端包括直播间设置模块、音视频采样模块、人脸检测模块和主播端渲染模块；用户端包括直播间进入模块、特效购买模块、特效使用模块、和用户端渲染模块；

其中，所述直播间设置模块用于：将直播间设置为特效开启状态；所述音视频采样模块用于：当主播开始直播后，启动音视频采样和编码；所述人脸检测模块用于：在直播过程中对主播进行实时的人脸检测，并将人脸检测的数据上报至直播服务器；所述主播端渲染模块用于：根据直播服务器整合处理后的数据，在主播端的播放器中进行互动特效的渲染；所述直播间进入模块用于；根据用户的选择进入特效开启的直播间；所述特效购买模块用于：根据用户操作进行付费特效的购买；所述特效使用模块用于：根据用户选择使用的所述付费特效，完成与主播的特效互动，并将特效互动操作的信息上报至直播服务器；所述用户端渲染模块用于：根据直播服务器整合处理后的数据，在用户端的播放器中进行互动特效的渲染；所述直播服务器用于：根据收到的人脸检测的数据以及特效互动操作的信息进行整合处理，将特效添加到人脸检测后的相应部位；并将处理后的数据分别发送至主播端、用户端；

该***还包括人脸关键部位检测模块，所述人脸关键部位检测模块进行关键部位检测的具体过程为：利用已经预设好的人脸关键部位的特征映射和线性投影，得到一个更新的关键部位的形状；将关键部位的形状与检测到的人脸进行迭代，直至最终得到人脸关键部位的定位；其中，所述已经预设好的人脸关键部位的特征映射和线性投影是通过对每个关键部位所对应的局部二值化特征离线进行全局回归学习后训练得到的。

在上述技术方案的基础上，所述付费特效包括动画特效和文字特效；所述动画特效包括：脸部墨镜特效、脸部腮红特效、变脸特效、头部花环特效，所述文字特效包括：脸部文字特效、额头文字特效、头顶文字特效。

在上述技术方案的基础上，所述人脸检测模块对主播进行实时的人脸检测的具体过程包括：将已经预设好的人脸模型在实时的视频帧中滑动比对，依次判断每个滑窗中是否均存在人脸，若是，则检测出直播场景中有人脸；若否，则检测出直播场景中没有人脸；其中，所述已经预设好的人脸模型是采用离线的人脸数据集进行训练得到的。

在上述技术方案的基础上，该***还包括人脸校正模块，所述人脸校正模块用于实现对人脸图像的校正调整。

本发明的有益效果在于：

(1)本发明采用了一种基于人脸检测的直播互动特效实现方法，使得用户在用户端可以通过购买付费特效的方式，给主播的眼睛、耳朵、鼻子、头发等地方增加一些动画特效或者文字特效。与现有技术的单一文字互动相比，本发明增加了用户与主播之间的动画特效互动方式，使得用户与主播的互动更亲昵、更多样化。对主播来说，可有效增强粉丝的粘性；对用户来说，可得到更好更多元化的体验，用户体验佳。

(2)本发明中，主播端对主播进行实时的人脸检测之后，还会进行相应的人脸校正操作和人脸关键部位检测操作，能更好的实现人脸的检测，提高人脸检测质量。

附图说明

图1为本发明实施例中基于人脸检测的直播互动特效实现方法的流程图；

图2为本发明实施例中基于人脸检测的直播互动特效实现***的结构框图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述。

参见图1所示，本发明实施例提供一种基于人脸检测的直播互动特效实现方法，包括以下步骤：

步骤S1：主播通过主播所在的客户端(以下简称：主播端)将直播间设置为特效开启状态；用户通过用户所在的客户端(以下简称：用户端)进入特效开启的直播间，转入步骤S2。

步骤S2：当主播开始直播后，主播端启动音视频采样和编码，用户在用户端进行付费特效的购买操作，转入步骤S3。

本实施例中，所述付费特效包括但不限于动画特效、文字特效。其中，动画特效包括但不限于：脸部墨镜特效、脸部腮红特效、变脸特效(将主播脸部变成可爱动物的脸型，如猪、兔子、猫等)、头部花环特效等；文字特效包括但不限于：脸部文字特效、额头文字特效、头顶文字特效等。

步骤S3：直播过程中，主播端对主播进行实时的人脸检测，并将人脸检测的数据上报至直播服务器；用户端根据用户选择使用的所述付费特效，完成与主播的特效互动，并将特效互动操作的信息上报至直播服务器，转入步骤S4。

实际操作时，步骤S3中所述主播端对主播进行实时的人脸检测，具体包括以下步骤：将已经预设好的人脸模型在实时的视频帧中滑动比对，依次判断每个滑窗中是否均存在人脸，若是，则检测出直播场景中有人脸；若否，则检测出直播场景中没有人脸。其中，所述已经预设好的人脸模型是采用离线的人脸数据集进行训练得到的。本实施例中，具体是采用Adaboost的训练方法得到人脸模型。

进一步地，为了更好的实现人脸的检测，提高人脸检测质量，本实施例中，主播端对主播进行实时的人脸检测之后，还包括人脸关键部位检测操作和人脸校正操作。

其中，人脸关键部位检测操作具体包括以下步骤：利用已经预设好的人脸关键部位的特征映射(feature mapping)和线性投影(linear projection)，得到一个更新的关键部位的形状Shape；将关键部位的形状Shape与检测到的人脸进行迭代，直至最终得到人脸关键部位的定位。可以理解的是，所述已经预设好的人脸关键部位的特征映射和线性投影是通过对每个关键部位所对应的局部二值化特征(LBF，LocalBinaryFeature)离线进行全局回归学习后训练得到的。其中，关键部位所对应的局部二值化特征是通过对关键部位的训练图片采用随机森林算法和形状索引特征计算得到的。该方法能取得一个较好的时间运行效率和准确率，在客户端能达到300fps的效率。

另外，实际操作中，现有的人脸校正操作的算法较多，本发明在此不赘述，也不做任何一种算法的限定，操作人员可根据实际需要进行自行选择。

步骤S4：直播服务器根据收到的人脸检测的数据以及特效互动操作的信息进行整合处理，将特效添加到人脸检测后的相应部位；并将处理后的数据分别发送至主播端、用户端，转入步骤S5。

具体来说，将特效添加到人脸检测后的相应部位，具体操作如下：若用户使用的是脸部墨镜特效，则根据人脸检测到的人眼位置，在人眼处添加一副墨镜；若用户使用的是头部花环特效，则根据人脸检测到的头顶位置，在头顶处添加一个发光的花环；若用户使用的是脸部腮红特效，则根据人脸检测到的脸颊位置，在脸颊处为主播添加腮红特效；若用户使用的是变脸特效，则根据人脸检测到的整个面部，将主播面部变成指定的动物脸型(如猪、兔子，猫等)。但可以理解的是，实际操作时可包括以上几种特效添加情况，但不限于以上几种。

步骤S5：主播端根据直播服务器整合处理后的数据，在主播端的播放器中进行互动特效的渲染(即在主播端显示特效)；用户端根据直播服务器整合处理后的数据，在用户端的播放器中进行互动特效的渲染(即在用户端显示特效)，结束。

参见图2所示，本发明实施例还提供一种基于人脸检测的直播互动特效实现***。该***包括客户端和直播服务器，客户端分为主播端(主播所在的客户端)和用户端(用户所在的客户端)。其中，主播端包括直播间设置模块、音视频采样模块、人脸检测模块和主播端渲染模块；用户端包括直播间进入模块、特效购买模块、特效使用模块、和用户端渲染模块。

直播间设置模块用于：将直播间设置为特效开启状态；

音视频采样模块用于：当主播开始直播后，启动音视频采样和编码；

人脸检测模块用于：在直播过程中对主播进行实时的人脸检测，并将人脸检测的数据上报至直播服务器；

主播端渲染模块用于：根据直播服务器整合处理后的数据，在主播端的播放器中进行互动特效的渲染；

直播间进入模块用于；根据用户的选择进入特效开启的直播间；

特效购买模块用于：根据用户操作进行付费特效的购买；

特效使用模块用于：根据用户选择使用的所述付费特效，完成与主播的特效互动，并将特效互动操作的信息上报至直播服务器；

用户端渲染模块用于：根据直播服务器整合处理后的数据，在用户端的播放器中进行互动特效的渲染；

直播服务器用于：根据收到的人脸检测的数据以及特效互动操作的信息进行整合处理，将特效添加到人脸检测后的相应部位；并将处理后的数据分别发送至主播端、用户端。

进一步地，所述人脸检测模块对主播进行实时的人脸检测的具体过程包括：将已经预设好的人脸模型在实时的视频帧中滑动比对，依次判断每个滑窗中是否均存在人脸，若是，则检测出直播场景中有人脸；若否，则检测出直播场景中没有人脸。其中，所述已经预设好的人脸模型是采用离线的人脸数据集进行训练得到的。本实施例中，具体是采用Adaboost的训练方法得到人脸模型。

更进一步地，为了更好的实现人脸的检测，提高人脸检测质量，本***还包括用于对人脸图像进行校正的人脸校正模块和人脸关键部位检测模块。其中，人脸关键部位检测模块进行关键部位检测的具体过程为：利用已经预设好的人脸关键部位的特征映射和线性投影，得到一个更新的关键部位的形状；将关键部位的形状与检测到的人脸进行迭代，直至最终得到人脸关键部位的定位。

需要说明的是：上述实施例提供的***在进行操作时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将***的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于人脸检测的直播互动特效实现方法，其特征在于，该方法包括以下步骤：

S1：主播通过主播端将直播间设置为特效开启状态；用户通过用户端进入特效开启的直播间，转入S2；

S2：当主播开始直播后，主播端启动音视频采样和编码，用户在用户端进行付费特效的购买操作，转入S3；

S3：直播过程中，主播端对主播进行实时的人脸检测，并将人脸检测的数据上报至直播服务器；用户端根据用户选择使用的所述付费特效，完成与主播的特效互动，并将特效互动操作的信息上报至直播服务器，转入S4；

S4：直播服务器根据收到的人脸检测的数据以及特效互动操作的信息进行整合处理，将特效添加到人脸检测后的相应部位；并将处理后的数据分别发送至主播端、用户端，转入S5；

S5：主播端根据直播服务器整合处理后的数据，在主播端的播放器中进行互动特效的渲染；用户端根据直播服务器整合处理后的数据，在用户端的播放器中进行互动特效的渲染，结束；

其中，所述步骤S3中，在对主播进行实时的人脸检测之后还包括人脸关键部位检测操作：利用已经预设好的人脸关键部位的特征映射和线性投影，得到一个更新的关键部位的形状；将关键部位的形状与检测到的人脸进行迭代，直至最终得到人脸关键部位的定位；其中，所述已经预设好的人脸关键部位的特征映射和线性投影是通过对每个关键部位所对应的局部二值化特征离线进行全局回归学习后训练得到的；

步骤S2中所述付费特效包括动画特效和文字特效；所述动画特效包括：脸部墨镜特效、脸部腮红特效、变脸特效、头部花环特效，所述文字特效包括：脸部文字特效、额头文字特效、头顶文字特效。

2.如权利要求1所述的基于人脸检测的直播互动特效实现方法，其特征在于：步骤S3中所述主播端对主播进行实时的人脸检测，具体包括以下步骤：将已经预设好的人脸模型在实时的视频帧中滑动比对，依次判断每个滑窗中是否均存在人脸，若是，则检测出直播场景中有人脸；若否，则检测出直播场景中没有人脸；其中，所述已经预设好的人脸模型是采用离线的人脸数据集进行训练得到的。

3.如权利要求1所述的基于人脸检测的直播互动特效实现方法，其特征在于：步骤S3中，在对主播进行实时的人脸检测之后还包括人脸校正操作，用于实现对人脸图像的校正调整。

4.一种基于人脸检测的直播互动特效实现***，包括客户端和直播服务器，客户端分为主播端和用户端，其特征在于：主播端包括直播间设置模块、音视频采样模块、人脸检测模块和主播端渲染模块；用户端包括直播间进入模块、特效购买模块、特效使用模块、和用户端渲染模块；其中，

所述直播间设置模块用于：将直播间设置为特效开启状态；

所述音视频采样模块用于：当主播开始直播后，启动音视频采样和编码；

所述人脸检测模块用于：在直播过程中对主播进行实时的人脸检测，并将人脸检测的数据上报至直播服务器；

所述主播端渲染模块用于：根据直播服务器整合处理后的数据，在主播端的播放器中进行互动特效的渲染；

所述直播间进入模块用于；根据用户的选择进入特效开启的直播间；

所述特效购买模块用于：根据用户操作进行付费特效的购买；

所述特效使用模块用于：根据用户选择使用的所述付费特效，完成与主播的特效互动，并将特效互动操作的信息上报至直播服务器；

所述用户端渲染模块用于：根据直播服务器整合处理后的数据，在用户端的播放器中进行互动特效的渲染；

所述直播服务器用于：根据收到的人脸检测的数据以及特效互动操作的信息进行整合处理，将特效添加到人脸检测后的相应部位；并将处理后的数据分别发送至主播端、用户端；

其中，所述***还包括人脸关键部位检测模块，所述人脸关键部位检测模块进行关键部位检测的具体过程为：利用已经预设好的人脸关键部位的特征映射和线性投影，得到一个更新的关键部位的形状；将关键部位的形状与检测到的人脸进行迭代，直至最终得到人脸关键部位的定位；其中，所述已经预设好的人脸关键部位的特征映射和线性投影是通过对每个关键部位所对应的局部二值化特征离线进行全局回归学习后训练得到的。

5.如权利要求4所述的基于人脸检测的直播互动特效实现***，其特征在于：所述付费特效包括动画特效和文字特效；所述动画特效包括：脸部墨镜特效、脸部腮红特效、变脸特效、头部花环特效，所述文字特效包括：脸部文字特效、额头文字特效、头顶文字特效。

6.如权利要求4所述的基于人脸检测的直播互动特效实现***，其特征在于：所述人脸检测模块对主播进行实时的人脸检测的具体过程包括：将已经预设好的人脸模型在实时的视频帧中滑动比对，依次判断每个滑窗中是否均存在人脸，若是，则检测出直播场景中有人脸；若否，则检测出直播场景中没有人脸；其中，所述已经预设好的人脸模型是采用离线的人脸数据集进行训练得到的。

7.如权利要求4所述的基于人脸检测的直播互动特效实现***，其特征在于：该***还包括人脸校正模块，所述人脸校正模块用于实现对人脸图像的校正调整。