CN106557730A - 视频通话过程中的人脸纠正方法及装置 - Google Patents

视频通话过程中的人脸纠正方法及装置 Download PDF

Info

Publication number
CN106557730A
CN106557730A CN201510641456.0A CN201510641456A CN106557730A CN 106557730 A CN106557730 A CN 106557730A CN 201510641456 A CN201510641456 A CN 201510641456A CN 106557730 A CN106557730 A CN 106557730A
Authority
CN
China
Prior art keywords
face
image
video
dimensional
human face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510641456.0A
Other languages
English (en)
Inventor
王务志
王军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510641456.0A priority Critical patent/CN106557730A/zh
Publication of CN106557730A publication Critical patent/CN106557730A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种视频通话过程中的人脸纠正方法,步骤为:响应于视频通话而启动摄像头采集视频图像;对所述采集的视频图像进行人脸检测以获取多角度人脸图像;基于获取的多角度人脸图像对人脸进行三维建模;基于视频中的人脸的位置变化,调整三维人脸模型,以纠正三维人脸图像;传输纠正后的三维人脸图像。同时,还提供一种视频通话过程中的人脸纠正装置。本发明所述方法及装置使得视频通话过程中实现了通话双方的眼神交流,克服了手机、笔记本等设备将摄像头设计在屏幕顶端的设计缺陷。

Description

视频通话过程中的人脸纠正方法及装置
技术领域
本发明涉及图像处理领域,具体而言,本发明涉及一种视频通话过程中的人脸纠正方法及相应装置。
背景技术
随着通信技术的发展,网速的提升,越来越多的用户不满足于仅仅通过语音进行通话,更多的通信软件提供了语音和视频两种通信方式,使得用户可以方便的通过视频进行通话。智能手机由于其携带方便,而且集成的功能越来越丰富,越来越多的移动APP被开发,用户可以很方便通过手机随时随地进行视频通话。但由于手机终端的体积有限,又为了扩充显示屏幕的面积,几乎所有的手机厂商都将摄像头设计到手机的顶端,这种设计缺陷使得用户在通过摄像头进行视频通话过程中,眼神聚焦摄像头时无法看屏幕上显示的对方人脸,看屏幕时又无法眼神聚焦到摄像头,导致双方在进行视频通话时,无法进行眼神交流。并且,由于用户在使用手机时,通常习惯俯视镜头,使得镜头总是处于仰视角度拍摄人脸,导致显示在手机屏幕上的人脸图像都是仰视状态下的,使得用户在进行视频通话时得不到优良的视觉体验。
发明内容
本发明的目的旨在解决上述至少一个问题,提供一种视频通话过程中的人脸纠正方法及相应装置。
为了实现上述目的,本发明提供一种视频通话过程中的人脸纠正方法,包括如下步骤:
响应于视频通话而启动摄像头采集视频图像;
对所述采集的视频图像进行人脸检测以获取多角度的人脸图像;
基于获取的多角度人脸图像对人脸进行三维建模;
基于视频中的人脸的位置变化,调整三维人脸模型,以纠正三维人脸图像;
传输纠正后的三维人脸图像。
具体的,还包括采用Adaboost算法训练分类器以进行人脸检测。
具体的,所述采用Adaboost算法训练分类器的具体步骤如下:
采用Harr-like特征描述视频图像;
利用Adaboost算法筛选出最能代表人脸的特征,并将该些特征进行加权构造为一个强分类器;
训练多个强分类器并串联组成层叠分类器。
具体的,采用层叠分类器进行人脸检测,按照固定步长对检测的图像进行缩放,以获取检测图像中不同大小的人脸图像。
进一步的,所述对人脸进行三维建模包括如下步骤:
对获取的多角度人脸图像进行预处理;
采用ASM算法提取人脸特征点;
计算人脸特征点的三维空间点坐标,建立人脸几何模型;
基于人脸几何模型将多角度人脸图像合成人脸的纹理图像并进行纹理映射,从而生成三维人脸模型。
具体的,所述纠正后的三维人脸图像具体指正脸图像中眼睛部分与摄像头的焦点在同一直线上。
优选的,通过判断采集的三维人脸图像的人眼虹膜图像的清晰度是否达到设定的阈值,确定眼睛部分是否与摄像头的焦点处于同一直线上。
具体的,所述多角度人脸图像包括正面人脸图像、左侧人脸图像、右侧人脸图像,其中所述左侧或右侧人脸图像偏转角度不超过30度。
优选的,仅对采集的视频流中的单数帧图像进行纠正,以保证视频通话的流畅。
优选的,对采集的视频流中的人脸图像进行逐帧纠正,以保证视频通话的画面自然。
一种视频通话过程中的人脸纠正装置,包括:
采集模块:用于响应于视频通话而启动摄像头采集视频图像;
检测单元:用于对所述采集的视频图像进行人脸检测以获取多角度的人脸图像;
建模单元:用于基于获取的多角度人脸图像对人脸进行三维建模;
调整单元:用于基于视频中的人脸的位置变化,调整三维人脸模型,以纠正三维人脸图像;
传输单元:用于传输纠正后的三维人脸图像。
进一步,还包括分类器训练单元,用于采用Adaboost算法训练分类器以进行人脸检测。
具体的,所述分类器训练单元包括:
特征提取模块:用于采用Harr-like特征描述视频图像;
构造模块:用于利用adaboost算法筛选出最能代表人脸的特征,并将该些特征进行加权构造为一个强分类器;
串联模块:用于将通过训练获取的多个强分类器串联组成层叠分类器。
具体的,采用层叠分类器进行人脸检测,按照固定步长对检测的图像进行缩放,以获取检测图像中不同大小的人脸图像。
进一步,所述建模单元包括:
预处理模块:用于对获取的多角度人脸图像进行预处理;
特征提取模块:用于采用ASM算法提取人脸特征点;
几何模型生成模块:用于计算人脸特征点的三维空间点坐标,建立人脸几何模型;
纹理映射模块:用于基于人脸几何模型将多角度人脸图像合成人脸的纹理图像并进行纹理映射,从而生成三维人脸模型。
具体的,所述纠正后的三维人脸图像具体指正脸图像中眼睛部分与摄像头的焦点在同一直线上。
进一步,还包括判断模块,用于判断采集的三维人脸图像的人眼虹膜图像的清晰度是否达到设定的阈值,以确定眼睛部分是否与摄像头的焦点处于同一直线上。
具体的,所述多角度人脸图像包括正面人脸图像、左侧人脸图像、右侧人脸图像,其中所述左侧或右侧人脸图像角度不超过30度。
优选的,仅对采集的视频流中的单数帧图像进行纠正,以保证视频通话的流畅。
优选的,对采集的视频流中的人脸图像进行逐帧纠正,以保证视频通话的画面自然。
相比现有技术,本发明的方案具有以下优点:
本发明通过对视频图像中的人脸进行三维建模,获取三维人脸图像,并在视频通话过程中基于人脸的位置变化,变化三维人脸图像的角度,使得人脸图像中的眼睛部分与摄像头的焦点处于一条直线,从而在视频通话中传输眼睛看摄像头的图像,以实现通话双方的眼神交流,克服手机、笔记本等设备将摄像头设计在屏幕顶端的设计缺陷。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明所述视频通话过程中的人脸纠正方法流程图;
图2为本发明实施例中优选的人脸检测流程示意图;
图3为本发明实施例中优选的三维人脸建模的流程示意图;
图4为本发明所述视频通话过程中的人脸纠正装置示意框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信***),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(PersonalDigital Assistant个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位***)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本技术领域技术人员可以理解,这里所使用的远端网络设备,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中,远端网络设备、终端设备与WNS服务器之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。
由于本发明涉及利用Adaboost算法进行人脸检测的技术,有必要对该算法做先导性介绍。Adaboost算法是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,即弱分类器,然后将这些弱分类器集合起来,构造一个强分类器。算法通过改变数据分布,根据每次训练集中的每个样本的分类是否正确,以及上次的总体分类的准确率,确定每个样本的权值,将修改权值的新数据作为下一层分类器的输入进行训练,然后将每次训练得到的分类器结合成为最后的决策分类器。
需要注意的是,上述介绍主要用于更便捷地理解本发明,并非用于限制本发明的实施,理论上采用何种算法进行人脸检测,均不影响本发明的实施,本领域技术人员对此应当知晓。
参考图1所示,本发明提供一种视频通话过程中的人脸纠正方法,以下对该方法的原理进行详细说明,所述方法包括如下步骤:
S101、响应于视频通话而启动摄像头采集视频图像;
本发明所述视频通话具体指通过摄像头设备采集的图像进行信息传输的过程,所述摄像头设备不限于手机终端、笔记本等自带的摄像头,也不限于普通摄像设备、智能摄像设备等进行图像数据采集的设备,适用于一切进行视频采集的摄像设备。
当用户采用摄像设备进行视频通话时,后台服务对其进行响应,调用摄像头相关函数,开启摄像头采集视频图像。以Android***为例,其中的Camera类函数控制摄像头,如开启摄像头函数Camera.open(),拍照函数takePicture(shutterCallback,rawCallback,jpegCallback)等。Android***设备采用Camera类函数获取摄像头采集的图像。
S102、对所述采集的视频图像进行人脸检测以获取多角度人脸图像;
由于人脸偏转角度超过30度时,现有算法的人脸检测率降低,误检率提高,对后续的三维建模也造成困难,而且在视频通话过程中,通常人脸的偏转不超过30度,故而本发明仅对正面人脸图像、偏转角度不超过30度的左侧人脸图像和右侧人脸图像进行人脸检测。所述获取多角度人脸图像,具体指对视频流数据中的每帧图像或单数帧图像进行人脸检测,即确定图像帧中的人脸在图像中的具***置,并截取相应位置的人脸图像。
人脸检测属于计算机视觉领域,具体是指在输入图像中判断是否存在人脸区域,并进一步确定人脸的位置、大小等信息。在具体实施例中,参考图2所示,首先基于样本集训练得到人脸检测分类器,所述训练人脸检测分类器的步骤具体包括:
步骤1、采用Harr-like特征描述视频图像;
Harr-like特征是计算机视觉领域一种常用的特征描述算子,通常分为三类:线性特征、边缘特征、点特征、对角线特征。将视频图像由RGB格式转换为灰度图像,基于该灰度图像提取Harr-like特征,基于Harr-like特征描述视频图像。在具体实施例中,为了快速计算Harr-like特征值,采用积分图进行计算,即图像中任一点的像素值(x,y),都表示成像素值(1,1)到像素值(x,y)组成的矩形区域内的灰度值之和。
步骤2、利用Adaboost算法筛选出最能代表人脸的特征,并将该些特征进行加权构造为一个强分类器;
利用Adaboost算法训练分类器,具体过程简述如下:
预设训练样本集,包括正样本,即人脸图像,负样本,即非人脸图像。分别初始化正负样本的权重,对每个特征的基于所有样本训练一个弱分类器,计算所有弱分类器的加权错误率,错误率最小的分类器为最佳弱分类器,则该特征为最能代表人脸的特征。更新权重,重新对样本进行分类,最终分类正确率最高且错误率最低的分类器为强分类器。
步骤3、训练多个强分类器并串联组成层叠分类器。
按照上述方式训练多个强分类器,将该些分类器按照树状结构进行串联,组成最终的强分类器,即层叠分类器。
将得到的层叠分类器作为人脸检测器对每一帧视频图像进行检测,检测过程中,对待检测的每帧图像按照固定步长进行缩放,从而使得该人脸检测器可以检测到视频图像中不同大小的人脸图像。
将检测到的人脸图像按照位置信息截图,保存截图信息,该截图即为获取的人脸图像,依此方式获取不同角度的人脸图像并保存。
S103、基于获取的多角度人脸图像对人脸进行三维建模;
将上述获取的多角度人脸图像做如下处理,以对人脸进行三维建模,参考图3所示,具体步骤如下:
步骤1、对获取的多角度人脸图像进行预处理;
对检测获取的多角度人脸图像进行预处理,将RGB图像转换为灰度图。对每帧人脸图像进行归一化处理,使其大小相同,构成训练集。
步骤2、采用ASM算法提取人脸特征点;
ASM算法是一种基于点分布模型的算法,对于如人脸、人手等几何形状可以通过若干个关键特征点的坐标依次串联形成一个形状向量表示,具体包括训练和搜索两部分。
根据预设的样本集训练ASM模型,然后通过ASM模型对人脸图像进行搜索,获取每个人脸图像中的特征点。
步骤3、计算人脸特征点的三维空间点坐标,建立人脸几何模型;
通过人脸特征点的二维空间坐标计算三维空间点坐标,从而建立人脸几何模型。本领域技术人员通常知晓该些坐标之间的变换,故在此不再赘述。
步骤4、基于人脸几何模型将多角度人脸图像合成人脸的纹理图像并进行纹理映射,从而生成三维人脸模型。
由此获取视频通话中特定人脸的三维模型,以便后续基于该三维人脸模型进行人脸纠正。
S104、基于视频中的人脸的位置变化,调整三维人脸模型,以纠正三维人脸图像;
通过手机或笔记本等设备进行视频通话时,由于几乎所有的手厂商都将摄像头设计到手机或笔记本的顶端,这种设计缺陷使得用户在通过摄像头进行视频通话过程中,眼神聚焦摄像头时无法看屏幕上显示的对方人脸,看屏幕时又无法眼神聚焦到摄像头,导致双方在进行视频通话时,无法进行眼神交流。并且,由于用户在使用手机时,通常习惯俯视镜头,使得镜头总是处于仰视角度拍摄人脸,导致显示在手机屏幕上的人脸图像都是仰视状态下的,使得用户在进行视频通话时得不到优良的视觉体验。
故而,通过在视频通话过程中调整人脸图像的位置,以使人眼与摄像头焦点在一条直线上。由于侧脸不存在眼神交流的问题,因此具体指正脸图像中眼睛部分与摄像头的焦点在同一直线上。为了确定人脸图像中的人眼部分是否与摄像头的焦点处于同一直线上,本发明实施例优选采用计算人眼虹膜图像的清晰度,当清晰度达到设定的阈值时,判定为人眼部分与摄像头焦点处于同一直线,否则不处于同一直线。当判定为处于同一直线时,该方位的人脸图像即为纠正后的三维人脸图像。
其中,优选地,对视频通话过程中采集的单数帧图像进行人脸图像纠正,从而减少人脸纠正带来的耗时,使得通话视频更加流畅。
其他实施例中,对视频通话过程中的每帧图像进行人脸图像纠正,使得通话视频的画面更加生动自然。
S105、传输纠正后的三维人脸图像。
对视频通话过程中的视频图像进行上述处理后,将得到的纠正后的三维人脸图像进行编码传输,即编码传输包括三维人脸图像的视频。其中,所谓视频编码是指通过特定的压缩技术,将某种视频格式的文件转换为另一种视频格式的文件,通过压缩编码去除视频图像数据中的冗余信息。H264编码技术由于其性能更高,故而目前使用最广泛。H264编码技术对原始图像在4*4的倍数大小的宏块上进行帧内编码和帧间编码,帧内编码消除帧内空间冗余,帧间编码对视频数据的运动补偿进行预测。将编码后的包括纠正后的三维人脸图像通过视频通话过程中建立的通信隧道进行传输,从而使得视频通话双方可以看到彼此眼睛对着摄像头的视频,实现通话过程中的眼神交流。
为了进一步对本发明所述方法以模块化方式进行表述,参考图4所示,本发明还提供一种视频通话过程中的人脸纠正装置,包括:采集单元11、检测单元12、建模单元13、调整单元14、传输单元15以及分类器训练单元16,其中,
所述采集单元11用于响应于视频通话而启动摄像头采集视频图像;
本发明所述视频通话具体指通过摄像头设备采集的图像进行信息传输的过程,所述摄像头设备不限于手机终端、笔记本等自带的摄像头,也不限于普通摄像设备、智能摄像设备等进行图像数据采集的设备,适用于一切进行视频采集的摄像设备。
当用户采用摄像设备进行视频通话时,由采集单元11对其进行响应,调用摄像头相关函数,开启摄像头采集视频图像。以Android***为例,其中的Camera类函数控制摄像头,如开启摄像头函数Camera.open(),拍照函数takePicture(shutterCallback,rawCallback,jpegCallback)等。Android***设备采用Camera类函数获取摄像头采集的图像。
检测单元12用于对所述采集的视频图像进行人脸检测以获取多角度人脸图像;
由于人脸偏转角度超过30度时,现有算法的人脸检测率降低,误检率提高,对后续的三维建模也造成困难,而且在视频通话过程中,通常人脸的偏转不超过30度,故而本发明仅对正面人脸图像、偏转角度不超过30度的左侧人脸图像和右侧人脸图像进行人脸检测。所述获取多角度人脸图像,具体指对视频流数据中的每帧图像或单数帧图像进行人脸检测,即确定图像帧中的人脸在图像中的具***置,并截取相应位置的人脸图像。
人脸检测属于计算机视觉领域,具体是指在输入图像中判断是否存在人脸区域,并进一步确定人脸的位置、大小等信息。参考图2所示,在具体实施例中,首先通过分类器训练单元15训练得到人脸检测分类器,所述训练人脸分类器的步骤具体包括:
步骤1、采用Harr-like特征描述视频图像;
Harr-like特征是计算机视觉领域一种常用的特征描述算子,通常分为三类:线性特征、边缘特征、点特征、对角线特征。将视频图像由RGB格式转换为灰度图像,基于该灰度图像提取Harr-like特征,基于Harr-like特征描述视频图像。在具体实施例中,为了快速计算Harr-like特征值,采用积分图进行计算,即图像中任一点的像素值(x,y),都表示成像素值(1,1)到像素值(x,y)组成的矩形区域内的灰度值之和。
步骤2、利用Adaboost算法筛选出最能代表人脸的特征,并将该些特征进行加权构造为一个强分类器;
利用Adaboost算法训练分类器,具体过程简述如下:
预设训练样本集,包括正样本,即人脸图像,负样本,即非人脸图像。分别初始化正负样本的权重,对每个特征的基于所有样本训练一个弱分类器,计算所有弱分类器的加权错误率,错误率最小的分类器为最佳弱分类器,则该特征为最能代表人脸的特征。更新权重,重新对样本进行分类,最终分类正确率最高且错误率最低的分类器为强分类器。
步骤3、训练多个强分类器并串联组成层叠分类器。
按照上述方式训练多个强分类器,将该些分类器按照树状结构进行串联,组成最终的强分类器,即层叠分类器。
检测单元12将得到的层叠分类器作为人脸检测器对每一帧视频图像进行检测,检测过程中,对待检测的每帧图像按照固定步长进行缩放,从而使得该人脸检测器可以检测到视频图像中不同大小的人脸图像。
将检测到的人脸图像按照位置信息截图,保存截图信息,该截图即为获取的人脸图像,依此方式获取不同角度的人脸图像并保存。
建模单元13用于基于获取的多角度人脸图像对人脸进行三维建模;
将上述获取的多角度人脸图像做如下处理,以对人脸进行三维建模,参考图3所示,建模单元13具体执行步骤如下:
步骤1、对获取的多角度人脸图像进行预处理;
对检测获取的多角度人脸图像进行预处理,将RGB图像转换为灰度图。对每帧人脸图像进行归一化处理,使其大小相同,构成训练集。
步骤2、采用ASM算法提取人脸特征点;
ASM算法是一种基于点分布模型的算法,对于如人脸、人手等几何形状可以通过若干个关键特征点的坐标依次串联形成一个形状向量表示,具体包括训练和搜索两部分。
根据预设的样本集训练ASM模型,然后通过ASM模型对人脸图像进行搜索,获取每个人脸图像中的特征点。
步骤3、计算人脸特征点的三维空间点坐标,建立人脸几何模型;
通过人脸特征点的二维空间坐标计算三维空间点坐标,从而建立人脸几何模型。本领域技术人员通常知晓该些坐标之间的变换,故在此不再赘述。
步骤4、基于人脸几何模型将多角度人脸图像合成人脸的纹理图像并进行纹理映射,从而生成三维人脸模型。
由此获取视频通话中特定人脸的三维模型,以便后续基于该三维人脸模型进行人脸纠正。
调整单元14用于基于视频中的人脸的位置变化,调整三维人脸模型,以纠正三维人脸图像;
通过手机或笔记本等设备进行视频通话时,由于几乎所有的手厂商都将摄像头设计到手机或笔记本的顶端,这种设计缺陷使得用户在通过摄像头进行视频通话过程中,眼神聚焦摄像头时无法看屏幕上显示的对方人脸,看屏幕时又无法眼神聚焦到摄像头,导致双方在进行视频通话时,无法进行眼神交流。并且,由于用户在使用手机时,通常习惯俯视镜头,使得镜头总是处于仰视角度拍摄人脸,导致显示在手机屏幕上的人脸图像都是仰视状态下的,使得用户在进行视频通话时得不到优良的视觉体验。
故而,由调整单元14在视频通话过程中调整人脸图像的位置,以使人眼与摄像头焦点在一条直线上。由于侧脸不存在眼神交流的问题,因此具体指正脸图像中眼睛部分与摄像头的焦点在同一直线上。为了确定人脸图像中的人眼部分是否与摄像头的焦点处于同一直线上,本发明实施例优选采用计算人眼虹膜图像的清晰度,当清晰度达到设定的阈值时,判定为人眼部分与摄像头焦点处于同一直线,否则不处于同一直线。当判定为处于同一直线时,该方位的人脸图像即为纠正后的三维人脸图像。
其中,优选地,对视频通话过程中采集的单数帧图像进行人脸图像纠正,从而减少人脸纠正带来的耗时,使得通话视频更加流畅。
其他实施例中,对视频通话过程中的每帧图像进行人脸图像纠正,使得通话视频的画面更加生动自然。
传输单元15用于传输纠正后的三维人脸图像。
对视频通话过程中的视频图像进行上述处理后,传输单元15将得到的纠正后的三维人脸图像进行编码传输,即编码传输包括三维人脸图像的视频。其中,所谓视频编码是指通过特定的压缩技术,将某种视频格式的文件转换为另一种视频格式的文件,通过压缩编码去除视频图像数据中的冗余信息。H264编码技术由于其性能更高,故而目前使用最广泛。H264编码技术对原始图像在4*4的倍数大小的宏块上进行帧内编码和帧间编码,帧内编码消除帧内空间冗余,帧间编码对视频数据的运动补偿进行预测。将编码后的包括纠正后的三维人脸图像通过视频通话过程中建立的通信隧道进行传输,从而使得视频通话双方可以看到彼此眼睛对着摄像头的视频,实现通话过程中的眼神交流。
A1、一种视频通话过程中的人脸纠正方法,其特征在于,包括以下步骤:
响应于视频通话而启动摄像头采集视频图像;
对所述采集的视频图像进行人脸检测以获取多角度人脸图像;
基于获取的多角度人脸图像对人脸进行三维建模;
基于视频中的人脸的位置变化,调整三维人脸模型,以纠正三维人脸图像;
传输纠正后的三维人脸图像。
A2、根据A1所述的方法,其特征在于,还包括采用Adaboost算法训练分类器以进行人脸检测。
A3、根据A2所述的方法,其特征在于,所述采用Adaboost算法训练分类器的具体步骤如下:
采用Harr-like特征描述视频图像;
利用Adaboost算法筛选出最能代表人脸的特征,并将该些特征进行加权构造为一个强分类器;
训练多个强分类器并串联组成层叠分类器。
A4、根据A3所述的方法,其特征在于,采用层叠分类器进行人脸检测,按照固定步长对检测的图像进行缩放,以获取检测图像中不同大小的人脸图像。
A5、根据A1所述的方法,其特征在于,所述对人脸进行三维建模包括如下步骤:
对获取的多角度人脸图像进行预处理;
采用ASM算法提取人脸特征点;
计算人脸特征点的三维空间点坐标,建立人脸几何模型;
基于人脸几何模型将多角度人脸图像合成人脸的纹理图像并进行纹理映射,从而生成三维人脸模型。
A6、根据A1所述的方法,其特征在于,所述纠正后的三维人脸图像具体指正脸图像中眼睛部分与摄像头的焦点在同一直线上。
A7、根据A6所述的方法,其特征在于,通过判断采集的三维人脸图像的人眼虹膜图像的清晰度是否达到设定的阈值,确定眼睛部分是否与摄像头的焦点处于同一直线上。
A8、根据A1所述的方法,其特征在于,所述多角度人脸图像包括正面人脸图像、左侧人脸图像、右侧人脸图像,其中所述左侧或右侧人脸图像偏转角度不超过45度。
A9、根据A1所述的方法,其特征在于,仅对采集的视频流中的单数帧人脸图像进行纠正,以保证视频通话的流畅。
A10、根据A1所述的方法,其特征在于,对采集的视频流中的人脸图像进行逐帧纠正,以保证视频通话的画面自然。
B1、一种视频通话过程中的人脸纠正装置,其特征在于,包括:
采集单元:用于响应于视频通话而启动摄像头采集视频图像;
检测单元:用于对所述采集的视频图像进行人脸检测以获取多角度的人脸图像;
建模单元:用于基于获取的多角度人脸图像对人脸进行三维建模;
调整单元:用于基于视频中的人脸的位置变化,调整三维人脸模型,以纠正三维人脸图像;
传输单元:用于传输纠正后的三维人脸图像。
B2、根据B1所述的装置,其特征在于,还包括分类器训练单元,用于采用Adaboost算法训练分类器进行人脸检测以获取多角度人脸图像。
B3、根据B2所述的方法,其特征在于,所述分类器训练单元包括:
特征提取模块:用于采用Harr-like特征描述视频图像;
构造模块:用于利用adaboost算法筛选出最能代表人脸的特征,并将该些特征进行加权构造为一个强分类器;
串联模块:用于将通过训练获取的多个强分类器串联组成层叠分类器。
B4、根据B3所述的方法,其特征在于,采用层叠分类器进行人脸检测,按照固定步长对检测的图像进行缩放,以获取检测图像中不同大小的人脸图像。
B5、根据B1所述的装置,其特征在于,所述建模单元包括:
预处理模块:用于对获取的多角度人脸图像进行预处理;
特征提取模块:用于采用ASM算法提取人脸特征点;
几何模型生成模块:用于计算人脸特征点的三维空间点坐标,建立人脸几何模型;
纹理映射模块:用于基于人脸几何模型将多角度人脸图像合成人脸的纹理图像并进行纹理映射,从而生成三维人脸模型。
B6、根据B1所述的装置,其特征在于,所述纠正后的三维人脸图像具体指正脸图像中眼睛部分与摄像头的焦点在同一直线上。
B7、根据B6所述的装置,其特征在于,还包括判断单元,用于判断采集的三维人脸图像的人眼虹膜图像的清晰度是否达到设定的阈值,以确定眼睛部分是否与摄像头的焦点处于同一直线上。
B8、根据B1所述的装置,其特征在于,所述多角度人脸图像包括正面人脸图像、左侧人脸图像、右侧人脸图像,其中所述左侧或右侧人脸图像角度不超过45度。
B9、根据B1所述的装置,其特征在于,仅对采集的视频流中的单数帧图像进行纠正,以保证视频通话的流畅。
B10、根据B1所述的装置,其特征在于,对采集的视频流中的人脸图像进行逐帧纠正,以保证视频通话的画面自然。
综上所述,本发明所述方法通过对视频通话中的人脸进行三维建模,获取三维人脸图像,并基于在通话过程中根据人脸的位置变化变换三维人脸图像,使得人脸图像中的眼睛部分与摄像头的焦点处于一条直线,从而规避手机、笔记本等设备将摄像头设计在屏幕顶端的缺陷,实现视频通话过程中的人眼交流。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种视频通话过程中的人脸纠正方法,其特征在于,包括以下步骤:
响应于视频通话而启动摄像头采集视频图像;
对所述采集的视频图像进行人脸检测以获取多角度人脸图像;
基于获取的多角度人脸图像对人脸进行三维建模;
基于视频中的人脸的位置变化,调整三维人脸模型,以纠正三维人脸图像;
传输纠正后的三维人脸图像。
2.根据权利要求1所述的方法,其特征在于,还包括采用Adaboost算法训练分类器以进行人脸检测。
3.根据权利要求2所述的方法,其特征在于,所述采用Adaboost算法训练分类器的具体步骤如下:
采用Harr-like特征描述视频图像;
利用Adaboost算法筛选出最能代表人脸的特征,并将该些特征进行加权构造为一个强分类器;
训练多个强分类器并串联组成层叠分类器。
4.根据权利要求3所述的方法,其特征在于,采用层叠分类器进行人脸检测,按照固定步长对检测的图像进行缩放,以获取检测图像中不同大小的人脸图像。
5.根据权利要求1所述的方法,其特征在于,所述对人脸进行三维建模包括如下步骤:
对获取的多角度人脸图像进行预处理;
采用ASM算法提取人脸特征点;
计算人脸特征点的三维空间点坐标,建立人脸几何模型;
基于人脸几何模型将多角度人脸图像合成人脸的纹理图像并进行纹理映射,从而生成三维人脸模型。
6.一种视频通话过程中的人脸纠正装置,其特征在于,包括:
采集单元:用于响应于视频通话而启动摄像头采集视频图像;
检测单元:用于对所述采集的视频图像进行人脸检测以获取多角度的人脸图像;
建模单元:用于基于获取的多角度人脸图像对人脸进行三维建模;
调整单元:用于基于视频中的人脸的位置变化,调整三维人脸模型,以纠正三维人脸图像;
传输单元:用于传输纠正后的三维人脸图像。
7.根据权利要求6所述的装置,其特征在于,还包括分类器训练单元,用于采用Adaboost算法训练分类器进行人脸检测以获取多角度人脸图像。
8.根据权利要求7所述的方法,其特征在于,所述分类器训练单元包括:
特征提取模块:用于采用Harr-like特征描述视频图像;
构造模块:用于利用adaboost算法筛选出最能代表人脸的特征,并将该些特征进行加权构造为一个强分类器;
串联模块:用于将通过训练获取的多个强分类器串联组成层叠分类器。
9.根据权利要求8所述的方法,其特征在于,采用层叠分类器进行人脸检测,按照固定步长对检测的图像进行缩放,以获取检测图像中不同大小的人脸图像。
10.根据权利要求6所述的装置,其特征在于,所述建模单元包括:
预处理模块:用于对获取的多角度人脸图像进行预处理;
特征提取模块:用于采用ASM算法提取人脸特征点;
几何模型生成模块:用于计算人脸特征点的三维空间点坐标,建立人脸几何模型;
纹理映射模块:用于基于人脸几何模型将多角度人脸图像合成人脸的纹理图像并进行纹理映射,从而生成三维人脸模型。
CN201510641456.0A 2015-09-30 2015-09-30 视频通话过程中的人脸纠正方法及装置 Pending CN106557730A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510641456.0A CN106557730A (zh) 2015-09-30 2015-09-30 视频通话过程中的人脸纠正方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510641456.0A CN106557730A (zh) 2015-09-30 2015-09-30 视频通话过程中的人脸纠正方法及装置

Publications (1)

Publication Number Publication Date
CN106557730A true CN106557730A (zh) 2017-04-05

Family

ID=58417450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510641456.0A Pending CN106557730A (zh) 2015-09-30 2015-09-30 视频通话过程中的人脸纠正方法及装置

Country Status (1)

Country Link
CN (1) CN106557730A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241942A (zh) * 2018-09-29 2019-01-18 佳都新太科技股份有限公司 图像处理方法、装置、人脸识别设备及存储介质
CN109284722A (zh) * 2018-09-29 2019-01-29 佳都新太科技股份有限公司 图像处理方法、装置、人脸识别设备及存储介质
CN110769323A (zh) * 2018-07-27 2020-02-07 Tcl集团股份有限公司 一种视频通信方法、***、装置和终端设备
CN111523497A (zh) * 2020-04-27 2020-08-11 深圳市捷顺科技实业股份有限公司 一种人脸纠正方法、装置和电子设备
WO2021063012A1 (zh) * 2019-09-30 2021-04-08 华为技术有限公司 视频通话人脸呈现方法、视频通话装置及汽车

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6806898B1 (en) * 2000-03-20 2004-10-19 Microsoft Corp. System and method for automatically adjusting gaze and head orientation for video conferencing
CN2713496Y (zh) * 2004-07-27 2005-07-27 任峰 视线矫正器
CN1774726A (zh) * 2002-12-11 2006-05-17 皇家飞利浦电子股份有限公司 用于校正视频电话图像中头部姿态的方法和装置
CN101339603A (zh) * 2008-08-07 2009-01-07 电子科技大学中山学院 一种从视频流中选取到了质量合格的虹膜图像的方法
CN101763636A (zh) * 2009-09-23 2010-06-30 中国科学院自动化研究所 视频序列中的三维人脸位置和姿态跟踪的方法
CN102214291A (zh) * 2010-04-12 2011-10-12 云南清眸科技有限公司 一种快速准确的基于视频序列的人脸检测跟踪方法
CN102663820A (zh) * 2012-04-28 2012-09-12 清华大学 三维头部模型重建方法
CN103093250A (zh) * 2013-02-22 2013-05-08 福建师范大学 一种基于新Haar-like特征的Adaboost人脸检测方法
CN103345619A (zh) * 2013-06-26 2013-10-09 上海永畅信息科技有限公司 视频聊天中的人眼自然对视自适应矫正方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6806898B1 (en) * 2000-03-20 2004-10-19 Microsoft Corp. System and method for automatically adjusting gaze and head orientation for video conferencing
CN1774726A (zh) * 2002-12-11 2006-05-17 皇家飞利浦电子股份有限公司 用于校正视频电话图像中头部姿态的方法和装置
CN2713496Y (zh) * 2004-07-27 2005-07-27 任峰 视线矫正器
CN101339603A (zh) * 2008-08-07 2009-01-07 电子科技大学中山学院 一种从视频流中选取到了质量合格的虹膜图像的方法
CN101763636A (zh) * 2009-09-23 2010-06-30 中国科学院自动化研究所 视频序列中的三维人脸位置和姿态跟踪的方法
CN102214291A (zh) * 2010-04-12 2011-10-12 云南清眸科技有限公司 一种快速准确的基于视频序列的人脸检测跟踪方法
CN102663820A (zh) * 2012-04-28 2012-09-12 清华大学 三维头部模型重建方法
CN103093250A (zh) * 2013-02-22 2013-05-08 福建师范大学 一种基于新Haar-like特征的Adaboost人脸检测方法
CN103345619A (zh) * 2013-06-26 2013-10-09 上海永畅信息科技有限公司 视频聊天中的人眼自然对视自适应矫正方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘晓敏 著: "《基于虹膜识别的商务会馆管理***的实现》", 31 August 2015, 湖南师范大学出版社 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110769323A (zh) * 2018-07-27 2020-02-07 Tcl集团股份有限公司 一种视频通信方法、***、装置和终端设备
CN110769323B (zh) * 2018-07-27 2021-06-18 Tcl科技集团股份有限公司 一种视频通信方法、***、装置和终端设备
CN109241942A (zh) * 2018-09-29 2019-01-18 佳都新太科技股份有限公司 图像处理方法、装置、人脸识别设备及存储介质
CN109284722A (zh) * 2018-09-29 2019-01-29 佳都新太科技股份有限公司 图像处理方法、装置、人脸识别设备及存储介质
CN109241942B (zh) * 2018-09-29 2022-05-03 佳都科技集团股份有限公司 图像处理方法、装置、人脸识别设备及存储介质
WO2021063012A1 (zh) * 2019-09-30 2021-04-08 华为技术有限公司 视频通话人脸呈现方法、视频通话装置及汽车
CN111523497A (zh) * 2020-04-27 2020-08-11 深圳市捷顺科技实业股份有限公司 一种人脸纠正方法、装置和电子设备
CN111523497B (zh) * 2020-04-27 2024-02-27 深圳市捷顺科技实业股份有限公司 一种人脸纠正方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN111461089B (zh) 一种人脸检测的方法、人脸检测模型的训练方法及装置
WO2020216054A1 (zh) 视线追踪模型训练的方法、视线追踪的方法及装置
US20210343041A1 (en) Method and apparatus for obtaining position of target, computer device, and storage medium
CN108491775B (zh) 一种图像修正方法及移动终端
CN108810538B (zh) 视频编码方法、装置、终端及存储介质
CN106557730A (zh) 视频通话过程中的人脸纠正方法及装置
CN108171152A (zh) 深度学习人眼视线估计方法、设备、***及可读存储介质
CN108520223B (zh) 视频图像的分割方法、分割装置、存储介质和终端设备
CN110163806B (zh) 一种图像处理方法、装置以及存储介质
CN110473147A (zh) 一种视频去模糊方法和装置
WO2020237611A1 (zh) 图像处理方法、装置、控制终端及可移动设备
Liu et al. Collabar: Edge-assisted collaborative image recognition for mobile augmented reality
CN111353336B (zh) 图像处理方法、装置及设备
CN107330370B (zh) 一种额头皱纹动作检测方法和装置及活体识别方法和***
CN105763829A (zh) 一种图像处理方法及电子设备
CN107317963A (zh) 一种双摄像头移动终端控制方法、移动终端及存储介质
CN112633306A (zh) 对抗图像的生成方法及装置
CN112001347A (zh) 一种基于人体骨架形态与检测目标的动作识别方法
CN111046734A (zh) 基于膨胀卷积的多模态融合视线估计方法
CN112995467A (zh) 图像处理方法、移动终端及存储介质
WO2024060978A1 (zh) 关键点检测模型训练及虚拟角色驱动的方法和装置
CN107680059A (zh) 一种图像校正的判断方法、终端及计算机可读存储介质
CN110766610A (zh) 一种超分辨率图像的重建方法及电子设备
CN112489036A (zh) 图像评价方法、图像评价装置、存储介质与电子设备
CN111222459B (zh) 一种视角无关的视频三维人体姿态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170405