CN105991885A

CN105991885A - 图像处理装置和图像处理方法

Info

Publication number: CN105991885A
Application number: CN201610153448.6A
Authority: CN
Inventors: 牧野哲司
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2015-03-18
Filing date: 2016-03-17
Publication date: 2016-10-05
Also published as: US20160275338A1; JP2016173791A

Abstract

本发明提供图像处理装置和图像处理方法。图像处理装置具备如下那样的1个以上的处理器，该处理器：基于人脸的嘴的中央部分的图像信息、和人脸的嘴的中央部分的周边部分的图像信息来判定所述人脸的嘴是否张开，在张开的情况下，对所述人脸的嘴的中央部分的图像信息进行修正。

Description

图像处理装置和图像处理方法

技术领域

本发明涉及图像处理装置和图像处理方法。

背景技术

过去，已知将人物的嘴未成为半开的图像决定为动态图像内容的代表图像的技术(JP特开2012-4722号公报)。

于是，如图10所示那样，若从人物的嘴成为半开的1张摄影图像(静止图像)检测到嘴部件，则如图11中点线所示那样，以包含牙齿的状态检测嘴部件。在使嘴配合声音张合的脸变形处理中，由于将该包含牙齿的状态的嘴部件视作合上嘴的状态，在张嘴时在开口的部分进行***牙齿的处理，因此会如图12所示那样，成为在牙齿中***了牙齿的嘴角成为不自然的图像。

发明内容

本发明的课题在于，能提供嘴角不会被不自然地描绘的图像。

为了解决上述课题，技术方案1所记载的发明的图像处理装置具备如下那样的1个以上的处理器，该处理器：基于人脸的嘴的中央部分的图像信息、和人脸的嘴的中央部分的周边部分的图像信息来判定所述人脸的嘴是否张开，在张开的情况下，对所述人脸的嘴的中央部分的图像信息进行修正。

附图说明

图1是表示本实施方式中的图像输出***的整体构成例的图。

图2是表示图1的图像处理装置的功能构成的框图。

图3是表示图1的数字标牌装置的功能构成的框图。

图4是表示图3的屏幕部的概略构成的图。

图5是表示由图2的控制部执行的动态图像数据生成处理的流程图。

图6是用于说明区域周边部和区域中央部的图。

图7是示意表示在HSV坐标系绘制嘴部件区域内的唇区域的各像素的颜色信息以及牙齿区域的各像素的颜色信息的颜色映射的图。

图8是用于说明部件区域中的唇的内侧边界的图。

图9是用于说明开口量的图。

图10是用于说明在现有的技术中嘴成为半开的摄像图像的图。

图11是用于说明在现有的技术使用嘴成为半开的摄像图像来使嘴张合的处理的图。

图12是用于说明在现有的技术中进行使用嘴成为半开的摄像图像来使嘴张合的脸变形处理时的处理结果的图。

具体实施方式

以下参考附图来详细说明本发明所涉及的适合的实施方式。另外，本发明并不限定于图示例。

[图像输出***100的构成]

图1是表示本发明的实施方式中的图像输出***100的整体构成的图。图像输出***100构成为使图像处理装置1和数字标牌(signage)装置2连接成能经由LAN(local Area Network，局域网)、WAN(Wide AreaNetwork，广域网)、因特网等通信网络N进行数据收发。

[图像处理装置1的构成]

图2是表示图像处理装置1的主控制构成的框图。图像处理装置1是基于1张脸图像生成动态图像数据，将该生成的动态图像数据发送给数字标牌装置2的装置，例如能运用PC(Personal Computer，个人计算机)等。图像处理装置1如图2所示那样，具备控制部11、存储部12、操作部13、显示部14、通信部15等而构成。

控制部11具备：执行存储于存储部12的程序存储部121的各种程序来进行给定的运算和各部的控制的CPU(Central Processing Unit，中央处理器)；和成为程序执行时的工作区域的存储器(均省略图示)。控制部11通过与存储于存储部12的程序存储部121的程序的协同来执行图5所示的动态图像数据生成处理，或者将生成的动态图像数据发送给数字标牌装置2。控制部11作为识别部、检测部、修正部、判定部、生成部、边缘检测部、算出部、动态图像数据生成部而发挥功能。这些识别部、检测部、修正部、判定部、生成部、边缘检测部、算出部、动态图像数据生成部既可以是单一的控制部，也可以各自分开设置控制部来进行各动作。

存储部12由HDD(Hard Disk Drive)或非易失性的半导体存储器等构成。在存储部12如图2所示那样设置程序存储部121。在程序存储部121存储在控制部11执行的***程序、用于执行以后述的动态图像数据生成处理为首的各种处理的处理程序、这些程序的执行所需要的数据等。

另外，在存储部12存储成为动态图像数据的源图像的摄影图像(静止图像，本实施方式中设为二维的图像)以及动态图像数据用的声音数据。另外，声音数据也可以是表征声音的文本数据。

操作部13具备有光标键、字符输入键、数字键以及各种功能键等的键盘、鼠标等指向设备而构成，将通过对键盘的键操作或鼠标操作而输入的指示信号输出给控制部11。另外，操作部13也可以在显示部14的显示画面具备触控面板，在该情况下，将经由触控面板输入的指示信号输出给控制部11。

显示部14由LCD(Liquid Crystal Display，液晶显示器)或CRT(Cathode Ray Tube，阴极射线管)等监视器构成，按照从控制部11输入的显示信号的指示来显示各种画面。

通信部15由调制解调器、路由器、网卡等构成，和与通信网络N连接的外部设备进行通信。

[数字标牌装置2的构成]

图3是表示数字标牌装置2的主控制构成的框图。数字标牌装置2是基于在图像处理装置1生成的动态图像数据来输出动态图像内容的装置。

数字标牌装置2如图3所示那样具备：照射影像光的投影部21；和在背面接受从投影部21照射的影像光并将其投影到前面的屏幕部22。

首先说明投影部21。

投影部21具备：控制部23、投影仪24、存储部25、和通信部26。投影仪24、存储部25、通信部26如图3所示那样与控制部23连接。

控制部23具备：执行存储于存储部25的程序存储部251的各种程序来进行给定的运算和各部的控制的CPU；和成为程序执行时的工作区域的存储器(均省略图示)。

投影仪24是将从控制部23输出的图像数据变换成影像光并向屏幕部22照射的投影装置。投影仪24例如能运用DLP(Digital Light Processing，数字光处理)(注册商标)投影仪，其利用了作为显示元件的DMD(数字微反射镜器件)，该DMD通过使阵列状排列的多个(XGA的情况下为横1024像素×纵768像素)的微小反射镜的各倾斜角度各自高速地进行启用/关闭动作来进行显示动作，由此用该反射光形成光像。

存储部25由HDD(Hard Disk Drive，硬盘驱动器)或非易失性的半导体存储器等构成。在存储部25如图3所示那样设置程序存储部251。在程序存储部251存储在控制部23中执行的***程序、各种处理程序、执行这些执行所需要的数据等。

另外，在存储部25中设置有存储从图像处理装置1发送的动态图像数据的动态图像数据存储部252。动态图像数据由多个帧图像以及与各帧图像对应的声音数据构成。

接下来说明屏幕部22。

图4是表示屏幕部22的概略构成的主视图。如图4所示那样，在屏幕部22具备：图像形成部27、和支承图像形成部27的底座28。

图像形成部27是在例如亚克力板的成形为人型的一片透光板29贴附层叠了薄膜状的菲涅耳透镜的背面投影用的薄膜屏幕而构成的屏幕，其中该透光板29与影像光的照射方向大致正交地配置。由该图像形成部27和前述的投影仪24构成输出单元。

在底座28设置按钮式的操作部32、和输出声音的扬声器等的声音输出部33。

操作部32具备各种操作按钮，检测操作按钮的按下信号并输出给控制部23。

操作部32、声音输出部33如图3所示那样与控制部23连接。

[图像输出***100的动作]

接下来说明图像输出***100的动作。

如上述那样，在图像输出***100中，在图像处理装置1中基于1张摄影图像以及声音数据生成动态图像数据，基于生成的动态图像数据在数字标牌装置2中进行动态图像内容的输出。

在图5示出在图像处理装置1中执行的动态图像数据生成处理的流程图。由操作部13从存储于存储部12的人物的摄影图像以及声音数据中选择成为动态图像数据生成的源的摄影图像以及声音数据，在指示动态图像数据的生成时，通过控制部11和存储于程序存储部121的程序的协同来执行动态图像数据生成处理。另外，人物的摄影图像虽然没有特别限定，但在此设为RGB表色系的图像来说明。另外，摄影图像的各像素的图像信息包含颜色信息和α通道值(透过率信息)。

首先，控制部11对所选择的摄影图像进行脸识别处理(步骤S1)。脸识别处理的手法并没有特别限定，但例如能使用特开2012-53813号公报中记载的利用Haar-like特征的手法等公知的图像处理技术。

接下来，控制部11对在步骤S1识别出的脸的区域进行脸部件识别处理(步骤S2)，取得通过脸部件识别处理而识别出的嘴部件的区域(步骤S3)。脸部件识别处理例如能使用Active Appearance Models(AAM，主动外观模型)等公知的图像处理技术进行。

接下来，控制部11生成嘴部件区域内的区域周边部以及区域中央部的颜色映射(步骤S4)。

在步骤S4，例如将摄影图像的嘴部件区域内的区域周边部以及区域中央部的颜色信息分别变换成HSV表色系，绘制在HSV坐标系。区域周边部例如能设为将嘴部件区域内分割为上中下这3个区域的情况下(参考图6的点线)的上区域和下区域的给定范围。另外，区域中央部能设为将嘴部件区域内分割为上中下这3个区域的情况下的中央区域内的给定范围。

在此，在图7示意地示出在HSV坐标系绘制嘴部件区域内的唇区域的各像素的颜色信息以及牙齿区域的各像素的颜色信息的颜色映射。如图7所示那样，唇区域的颜色映射分别在明度(V)比较高的区域(图7的加上点图案的区域)分布。另一方面，由于牙齿为白色，还有映入唇的影子的情况下，因此，牙齿区域的颜色映射分布在彩度(S)低的区域，明度(V)幅度大的区域。即，牙齿区域分布在图7中以一点划线示出的无色轴(圆锥的轴)附近的圆柱区域。

在合上嘴的情况下，由于嘴部件区域的整体成为唇区域，因此区域周边部以及区域中央部的颜色映射双方都变得如图7的加上点图案的区域那样，两者几乎没有差别。另一方面，在张开嘴的情况下，由于区域周边部的颜色映射变得如图7的加上点图案的区域那样，区域中央部成为图7中一点划线所示的圆柱区域，因此两者的差别变大。

另外，在上述的示例中，说明了使用易于表现映在牙齿的唇的影的影响的HSV表色系来生成颜色映射的示例，但也可以使用其他表色系。

接下来，控制部11基于生成的颜色映射来算出嘴部件区域内的区域周边部与区域中央部的颜色之差，判断算出的差是否大于给定的阈值(步骤S5)。例如分别求取区域周边部的区域内的各像素的颜色信息的平均、和区域中央部内的各像素的颜色信息的平均，判断两者的HSV坐标系上的距离是否大于预先确定的给定的阈值。

在嘴部件区域内的区域周边部与区域中央部的颜色之差为给定的阈值以下的情况下(步骤S5“否”)，即嘴部件区域内的区域周边部与区域中央部的颜色之差视作张开嘴尚不充分的情况下，控制部23分别进行区域周边部的纵边缘的检测和区域中央部的纵边缘的检测，算出各个纵边缘响应量(步骤S6)。

例如，对摄影图像的区域周边部(上区域、下区域)使用纵线检测用的索贝尔滤波器来进行纵边缘(在纵向排列的边缘)的检测，例如算出得到的各像素的响应值的绝对值的平均值，作为区域周边部的纵边缘的响应量。同样地，对摄影图像的区域中央部使用纵线检测用的索贝尔滤波器来进行纵边缘的检测，算出得到的各像素的响应值的绝对值的平均值，作为区域中央部的纵边缘的响应量。

另外，在图6中，示出了将嘴部件区域均等地3分割来分配给区域周边部的上下区域和区域中央部的示例，但并不限于此，也可以对应于嘴部件区域的大小等示意调整各个区域的大小了来算出响应量。另外，例如也可以在显示部14显示脸图像，通过用户进行的操作部13的操作来决定区域周边部和区域中心部的区域。另外，区域周边部和区域中央部也可以与作成颜色映射时不同。另外，纵边缘的响应量的算出方法并不限定于使用索贝尔滤波器，例如也可以使用哈夫变换等其他手法。

接下来，控制部11将区域周边部的纵边缘的响应量和区域中央部的纵边缘的响应量进行比较，判断是否是区域中央部的纵边缘的响应量>区域周边部的纵边缘的响应量(步骤S7)。

在此，如图6所示那样，由于在张开嘴的情况下，在区域中央部内检测到牙齿之间的清晰、强的纵边缘，因此纵边缘的响应量变大。另一方面，由于区域周边部为唇区域，只能看见褶皱程度的弱的纵边缘，因此纵边缘的响应量较小。即，在张开嘴的情况下，成为区域中央部的纵边缘的响应量>区域周边部的纵边缘的响应量。另一方面，在合上嘴的情况下，由于区域中央部看不到牙齿而成为唇，因此在区域中央部和区域周边部的纵边缘的响应量几乎看不到差别。

在步骤S7判断为不是区域中央部的纵边缘的响应量>区域周边部的纵边缘的响应量的情况下(步骤S7“否”)，控制部11判定为合上嘴(步骤S8)，将嘴的开口量决定为0(步骤S9)，移转到步骤S14。

另一方面，在步骤S5判断为嘴部件区域内的区域周边部与区域中央部的颜色之差大于给定的阈值的情况下(步骤S5“是”)，或者在步骤S7判断为是区域中央部的纵边缘的响应量＞区域周边部的纵边缘的响应量的情况下(步骤S7“是”)，控制部11判定为张开嘴(步骤S10)。然后控制部11取得嘴部件区域中的唇的内侧边界(图8的L)，将其内侧的区域检测为人脸的嘴的中央部分(唇的开口区域)(步骤S11)。

例如对在步骤S5的判断中判断为区域周边部与区域中央部的颜色之差较大的情况。在该情况下，用最小二乘法等公知的分离手法将绘制区域周边部和区域中央部的颜色映射的HSV颜色空间分离，来取得HSV颜色空间中的区域周边部和区域中央部的颜色的边界。基于取得的颜色的边界来取得嘴部件区域中的唇的内侧边界(图8的L)。另外，例如说明在步骤S5中判断为区域周边部与区域中央部的颜色之差较小的情况。在该情况下，对嘴部件区域使用横线检测用的索贝尔滤波器进行横边缘(在横向上排列的边缘)的检测。对通过检测得到的边缘图像的每个x坐标作成y方向的响应值分布图，基于响应值的峰值来取得嘴部件区域中的唇的内侧边界。

接下来，控制部11对检测到的人脸的嘴的中央部分(唇的开口区域)的区域的图像信息进行修正(步骤S12)。例如将摄影图像的人脸的嘴的中央部分(唇的开口区域)区域的图像信息的α通道值(透过率信息)修正为0，不描绘颜色。或者也可以将摄影图像的人脸的嘴的中央部分(唇的开口区域)区域的颜色信息修正为给定的值、例如0、最大值、或接近于唇的颜色的值。

然后，控制部11算出开口量(步骤S13)，移转到步骤S14。在步骤S13，例如如图9所示那样，算出人脸的嘴的中央部分(唇的开口区域)区域的纵向(上下方向)的最长距离H，作为开口量。

在步骤S14，控制部11在判定为合上嘴的情况下将源图像作为初始图像，在判定为张开嘴的情况下将对人脸的嘴的中央部分(唇的开口区域)进行了修正的摄影图像作为初始图像，将初始图像和开口量登录为初始嘴状态(步骤S14)。然后，基于登录的初始图像和登录的开口量，来进行配合声音数据使以嘴为首的各部件张合的脸变形处理，从而生成动态图像数据(步骤S15)，结束动态图像数据生成处理。脸变形处理能使用公知的图像处理技术进行。

在此，一般在脸变形处理中，在合上嘴的情况下返回到初始图像，但在本实施方式中，进行从初始图像的嘴进一步合上开口量份的处理。在张开嘴的情况下，在人脸的嘴的中央部分(唇的开口区域)区域描绘牙齿和口腔内壁。在该情况下，由于即使在源图像中设为张开嘴，在初始图像中人脸的嘴的中央部分(唇的开口区域)区域内的牙齿和口腔内壁的信息也消失，因此能防止作成在牙齿中***牙齿这样不自然的动态图像数据。

若动态图像数据生成处理结束，则控制部11将生成的动态图像数据用通信部15发送给数字标牌装置2。

在数字标牌装置2中，若由通信部26从图像处理装置1接收到动态图像数据，则控制部23使接收到的动态图像数据存储在存储部25的动态图像数据存储部252。然后，在动态图像内容的再现时刻到来时，控制部23从动态图像数据存储部252读出动态图像数据，将该图像数据发送给投影仪24，并使图像形成部27显示动态图像内容。另外，将动态图像数据的声音数据输出给声音输出部33，使声音输出。

如以上说明的那样，根据图像处理装置1，控制部11从人物的摄影图像识别嘴，从识别出的嘴的区域检测人脸的嘴的中央部分(唇的开口区域)，对检测到的人脸的嘴的中央部分(唇的开口区域)的图像信息进行修正。

因此，例如在进行了使嘴配合声音张合的脸变形处理的情况下，能提供嘴角不会描绘得不自然的图像。

例如，通过将人脸的嘴的中央部分(唇的开口区域)区域内的各像素的透过率信息修正成不描绘人脸的嘴的中央部分(唇的开口区域)的颜色的值，能在进行了使嘴配合声音张合的脸变形处理的情况下提供嘴角不会描绘得不自然的图像。或者，通过将包含在人脸的嘴的中央部分(唇的开口区域)的图像信息中的颜色信息修正成0、最大值、或接近于唇的颜色的值等给定的值，能在进行了使嘴配合声音张合的脸变形处理的情况下提供嘴角不会描绘得不自然的图像。

另外，由于控制部11判定从人物的摄影图像识别出的嘴是否张开，在判定为张开嘴的情况下检测人脸的嘴的中央部分(唇的开口区域)来进行人脸的嘴的中央部分(唇的开口区域)的修正，因此不用由用户检查源图像的嘴是否半张，能对源图像同样地进行处理。

例如能生成从摄影图像识别出的嘴的区域的区域周边部和区域中央部的颜色映射，基于生成的嘴的区域的区域周边部和区域中央部的颜色映射来判定在摄影图像中人物的嘴是否张开。或者，例如从摄影图像中识别出的嘴的区域进行纵边缘的检测，基于嘴的区域的区域周边部和区域中央部的纵边缘检测结果能够判定在摄影图像中人物的嘴是否张开。

另外，人能基于从摄影图像识别出的嘴的区域的区域周边部和区域中央部的颜色映射来检测人脸的嘴的中央部分(唇的开口区域)。或者，能基于从摄影图像识别出的嘴的区域的边缘检测结果来检测人脸的嘴的中央部分(唇的开口区域)。

另外，控制部11通过对修正了人脸的嘴的中央部分(唇的开口区域)的图像信息的摄影图像进行脸变形处理，生成使人物的嘴张合的动态图像数据，能提供没有在牙齿中***牙齿那样的不自然的、自然的嘴角的动态图像数据。进而，算出人脸的嘴的中央部分(唇的开口区域)的开口量，对修正了人脸的嘴的中央部分(唇的开口区域)的图像信息的摄影图像进行脸变形处理，基于算出的开口量来生成使人物的嘴张合的动态图像数据，由此能提供嘴角更加自然的动态图像数据。

另外，上述实施方式中的记述内容是本发明所涉及的图像处理装置以及数字标牌装置的适合的一例，但并不限定于此。

例如在上述实施方式中，从嘴部件区域取得唇边界，将唇边界的内部检测为人脸的嘴的中央部分(唇的开口区域)，但也可以通过图像处理来识别上唇和下唇，将识别出的上唇与下唇之间检测为人脸的嘴的中央部分(唇的开口区域)。

另外，在上述实施方式中，将修正了人脸的嘴的中央部分(唇的开口区域)的图像信息的图像作为用于动态图像数据生成的脸变形处理中所用的初始图像，但也可以基于算出的开口量来进行合嘴的变形，将合上嘴的图像作为初始图像。

另外，在上述实施方式中，在不能基于嘴部件区域的颜色映射来判断是否张开嘴的情况下，基于嘴部件区域的纵边缘来判定是否张开嘴，但也可以仅基于纵边缘来判定是否张开嘴。

此外，关于图像处理装置以及数字标牌装置的细节构成以及细节动作，能在不脱离发明的主旨的范围内适宜变更。

对本发明的几个实施方式进行了说明，但本发明的范围并不限定于上述的实施方式，还包含记载于权利要求的范围的发明的范围和与其等同的范围。

Claims

1.一种图像处理装置，具备如下那样的1个以上的处理器，该处理器：

基于人脸的嘴的中央部分的图像信息、和人脸的嘴的中央部分的周边部分的图像信息来判定所述人脸的嘴是否张开，

在张开的情况下，对所述人脸的嘴的中央部分的图像信息进行修正。

2.根据权利要求1所述的图像处理装置，其中，

所述人脸的嘴的中央部分的图像信息是颜色映射信息，

所述人脸的嘴的中央部分的周边部分的图像信息是颜色映射信息。

3.根据权利要求1所述的图像处理装置，其中，

所述处理器根据在所述人脸的嘴的中央部分的图像信息中是否有纵边缘信息来判定是否张开嘴。

4.根据权利要求1所述的图像处理装置，其中，

所述图像信息包含透过率信息，

所述处理器将包含在所述人脸的嘴的中央部分的图像信息中的透过率信息修正为不描绘所述人脸的嘴的中央部分的颜色的值。

5.根据权利要求3所述的图像处理装置，其中，

所述图像信息包含透过率信息，

6.根据权利要求1所述的图像处理装置，其中，

所述图像信息包含颜色信息，

所述处理器将包含在所述人脸的嘴的中央部分的图像信息中的颜色信息修正为给定的值。

7.根据权利要求1所述的图像处理装置，其中，

所述处理器对修正了所述人脸的嘴的中央部分的图像信息的图像进行变形处理，生成使所述人脸的嘴张合的动态图像数据。

8.根据权利要求7所述的图像处理装置，其中，

所述处理器基于检测到的所述人脸的嘴的中央部分的图像信息来算出开口量，

对修正了所述人脸的嘴的中央部分的图像信息的图像进行变形处理，基于算出的开口量来生成使所述人脸的嘴张合的动态图像数据。

9.一种图像处理方法，用于对图像进行处理，包含以下的步骤：

嘴的区域检测步骤，从人物的图像检测嘴的区域；

开口区域检测步骤，从在所述嘴的区域检测步骤检测到的嘴的区域检测唇的开口区域；和

修正步骤，对通过所述开口区域检测步骤检测到的唇的开口区域的图像信息进行修正。

10.一种图像处理装置，具备如下那样的1个以上的处理器，该处理器：

从人物的图像识别嘴，

从该识别出的嘴的区域检测嘴的中央部分，

对检测到的嘴的中央部分的图像信息进行修正。