CN102385697B

CN102385697B - 图像处理装置、程序和图像处理方法

Info

Publication number: CN102385697B
Application number: CN201110259540.8A
Authority: CN
Inventors: 鹤见辰吾; 望月俊助; 前川宗周
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-09-06
Filing date: 2011-08-30
Publication date: 2016-08-10
Anticipated expiration: 2031-08-30
Also published as: US9865068B2; JP2012060240A; EP2426646A1; US20120057794A1; EP2570994B1; EP2426646B1; CN102385697A; JP5621421B2; EP2570994A1

Abstract

本发明公开了一种图像处理装置、程序和图像处理方法。根据本发明的图像处理装置包括：识别单元，配置成识别存在于成像装置所捕捉的输入图像中的多个用户；信息获取单元，配置成获取将要与所述识别单元识别的每个用户相关联地显示的显示信息；以及输出图像生成单元，配置成通过在所述输入图像上覆盖所述信息获取单元获取的所述显示信息来生成输出图像。基于与每个用户离开成像装置的距离相对应的参数，输出图像生成单元可以确定与第一用户相关联的第一显示信息和与第二用户相关联的第二显示信息中的哪一个将要覆盖在前侧。

Description

图像处理装置、程序和图像处理方法

技术领域

本公开涉及图像处理装置、程序和图像处理方法。

背景技术

近年来，一种被称为增强现实(AR)的技术已变得引人注意，这种技术覆盖关于通过捕捉真实空间而获得的图像的信息，并且将合成图像呈现给用户。使用AR技术在图像上覆盖的信息达到多种类型。例如，JP2010-158056A公开了这样一种技术，该技术将超级链接信息添加到正在存在于输入图像中的真实空间中移动的对象，并且呈现合成图像。

发明内容

然而，当输入图像包含若干个应当向其添加信息的对象时，存在要被显示的信息可能变得拥挤的可能性，这样一来就可能丧失向用户呈现的输出图像的可理解性。例如，在用户之间经由增强现实的图像进行交流时，如果关于主动参与交流的用户的信息和关于位于周围区域的别的用户的信息被不加区别地显示，则顺畅的交流可能由于拥挤的信息而受阻，这样一来就可能出现这样的状况：不容易知道哪个信息是由哪个用户发出的。

考虑到上述情况，希望提供一种新颖且改进的图像处理装置、程序和图像处理方法，其可以在多条信息拥挤于增强现实的图像中的状况下以更加可理解的方式来呈现信息。

根据本公开的实施例，提供了一种图像处理装置，该图像处理装置包括：识别单元，配置成识别存在于成像装置所捕捉的输入图像中的多个用户；信息获取单元，配置成获取将要与所述识别单元识别的每个用户相关联地显示的显示信息；以及输出图像生成单元，配置成通过在所述输入图像上覆盖所述信息获取单元获取的所述显示信息来生成输出图像。基于与每个用户离开成像装置的距离相对应的参数，输出图像生成单元可以确定与第一用户相关联的第一显示信息和与第二用户相关联的第二显示信息中的哪一个将要覆盖在前侧。

当第一显示信息和第二显示信息在输出图像中彼此叠加时，如果第一用户离开成像装置的距离短于第二用户离开成像装置的距离，则输出图像生成单元可以将第一显示信息放置在第二显示信息的前侧。

识别单元可以进一步识别存在于输入图像中的每个用户的脸部区域的尺寸，并且输出图像生成单元可以使用识别单元识别的每个用户的脸部区域的尺寸作为参数。

输出图像生成单元可以测量识别单元识别的每个用户存在于输入图像中的时间长度或者每个用户的移动速度，并且输出图像生成单元可以根据针对与显示信息相关联的用户测量的时间长度或移动速度来设置输入图像上覆盖的显示信息的透明度。

输出图像生成单元可以将存在于输入图像中较长时间的用户的显示信息的透明度设置成较低水平。

输出图像生成单元可以将移动速度较低的用户的显示信息的透明度设置成较低水平。

识别单元可以进一步识别每个用户的姿势，并且输出图像生成单元可以临时减少做出预定姿势的用户的显示信息的透明度。

识别单元可以进一步识别每个用户的姿势、面部表情或讲话状态，并且输出图像生成单元可以临时将与做出预定姿势或具有预定面部表情的用户相关联的显示信息或者与正在讲话的用户相关联的显示信息显示在前侧，而不管用户离开成像装置的距离。

根据每个用户离开成像装置的距离，输出图像生成单元可以确定与每个用户相关联的显示信息的显示尺寸。

信息获取单元可以获取经由文本输入装置输入的文本作为第一类型显示信息，并且获取经由语音输入装置输入的语音作为第二类型显示信息，并且输出图像生成单元可以将用于显示第一类型显示信息的对象形状设置成表示思考的形状，而将用于显示第二类型显示信息的对象形状设置成表示言语的形状。

信息获取单元可以获取经由文本输入装置或语音输入装置输入的信息作为显示信息，输出图像生成单元可以分析信息获取单元获得的显示信息以确定显示信息是对应于用户的思考的第三类型显示信息还是对应于用户的言语的第四类型显示信息，并且输出图像生成单元可以将用于显示第三类型显示信息的对象形状设置成表示思考的形状，而将用于显示第四类型显示信息的对象形状设置成表示言语的形状。

信息获取单元可以获取用户输入的信息作为第五类型显示信息，并且获取基于用户输入的信息或者用户的属性信息而从外部信息源获取的信息作为第六类型显示信息，并且输出图像生成单元可以使用具有不同形状的对象来显示第五类型显示信息和第六类型显示信息。

根据本公开的另一个实施例，提供了一种程序，用于使控制图像处理装置的计算机起到以下作用：识别单元，配置成识别存在于成像装置所捕捉的输入图像中的多个用户；信息获取单元，配置成获取将要与所述识别单元识别的每个用户相关联地显示的显示信息；以及输出图像生成单元，配置成通过在所述输入图像上覆盖所述信息获取单元获取的所述显示信息来生成输出图像。基于与每个用户离开成像装置的距离相对应的参数，输出图像生成单元可以确定与第一用户相关联的第一显示信息和与第二用户相关联的第二显示信息中的哪一个将要覆盖在前侧。

当第一显示信息和第二显示信息在输出图像中彼此覆盖时，如果第一用户离开成像装置的距离短于第二用户离开成像装置的距离，则输出图像生成单元可以将第一显示信息放置在第二显示信息的前侧。

根据本公开的还有另一个实施例，提供了一种图像处理方法，该图像处理方法包括：识别存在于成像装置所捕捉的输入图像中的多个用户；获取将要与识别的每个用户相关联地显示的显示信息；基于与每个用户离开所述成像装置的距离相对应的参数，确定与第一用户相关联的第一显示信息和与第二用户相关联的第二显示信息中的哪一个将要覆盖在前侧；以及通过在所述输入图像上覆盖获取的所述显示信息来生成输出图像。

如上所述，根据本公开的实施例的图像处理装置、程序和图像处理方法允许在多条信息拥挤于增强现实的图像中的状况下以更加可理解的方式来呈现信息。

附图说明

图1是示出图像处理***的概况的示意图；

图2是示出使用图1的图像处理***显示的输出图像的例子的说明图；

图3是示出根据第一实施例的图像处理装置的示例性配置的框图；

图4是示出用于登记新用户的用户界面的例子的说明图；

图5是示出显示对象数据的示例性结构的说明图；

图6A是示出显示对象的形状的第一例子的说明图；

图6B是示出显示对象的形状的第二例子的说明图；

图6C是示出显示对象的形状的第三例子的说明图；

图6D是示出显示对象的形状的第四例子的说明图；

图7是图示根据第一实施例的显示对象的显示位置的说明图；

图8A是图示透明度设置过程的例子的说明图；

图8B是图示透明度设置过程的另一个例子的说明图；

图9A是图示层设置过程的例子的第一说明图；

图9B是图示层设置过程的例子的第二说明图；

图10是示出根据第一实施例的输出图像的例子的说明图；

图11是示出根据第一实施例的图像处理的示例性流程的流程图；

图12是示出根据第二实施例的图像处理装置的示例性配置的框图；

图13是图示权重确定过程的例子的说明图；

图14A是图示显示位置确定过程的第一例子的第一说明图；

图14B是图示显示位置确定过程的第一例子的第二说明图；

图14C是图示显示位置确定过程的第一例子的第三说明图；

图15是图示显示位置确定过程的第二例子的说明图；

图16是示出根据第二实施例的输出图像的例子的说明图；

图17是示出根据第二实施例的图像处理的示例性流程的流程图；

图18是示出根据第二实施例的显示位置确定过程的第一示例性流程的流程图；以及

图19是示出根据第二实施例的显示位置确定过程的第二示例性流程的流程图。

具体实施方式

在下文中，参考附图来详细地描述本公开的优选实施例。注意，在本说明书和附图中，具有基本上相同的功能和结构的结构性元件用相同的标号来指示，并且省略对这些结构性元件的重复说明。

根据以下顺序来描述“具体实施方式”。

1.***概况

2.第一实施例的描述

2-1.图像处理装置的示例性配置

2-2.显示对象的属性

2-3.输出图像的例子

2-4.处理流程

2-5.第一实施例的结论

3.第二实施例的描述

3-1.图像处理装置的示例性配置

3-2.输出图像的例子

3-3.处理流程

3-4.第二实施例的结论

<1.***概况>

首先，参考图1来描述根据本公开的一个实施例的图像处理***的概况。图1是示出根据本公开的一个实施例的图像处理***1的概况的示意图。参考图1，图像处理***1包括图像处理装置100、数据库102、成像装置104和显示装置106。

图像处理装置100连接到数据库102、成像装置104和显示装置106。图像处理装置100例如可以是通用计算机如个人计算机(PC)或工作站，或者是用于特定目的的专用计算机。如下面详细描述的那样，图像处理装置100获取由成像装置104捕捉的图像作为输入图像，并且将已被处理的输出图像输出到显示装置106。

数据库102是用于存储将要由图像处理装置100用来执行处理的信息的装置。数据库102并不限于图1的例子，并且可以内置在图像处理装置100中。数据库102中存储的信息的例子包括唯一标识图像处理***1的每个用户的标识符(在下文中被称为用户ID)、用于识别每个用户的特征量信息、每个用户的属性信息以及图像数据。当图像处理装置100执行处理时，响应于请求可以从数据库102输出数据库102中存储的信息。代替地，图像处理装置100可以周期性地下载数据库102中存储的信息。

成像装置104是捕捉用户可以存在于其中的真实空间的图像的装置。成像装置104布置在屏幕107的上侧，以便成像装置104与屏幕107的前方空间相对。成像装置104捕捉屏幕107前方真实空间的图像，并且以时间序列的方式将一系列图像(亦即视频)输出到图像处理装置100。

显示装置106是显示由图像处理装置100生成的一系列输出图像的装置。在图1的例子中，显示装置106是投影仪。显示装置106将从图像处理装置100输入的输出图像投影到屏幕107上。在这种情况下，显示装置106是背投影仪。注意，显示装置106并不限于图1的例子，并且可以是等离子显示面板(PDP)或液晶显示器(LCD)等等。

屏幕107是显示装置106的显示屏。在图像处理***1中，显示装置106的显示屏布置成使得它与用户存在于其中的真实空间相对。在图1的例子中，三个用户Ua、Ub和Uc位于屏幕107的前面。

图像处理***1的用户可以使用终端装置与图像处理***1交互。在图1的例子中，用户Ua握着终端装置105。终端装置105例如可以是PC、灵巧电话或个人数字助理(PDA)。根据任何无线通信协议比如像无线局域网(LAN)、或终端装置105与图像处理装置100通信。终端装置105可以由用户Ua用来例如输入文本或语音或者登记用户的信息。

图2是图示使用图1中示例性示出的图像处理***1显示的输出图像的例子的说明图。参考图2，示出了作为例子的输出图像Im01。三个用户Ua、Ub和Uc存在于输出图像Im01中。显示对象12a、12b和12c分别覆盖在三个用户Ua、Ub和Uc周围的区域上。每个显示对象是用于显示与对应的用户相关联的信息的对象。在本说明书中，由图像处理装置100进行的与用户相关联地显示的信息会被称为“显示信息”。在图2的例子中，显示对象12a、12b和12c中的每一个包括对应用户的脸部图像、昵称和属性信息(例如业余爱好)作为显示信息。进一步，显示对象13a覆盖在用户Ua周围的区域上。显示对象13a包含由用户Ua输入的消息作为显示信息。如下面详细地描述的那样，图像处理装置100将这样的显示对象覆盖在图像上。

在许多人彼此交流的场合比如像聚会、会议室或展览会中，这样的图像处理***1可以用来加深用户之间的交换。代替地，图像处理***1可以用在商业场合比如像视频会议。在这样的情况下，成像装置和显示装置可以布置在每个位置中，以便在给定位置处捕捉的视频可以与显示信息一起显示在别的位置处。

在此，当多个用户存在于图像处理***1中的输入图像中时，可能发生如下境况：应当在输出图像中显示若干个显示对象。在这样的情况下，取决于在哪个位置并且以何种方式布置每个显示对象，对于查看输出图像的用户而言的信息的可理解性可能不同。如果信息难以理解，则顺畅的交流可能中断。因此，以下部分将会描述两个实施例，用于以更加可理解的方式呈现信息以支持顺畅的交流。

根据本公开的实施例的图像处理装置可以包括：识别单元，配置成识别存在于成像装置所捕捉的输入图像中的多个用户；信息获取单元，配置成获取将要与所述识别单元识别的每个用户相关联地显示的显示信息；以及输出图像生成单元，配置成通过在所述输入图像上覆盖所述信息获取单元获取的所述显示信息来生成输出图像，其中，基于与每个用户离开所述成像装置的距离相对应的参数，所述输出图像生成单元确定与第一用户相关联的第一显示信息和与第二用户相关联的第二显示信息中的哪一个将要覆盖在前侧。

<2.第一实施例的描述>

[2-1.图像处理装置的示例性配置]

图3是示出根据本公开的第一实施例的图像处理装置100的示例性配置的框图。参考图3，图像处理装置100包括图像获取单元110、语音获取单元120、识别单元130、信息获取单元150和输出图像生成单元170。另外，识别单元130包括图像识别单元134、语音识别单元138和个人识别单元142。

(图像获取单元)

图像获取单元110获取由成像装置104捕捉的一系列输入图像。然后，图像获取单元110将获取的输入图像输出到识别单元130的图像识别单元134和输出图像生成单元170。

(语音获取单元)

语音获取单元120获取用户发出的语音作为输入语音。例如通过接收从用户握着的终端装置105传送的语音信号，可以执行使用语音获取单元120对语音的获取。代替地，可以在屏幕107周围放置麦克风。在后者的情况下，语音获取单元120经由放置的麦克风获取输入语音。然后，语音获取单元120将获取的输入语音输出到识别单元130的语音识别单元138。

(图像识别单元)

图像识别单元134针对从图像获取单元110输入的输入图像施加已知的脸部识别方法(例如参见JP 2008-131405A)，并且检测存在于输入图像中的用户的脸部区域。另外，针对检测到的脸部区域，图像识别单元134计算用于个体标识的特征量(在下文中称之为图像特征量)。然后，图像识别单元134将计算的图像特征量输出到个人识别单元142。

然后，当个人识别单元142已标识对应于每个脸部区域的用户(已标识对应于每个脸部区域的用户ID)时，图像识别单元134将用户与标识的用户ID相关联，并且将表示每个脸部区域的位置和尺寸的信息输出到输出图像生成单元170。

进一步，基于每个用户的图像特征量，图像识别单元134例如可以识别用户的属性如面部表情(例如微笑)、用户的讲话状态(用户是否在讲话)或者用户的性别或年龄组。在这样的情况下，图像识别单元134将表示识别的面部表情、讲话状态、性别或年龄组等的信息输出到输出图像生成单元170。

进而，图像识别单元134还可以检测存在于输入图像中的用户的手部区域，并且基于检测到的手部区域的位置的移动路径来识别用户的姿势。在这样的情况下，图像识别单元134将表示识别的姿势类型的信息输出到输出图像生成单元170。

(语音识别单元)

语音识别单元138针对从语音获取单元120输入的输入语音施加已知的语音识别方法，并且提取用户发出的言语作为文本数据(在下文中称之为“言语数据”)。然后，语音识别单元138将提取的言语数据与用户ID相关联，并且将它们输出到信息获取单元150。

当经由终端装置105获取输入语音时，基于作为传送源的终端装置105的装置ID或账户ID等，语音识别单元138可以标识对应的用户。同时，例如当经由放置在屏幕107周围的语音输入装置获取输入语音时，通过对着预先登记在数据库102中的用户的语音特征量检查从输入语音提取的语音特征量，语音识别单元138可以标识个别的用户。进一步，语音识别单元138例如可以估计输入语音的语音源的方向，并且基于估计的语音源的方向来标识个别的用户。

(个人识别单元)

个人识别单元142标识存在于成像装置104所捕捉的输入图像中的一个或多个用户中的每一个。更加具体地，个人识别单元142例如对着预先登记在数据库102中的已知用户的脸部的图像特征量检查从图像识别单元134输入的图像特征量(关于检查方法，例如参见JP 2009-53916A)。然后，个人识别单元142将图像识别单元134所识别的每个脸部区域与用户的标识的用户ID相关联，作为检查的结果。代替地，个人识别单元142例如可以对着预先登记在数据库102中的已知用户的语音的语音特征量来检查从语音识别单元138输入的语音特征量。

(信息获取单元)

信息获取单元150获取将要与识别单元130识别的每个用户相关联地显示的显示信息。在这个实施例中，将要与每个用户相关联地显示的显示信息的例子可以包括用户的属性信息和用户输入的输入信息。

信息获取单元150例如从数据库102获取用户的属性信息。信息获取单元150从数据库102获取的属性信息由用户预先登记在数据库102中。数据库102中登记的属性信息可以是任何信息，比如像用户的昵称、年龄、性别、业余爱好或团队/部门或者用户对具体问题的回答。代替地，例如，信息获取单元150可以获取图像识别单元134识别的每个用户的性别或年龄组等作为属性信息。

信息获取单元150获取作为显示信息的输入信息例如包括经由文本输入装置输入的文本。例如，用户可以使用终端装置105作为文本输入装置来输入文本，然后将文本作为输入信息从终端装置105传送到图像处理装置100。另外，信息获取单元150获取作为显示信息的输入信息例如包括语音识别单元138识别的前述言语数据。

进一步，信息获取单元150可以在外部信息源中搜索与用户的属性信息或用户输入的输入信息中包含的关键词相匹配的给定信息，然后获取作为搜索结果而获得的信息(在下文中称之为搜索信息)作为显示信息。外部信息源例如可以是网络相关的服务如在线词典服务、社交网络服务(SNS)或知识共享服务。

另外，信息获取单元150例如提供用户界面(UI)，以便用户登记关于新用户的信息。可以在屏幕107上显示用于用户登记的UI。用于用户登记的UI例如可以是使用如图4中示例性示出的那样的图像的UI。根据图4中示出的UI的例子，通过做出触摸选择域19a或19b的姿势以回答屏幕107上显示的问题18，用户可以在图像处理***1中登记他/她自己的属性信息。代替地，可以经由图像处理装置100的特定屏幕或终端装置105的屏幕来提供用于用户登记的用户界面。

(输出图像生成单元)

通过在图像获取单元110输入的输入图像上覆盖信息获取单元150获取的显示信息，输出图像生成单元170生成输出图像。更加具体地，输出图像生成单元170首先确定用于显示信息获取单元150获取的显示信息的显示对象的属性。显示对象的属性的例子包括关于显示对象的形状、颜色、尺寸、显示位置、透明度和层的数据。在它们当中，层表示按照覆盖在彼此之上的显示对象的顺序的每个显示对象的序号。例如，当多个显示对象彼此叠加时，具有较低层的显示对象放置在靠前侧。在针对每个显示信息确定了每个显示对象的属性之后，输出图像生成单元170根据确定的属性生成每个显示对象的图像。接下来的部分将会更加具体地描述使用输出图像生成单元170来确定每个显示对象的属性的标准。然后，输出图像生成单元170通过在输入图像上覆盖生成的显示对象的图像来生成输出图像，并且将生成的输出图像相继输出到显示装置106。

[2-2.显示对象的属性]

(1)属性的例子

图5是示出包括输出图像生成单元170确定的属性值的显示对象数据180的示例性结构的说明图。参考图5，显示对象数据180具有九个数据项，包括对象ID 181、用户ID 182、形状183、颜色184、尺寸185、显示位置186、透明度187、层188和显示信息189。

(2)对象ID和用户ID

对象ID 181是用于唯一标识单个图像之内覆盖的每个显示对象的标识符。用户ID 182是表示根据对象ID 181标识的显示对象与其相关联的用户的用户ID。例如，从显示对象数据180的第一记录190a和第二记录190b可以理解的是，两个显示对象D01A和D02A与用户Ua相关联。另外，从第三记录190c可以理解显示对象D01B与用户Ub相关联，并且从第四记录190d可以理解显示对象D01C与用户Uc相关联。

(3)形状

形状183表示显示对象的形状。在图5的例子中，通过指定任何一个预定的显示对象类型Obj1、Obj2......，来标识显示对象的形状。

图6A至6D是每个示出显示对象的类型的例子的说明图。参考图6A，示出了在图2中示例性示出的显示对象12a和13a。在图6A中，显示对象12a的类型是“Obj1”类型，而显示对象13a的类型则是“Obj2”类型。Obj1和Obj2类型的这些显示对象每个都具有所谓言语气球的形状。

接下来参考图6B，示出了显示对象14a。显示对象14a的类型是“Obj3”。显示对象14a具有挂在肩膀上的招牌的形状。图6A中示出的Obj1类型和图6B中示出的Obj3类型例如可以用来显示用户的属性信息。同时，图6A中示出的Obj2类型例如可以用来显示用户输入的信息。

进一步参考图6C，示出了显示对象15a。显示对象15a的类型是“Obj4”。Obj4类型例如也可以用来显示用户输入的信息。

在此，图6A中示出的Obj2类型的形状是表示用户的言语的形状。同时，图6C中示出的Obj4类型的形状则是表示用户的思考的形状。例如当显示信息是经由语音输入装置输入的输入信息时，输出图像生成单元170可以将用于对显示信息进行显示的显示对象设置成具有表示言语的形状的Obj2类型。另外，例如当显示信息是经由文本输入装置输入的输入信息时，输出图像生成单元170可以将用于对显示信息进行显示的显示对象设置成具有表示思考的形状的Obj4类型。代替地，例如，输出图像生成单元170可以通过分析显示信息的内容来确定显示信息是对应于用户思考的信息还是对应于用户言语的信息，并且将对应于用户思考的显示对象设置成Obj4类型，而将对应于用户言语的显示对象设置成Obj2类型。

参考图6D，示出了显示对象16a。显示对象16a的类型是“Obj5”。显示对象16a也具有言语气球的形状。然而，Obj5类型的言语气球的尾巴并不指向用户，而是指向上方。输出图像生成单元170例如可以将用于显示由信息获取单元150已从外部信息源获取的信息的显示对象设置成Obj5类型。从外部信息源获取的信息的例子包括前述搜索信息。

如上所述，当根据显示信息的获取路径或者用来输入信息的输入手段来改变显示对象的形状时，用户变得可以在使用图像处理***1与别的用户交流时更加直观且准确地理解信息的类型。另外，因为用户能够选择性地使用对象的形状以便显示用户输入(言语或思考)的信息，所以可以实现更丰富的交流。

(4)颜色

图5中的颜色184表示显示对象的颜色(或者显示对象之内的显示信息的文本的颜色)。输出图像生成单元170可以参考信息获取单元150获取的每个用户的属性信息，并且例如根据指示用户的性别或年龄组等的属性值来改变每个显示对象的颜色。

(5)尺寸

尺寸185表示显示对象的尺寸。在图5的例子中，显示对象的尺寸用缺省尺寸的放大率(％)来表示。输出图像生成单元170例如根据每个用户离开成像装置104的距离来确定用于显示与每个用户相关联的显示信息的显示对象的尺寸。在这个实施例中，代替测量每个用户离开成像装置104的距离，输出图像生成单元170可以使用每个用户的脸部区域的尺寸作为与每个用户离开成像装置104的距离相对应的参数。脸部区域的尺寸例如可以用被识别为属于脸部区域的像素数目来表示，或者用包围脸部区域的边界框的尺寸来表示。更加具体地，输出图像生成单元170将用于显示与脸部区域较大的用户相关联的显示信息的显示对象的尺寸设置成较大尺寸。注意，可以预先定义显示对象的尺寸的上限。在这种情况下，输出图像生成单元170设置显示对象的尺寸，以便已接近成像装置104至大于或等于预定距离的距离的用户的显示对象的尺寸不超过上限。

(6)显示位置

显示位置186指示表示显示对象覆盖在图像之内的位置的显示对象的显示位置亦即二维坐标。在这个实施例中，输出图像生成单元170布置每个显示对象，使得显示对象的中心(或预定角落等)位于与作为基准点的用户的脸部区域具有预定偏移的位置。

图7是图示根据这个实施例的显示对象的显示位置的说明图。参考图7，示出了用户的脸部区域的重心位置P0。位置P0指示用于确定显示对象的显示位置的偏移的基准点。当与给定用户相关联的显示信息的数目为一个时，输出图像生成单元170将用于对显示信息进行显示的显示对象的显示位置设置到位置P1。代替地，当与给定用户相关联的显示信息的数目多于一个时，输出图像生成单元170将用于第二、第三和第四显示信息的显示位置分别设置到位置P2、P3和P4。预先定义位置P0与位置P1、P2、P3和P4中的每一个之间的偏移。在本说明书中，这样的显示位置将被称为“缺省显示位置”。注意，图7中示出的缺省显示位置只是示例性的。

当显示对象的类型是图6B中示例性示出的“Obj3”类型时，显示对象的缺省显示位置例如可以是位置P5。同时，当显示对象的类型是图6D中示例性示出的“Obj5”类型时，显示对象的缺省显示位置例如可以是位置P6和P7。

(7)透明度

图5中的透明度187表示显示对象的透明度。当针对显示对象设置透明度时，变得可以即使当多个显示对象覆盖在彼此之上时也允许用户查看后侧的显示对象。在这个实施例中，输出图像生成单元170测量识别单元130识别的每个用户存在于输入图像中的时间长度(在下文中，这样的时间将被称为“停留时间”)或者每个用户的移动速度。然后，根据与显示信息相关联的用户的测量的停留时间或移动速度，输出图像生成单元170设置用于对显示信息进行显示的显示对象的透明度。

图8A是图示输出图像生成单元170的透明度设置过程的例子的说明图。在图8A的例子中，输出图像生成单元170根据用户在图像中的停留时间来设置与用户相关联的显示对象的透明度。

图8A的水平轴表示时间轴(时间T)，而垂直轴则表示用虚线指示的停留时间St和用实线指示的透明度Tr的水平。在图8A的例子中，随着已在时间T₀出现在图像中的用户继续停留在图像中，用户的停留时间St沿着时间轴线性增加。同时，显示对象的透明度Tr在时间T₀处为100％。亦即，在用户刚刚出现在图像中的时刻，显示对象未被看到。然后，随着停留时间St增加，显示对象的透明度Tr下降。亦即，当用户停留在图像中时，显示对象的色调逐渐变得更黑。然后，当显示对象的透明度Tr在时间T₁达到20％时，输出图像生成单元170停止减少透明度Tr。这是为了允许覆盖在后侧的显示对象至少在某种程度上被看到。

在此，用户停留在图像中的时间长度被考虑用来表示用户对图像处理***1所提供的交流的兴趣水平或者用户对它的贡献水平。这样一来，如果停留时间较长的用户的显示对象的透明度被设置为较低水平，则可以优先使得具有强烈兴趣水平或高贡献水平的用户参与到交流中。同时，如果停留时间较短的用户的显示对象的透明度被设置为较高水平，则可以避免如下境况：关于只是通过叠合而经过成像装置104前面的用户的不必要的显示信息会强烈地出现在图像中。注意，代替在此描述的停留时间，输出图像生成单元170例如也可以使用自从用户已开始使用图像处理***1以来已过去的时间。

图8B是图示输出图像生成单元170的透明度设置过程的另一个例子的说明图。在图8B的例子中，输出图像生成单元170根据用户在图像中的移动速度来设置与用户相关联的显示对象的透明度。

图8B的水平轴表示时间轴(时间T)，而垂直轴则表示用虚线指示的移动速度Mv和用实线指示的透明度Tr的水平。在图8B的例子中，刚刚在时间T₀出现在图像中的用户的移动速度为Mv₁。此时，显示对象的透明度Tr为100％。在这之后，用户的移动速度从时间T₀至T₂下降，并且用户的移动速度在时间T₂之后增加。透明度Tr跟随这样的移动速度Mv的变化，并且在从时间T₀至T₂下降之后，在时间T₂之后再次增加。

在此，可以认为对图像处理***1提供的交流具有强烈兴趣的用户停留在成像装置104前面。这样一来，如果移动速度较低的用户的显示对象的透明度被设置为较低水平，则可以优先使得这样的用户参与到交流中。另外，还可以避免如下境况：关于只是通过叠合而经过成像装置104前面的用户的不必要的显示信息会强烈地出现在图像中。注意，例如根据帧之间的脸部区域的重心位置的移动量，输出图像生成单元170可以计算用户的移动速度。

另外，输出图像生成单元170还可以根据用户的停留时间和移动速度两者来设置显示对象的透明度。例如，即使当用户的移动速度已增加时，如果用户的停留时间大于或等于预定阈值，则输出图像生成单元170也可以将用户的显示对象的透明度维持在低水平。因此，可以避免如下境况：当用户临时在图像之内移动时，用户的显示对象变得难以查看。注意，输出图像生成单元170还可以针对每个用户测量其中移动速度小于或等于预定阈值的暂停状态的时间长度以及其中移动速度在阈值之上的移动状态的时间长度，然后根据这两个时间长度的比率来设置显示对象的透明度。

另外，输出图像生成单元170可以临时减少做出预定姿势的用户的显示对象的透明度。例如，举手姿势或挥手姿势等可以与透明度减少相关联。因此，可以容易地使得刚刚出现(亦即停留时间短)但是对交流具有强烈兴趣的用户参与到交流中。

(8)层

图5中的层188表示按照覆盖在彼此之上的显示对象的顺序的显示对象的序号。在图5的例子中，显示对象D01A和D02A中的每一个的层为1，显示对象D01B的层为2，而显示对象D01C的层为3。这样一来，输出图像生成单元170就覆盖显示对象，使得显示对象D01A和D02A放置在最前层，显示对象D01B放置在下一层，而显示对象D01C则放置在最后层。

基于与每个用户离开成像装置104的距离相对应的参数，输出图像生成单元170确定每个显示对象的这样的层。在这个实施例中，与每个用户离开成像装置104的距离相对应的参数可以是前述脸部区域的尺寸。然而，参数不限于此，并且例如还可以使用由测距传感器测量的距离或者经由麦克风输入的语音的音量作为参数。然后，输出图像生成单元170将与参数指示的距离较短的用户相关联的用于对显示信息进行显示的显示对象的层设置为较低值(亦即将显示对象布置在靠前侧)。

图9A和9B是每个图示层设置过程的例子的说明图。

参考图9A，三个用户Ua至Uc位于屏幕107前面。用户Ua、Ub和Uc离开屏幕107的距离分别为D1、D2和D3。在它们当中，距离D1最短而距离D3最长。在这样的境况下，存在于输入图像中的用户Ua的脸部区域最大。用户Ub的脸部区域的尺寸为第二大，而用户Uc的脸部区域的尺寸为最小。在图9A的例子中，用户Ua、Ub和Uc的脸部区域的尺寸分别为1000像素、800像素和400像素。这样一来，输出图像生成单元170就将与用户Ua相关联的显示对象的层设置为1，将与用户Ub相关联的显示对象的层设置为2，并且将与用户Uc相关联的显示对象的层设置为3。

如上所述，当用于脸部区域较大的用户的显示对象覆盖在靠前侧时，即使当显示对象拥挤时，也可以容易地实现与距离感相匹配的自然显示。另外，还可以将想要参与到交流中的用户引导至更靠近屏幕107的位置。

进一步，输出图像生成单元170例如可以将与做出预定姿势或具有预定面部表情的用户相关联或者与正在讲话的用户相关联的显示对象的层临时设置到前侧，而不管用户离开成像装置104的距离。预定姿势在此例如可以是举手姿势或挥手姿势等。另外，预定面部表情在此可以是微笑等。在图9B的例子中，做出挥手姿势的用户Uc的层被临时设置为1，尽管用户Uc离开屏幕107的距离最长。这样的过程可以为想要参与交流的多个用户提供扩展的机会来进行交流，同时防止只有位于屏幕107附近的用户才强烈参与到交流中。

[2-3.输出图像的例子]

图10是示出根据这个实施例的从图像处理装置100输出的输出图像的例子的说明图。参考图10，输出图像Im11被示出作为例子。三个用户Ua、Ub和Uc存在于输出图像Im11中。另外，显示对象12a和13a覆盖在用户Ua周围的区域上。显示对象12b覆盖在用户Ub周围的区域上。显示对象12c覆盖在用户Uc周围的区域上。然而，因为用户Ua、Ub和Uc在图像之内位置彼此靠近，所以显示对象拥挤在虚线框所包围的区域中，这样一来显示对象13a、12b和12c就彼此叠加。

在图10的右下部示出的局部图像Im12是前述输出图像Im11中的虚线框之内的局部图像的放大图。在局部图像Im12中，显示对象13a覆盖在最前侧。另外，显示对象12b覆盖在显示对象13a后面，并且显示对象12c覆盖在显示对象12b后面。亦即，可以理解的是，关于在离屏幕107最近的位置中积极参与交流的用户Ua的信息优先显示在输出图像Im11中。另外，在图像中从右向左走过的用户Uc的显示对象12c的透明度被设置为高水平。因此，可以防止关于有很高的可能性不参与交流的用户Uc的信息妨碍其它信息的可见性。

[2-4.处理流程]

图11是示出根据第一实施例的图像处理装置100的主要图像处理流程的例子的流程图。

参考图11，图像获取单元110首先获取由成像装置104捕捉的输入图像(步骤S102)。然后，图像获取单元110将获取的图像输出到识别单元130和输出图像生成单元170。

接下来，识别单元130检测存在于输入图像中的用户的脸部区域和手部区域(步骤S104)。接下来，通过对着数据库102中存储的已知用户的图像特征量检查每个被检测脸部区域的图像特征量，识别单元130标识存在于输入图像中的单独用户(步骤S106)。另外，通过另外使用根据语音获取单元120获取的输入语音检测的语音源的方向和语音特征量，识别单元130可以标识单独用户。

接下来，信息获取单元150从数据库102、终端装置105或外部信息源等获取将要与识别单元130识别的每个用户相关联地显示的显示信息(步骤S108)。

接下来，输出图像生成单元170测量识别单元130识别的每个用户在图像中的停留时间或移动速度(步骤S110)。然后，基于测量的停留时间或移动速度，输出图像生成单元170设置显示对象的透明度，以便显示信息获取单元150获取的显示信息(步骤S112)。另外，使用每个用户的脸部区域的尺寸作为与用户离开成像装置104的距离相对应的参数，输出图像生成单元170设置每个显示对象的尺寸和层(步骤S114)。在此，根据识别单元130识别的用户的面部表情、姿势或讲话状态，输出图像生成单元170可以改变每个显示对象的透明度或层。进一步，输出图像生成单元170设置每个显示对象的其它属性如显示位置和颜色(步骤S116)。

接下来，根据设置的显示对象的属性，通过在输入图像上覆盖显示对象，输出图像生成单元170生成输出图像(S118)。然后，输出图像生成单元170将生成的输出图像输出到显示装置106，以使显示装置106显示输出图像(步骤S120)。

[2-5.第一实施例的结论]

上面已参考图1至11描述了本公开的第一实施例。根据这个实施例，在多条信息拥挤于其中通过在输入图像上覆盖与每个用户相关联的信息而生成输出图像的增强现实的图像中的状况下，根据每个用户离开成像装置的距离来确定每个显示信息在深度方向上的布置。因此，因为实现了与距离感相匹配的自然显示，所以用户可以容易地理解哪个显示信息与哪个用户相关。另外，因为想要参与交流的用户可以被引导至靠近屏幕的位置，所以交流有望更加活跃。

另外，根据这个实施例，根据用户在图像中的停留时间或移动速度来设置每个显示对象的透明度。因此，可以以更加可见的方式向用户呈现关于对交流有强烈兴趣的用户或者对交流贡献到高程度的用户的信息。另外，还可以防止关于并未参与交流的用户的信息妨碍其它信息的可见性。进一步，根据这个实施例，每个显示对象的形状根据用来输入信息的输入手段或显示信息的获取路径而改变。这样一来，用户就能够更加直观地和准确地理解显示信息的类型。

<3.第二实施例的描述>

在前述第一实施例中，即使当在多条显示信息拥挤于图像中的状况下多条显示信息彼此叠加时，也以可理解的方式呈现信息。在第一实施例中，每个显示信息基本上显示在缺省的显示位置。与此形成对照，在这个部分描述的第二实施例中，每个显示信息的显示位置被适应性地确定，以抑制如果多条显示信息彼此叠加则会发生的可见性下降。

根据第二实施例的***的配置可以类似于参考图1描述的图像形成***1的配置。

[3-1.图像处理装置的示例性配置]

图12是示出根据本公开的第二实施例的图像处理装置200的示例性配置的框图。参考图12，图像处理装置200包括图像获取单元110、语音获取单元120、识别单元130、信息获取单元150、权重确定单元260和输出图像生成单元270。如同根据第一实施例的图像处理装置100那样，识别单元130包括图像识别单元134、语音识别单元138和个人识别单元142。

(权重确定单元)

权重确定单元260确定识别单元130识别的每个用户的权重。在这个实施例中，术语用户的“权重”指的是与用户在显示方面的优先权相类似的概念，并且针对具有较大“权重”的用户的显示信息优先布置在靠近缺省显示位置的位置。例如，权重确定单元260可以根据用户存在于输入图像中的时间长度亦即停留时间来确定每个用户的权重。代替地，权重确定单元260可以使用用户的属性信息来确定每个用户的权重。更加具体地，例如，权重确定单元260可以确定每个用户的权重，使得属于特定性别(例如女性)或特定年龄组(例如小于10岁的小孩或70岁以上的老人)的用户的权重变得大于其它用户的权重。

图13是图示权重确定单元260的权重确定过程的例子的说明图。图13的水平轴表示时间轴(时间T)，而垂直轴则表示用虚线指示的停留时间St和用实线指示的权重W的幅度。在图13的例子中，权重W的类型根据用户的属性可以分成以下三类：针对小孩(例如小于10岁)的权重Wk、针对女性的权重Wf和针对男性的权重Wm。当在时间T₀出现在图像中的用户持续停留在图像中时，停留时间St沿着时间轴线性增加。权重Wm从时间T₀至T₃与停留时间St成比例地线性增加，然后在时间T₃之后变成恒定值。权重Wf也从时间T₀至T₃线性增加，然后在时间T₃之后变成恒定值。然而，权重Wf在整个时间之上比权重Wm大dW。权重Wk从时间T₀至T₄线性增加，然后在时间T₄之后变成恒定值。权重Wk从时间T₀至T₃大于权重Wf。权重确定单元260例如存储曲线图或计算公式，以便预先根据每个用户的停留时间和属性计算权重，并且根据曲线图或计算公式确定每个用户的权重。

如上所述，当具有特定属性的用户的权重被设置成比其它用户的权重更大的值时，可以优先对待有望活跃参与交流的用户或者引起对具有特定属性的用户的注意。另外，还可以将如下想法引入到***中，所述想法在公众之间的交流中是受尊重的，比如女士优先或针对老人的优先权。注意，将要优先对待的用户例如可以是支付了会费的会员。

(输出图像生成单元)

通过在从图像获取单元110输入的输入图像上覆盖信息获取单元150获取的显示信息，输出图像生成单元270生成输出图像。更加具体地，输出图像生成单元270首先确定用于显示信息获取单元150获取的显示信息的显示对象的属性。如图5中的例子中那样，显示对象的属性包括关于形状、颜色、尺寸、显示位置、透明度和层等的数据。用于确定显示对象的形状、颜色、尺寸、透明度或层的方式可以类似于前述第一实施例。

在这个实施例中，基于权重确定单元260确定的每个用户的权重，输出图像生成单元270确定与每个用户相关联的显示信息的显示位置(例如每个显示对象的显示位置)。更加具体地，例如，输出图像生成单元270确定每个显示对象的显示位置，以便与具有较大权重的用户相关联的显示对象较少程度地偏离缺省显示位置。然后，通过在确定的显示位置中将每个显示对象覆盖在输入图像上，输出图像生成单元270生成输出图像。

在这个实施例中，在确定显示位置中使用了概念“吸引力”，其取决于用户的权重和从缺省显示位置的偏移。进一步，在显示位置确定过程的第一例子中，还引入了概念“排斥力”，其取决于给定用户的显示信息的缺省显示位置和别的用户的显示信息的缺省显示位置之间的距离。

(1)显示位置确定过程的第一例子

图14A至14C是每个图示输出图像生成单元270的显示位置确定过程的第一例子的说明图。在显示位置确定过程的第一例子中，输出图像生成单元270确定用于显示每个显示信息的显示对象的显示位置，以便前述用于每个显示信息的排斥力和吸引力处于平衡状态。

参考图14A，示出了用户Ux的显示对象DO1和别的用户的显示对象DO2。作为例子，显示对象DO1的缺省显示位置DP1和显示对象DO2的缺省显示位置DP2之间的距离d_1，2等于120(单位：像素)。另外，用户Ux的权重W1等于20。

在此，作用于显示对象DO1的排斥力R1例如被定义为距离d_1，2和预定常数C(在下文中称之为排斥常数，例如C＝50)的乘积。于是，排斥力R1＝d_1，2×C＝6000。同时，作用于显示对象DO1的吸引力G1例如被定义为用户Ux的权重W1和显示对象DO1从缺省显示位置DP1的偏移d1的乘积。于是，在吸引力G1和排斥力R1之间平衡(亦即G1＝R1)的状态下，显示对象DO1的偏移d1被导出如下：d1＝G1/W1＝R1/W1＝6000/20＝300。这样一来，例如在连接位置DP1和位置DP2的直线上，输出图像生成单元270确定从位置DP1具有300的距离(在与位置DP2相反的方向上)的位置NP1作为显示对象DO1的新的显示位置。可以用类似的方式确定显示对象DO2的新的显示位置。

已参考图14A的例子对两个显示对象彼此叠加的情况进行了描述。与此形成对照，当三个或更多显示对象彼此叠加时，输出图像生成单元270可以通过在计算过程中将排斥力的合力纳入考虑来确定每个显示对象的显示位置。

现在参考图14B，示出了用户Ux的显示对象DO1以及别的用户的显示对象DO2和DO3。在此，开始于显示对象DO2的缺省显示位置DP2处并且结束于显示对象DO1的缺省显示位置DP1处的向量用Vd_1，2来指示。另外，开始于显示对象DO3的缺省显示位置DP3处并且结束于显示对象DO1的缺省显示位置DP1处的向量用Vd_1，3来指示。于是，作用于显示对象DO1的排斥力R1用向量C×Vd_1，2与C×Vd_1，3之和来表示。在平衡状态下，吸引力G1+排斥力R1＝0。因此，通过使排斥力R1除以用户Ux的权重，输出图像生成单元270可以计算显示对象DO1从缺省显示位置DP1的偏移d1。然后，将偏移d1添加到缺省显示位置DP1可以确定显示对象DO1的新的显示位置NP1。

在单独的排斥力(在组合之前)沿着连接两个显示对象的缺省显示位置的直线起作用的假定之下描述了图14A和14B的例子。代替地，排斥力可以被定义为仅在预定限制的方向上比如像在垂直方向上(图像中)起作用。

现在参考图14C，示出了用户Ux的显示对象DO1和别的用户的显示对象DO2。在此，开始于显示对象DO2的缺省显示位置DP2处并且结束于显示对象DO1的缺省显示位置DP1处的向量Vd_1，2指向右上方。注意，在图14C的例子中，排斥力被定义为仅在垂直方向上起作用。因此，排斥力R1沿着从位置DP1向上延伸的直线起作用。在这种情况下，显示对象DO1从缺省显示位置DP1的偏移d1也变成不是指向右上方而是向上直指的向量。因此，显示对象DO1从缺省显示位置向上移动。同样地，显示对象DO2从缺省显示位置向下移动。在这种情况下，每个显示对象和用户之间的相对位置关系在水平方向上没有变化。所以，查看输出图像的用户能够容易地理解显示对象和用户之间的对应性。

尽管排斥力在此被定义为排斥常数和显示对象之间距离的乘积，但是排斥力不限于此，并且可以使用排斥力的别的定义。例如，排斥力本身可以是常数，或者排斥力可以与显示对象之间距离的平方成比例。进一步，可以定义会取决于显示信息的类型而不同的排斥力。

代替地，如果与显示对象的外周界上的点(彼此最接近的点)之间的距离相对应的排斥力被定义，而不是使用显示对象的缺省显示位置之间的距离，则还可以消除显示对象可能局部彼此叠加的可能性。作为进一步的代替，如果在每个显示对象的外周界周围提供缓冲区域并且与缓冲区域的边缘之间的距离相对应的排斥力被定义，则还可以创建显示对象之间的间隙。进而，还可以定义来自输出图像的外周界(窗框)的排斥力，并且将来自窗框的排斥力计入到表示作用于显示对象的吸引力和排斥力之间的平衡状态的公式中。

上面已对这样一个例子进行了描述，在所述例子中，使用所谓弹簧***的定义来计算显示对象的偏移，所述弹簧***使用用户的权重和显示对象的偏移的乘积作为吸引力。然而，代替地，还可以使用质量弹簧阻尼***的定义。在那种情况下，根据用户的属性或显示信息的类型，可以给出加速度系数(质量)和速度系数(阻尼常数)。因此，变得可以产生视觉效应，使得已彼此相撞的显示对象沿着时间轴摇摆(并且这样的摇摆会逐渐停止)。

(2)显示位置确定过程的第二例子

图15是图示输出图像生成单元270的显示位置确定过程的第二例子的说明图。在显示位置确定过程的第二例子中，输出图像生成单元270确定多个显示对象的显示位置，以便作用于多个显示对象的吸引力处于平衡状态。在这种情况下，前述排斥力概念未被使用。

参考图15，示出了用户Ux的显示对象DO5和用户Uy的显示对象DO4。作为例子，显示对象DO4的缺省显示位置DP4和新的显示位置NP4之间的距离d4等于40。同时，显示对象DO5的缺省显示位置DP5和新的显示位置NP5之间的距离d5等于80。另外，用户Ux的权重W5等于50，并且用户Uy的权重W4等于100。在此，如显示位置确定过程的第一例子中那样，当吸引力的幅度被定义为用户的权重和显示对象从缺省显示位置的偏移的乘积时，作用于显示对象DO4的吸引力G4等于W4×d4＝4000。同时，作用于显示对象DO5的吸引力G5等于W5×d5＝4000。亦即，吸引力G4和吸引力G5在新的显示位置处于平衡状态。输出图像生成单元270例如可以搜索显示位置，在所述显示位置对于多个显示对象而言达到了吸引力的这种平衡状态，并且将作为搜索结果而获得的显示位置确定为多个显示对象的显示位置。同样在这种情况下，如显示位置确定过程的第一例子中那样，与具有较大权重的用户相关联的显示对象被从缺省显示位置偏移至较小程度。

(3)对显示的约束

注意，当通过前述显示位置确定过程确定的显示对象的新的显示位置没有满足对显示的约束时，输出图像生成单元270可以进一步改变显示对象的显示位置，或者将显示对象的显示位置设置到缺省显示位置。对显示的约束的例子包括以下这些：显示对象应当处在屏幕之内；以及显示对象应当不叠加用户(例如所有用户或者权重大于或等于预定阈值的用户)的脸部。例如当显示对象覆盖在缺省显示位置上时，存在增加的如下可能性：多个显示对象可能彼此叠加。然而，当多个显示对象彼此叠加时，输出图像生成单元270根据第一实施例中描述的方法来控制显示信息的尺寸、深度方向上的布置或透明度等。这样一来，就可以减少显示信息的清楚方面的下降。

[3-2.输出图像的例子]

图16是示出根据这个实施例的从图像处理装置200输出的输出图像的例子的说明图。参考图16，输出图像Im21被示出作为例子。三个用户Ua、Ub和Uc存在于输出图像Im21中。在图16的例子中，用户Ua和Ub存在于输入图像中相对长的时间，并且彼此交流。同时，用户Uc是临时走过的用户。

显示对象12a和13a覆盖在用户Ua周围的区域上。显示对象12b和13b覆盖在用户Ub周围的区域上。与用户Uc相关联的显示对象12c覆盖在用户Uc之上并且相对远离用户Uc的显示位置中。这些显示对象没有彼此叠加。在此，在这个实施例中，彼此叠加的显示对象的位置被从它们的缺省显示位置移开，以便如上所述与具有较大权重的用户相关联的显示对象被从它的缺省显示位置偏移至较小的程度。因此，停留时间长并且权重大的用户Ua和Ub的显示对象13a和13b没有从它们的缺省显示位置移动很多。与此形成对照，停留时间短并且权重较小的用户Uc的显示对象12c向上移动以避开显示对象13a和13b。因此，用户Ua和Ub之间的交流可以顺畅地继续，而不会被临时走过的用户Uc的显示对象打断。另外，用户能够容易地理解哪个用户在连续地使用***至何种程度。

[3-3.处理流程]

图17是示出根据这个实施例的图像处理装置200的主要图像处理流程的例子的流程图。

参考图17，图像获取单元110首先获取由成像装置104捕捉的输入图像(步骤S202)。然后，图像获取单元110将获取的图像输出到识别单元130和输出图像生成单元270。

接下来，识别单元130检测存在于输入图像中的用户的脸部区域和手部区域(步骤S204)。接下来，通过对着数据库102中存储的已知用户的图像特征量检查每个被检测脸部区域的图像特征量，识别单元130标识存在于输入图像中的单独用户(步骤S206)。

接下来，信息获取单元150从数据库102、终端装置105或外部信息源等获取将要与识别单元130识别的每个用户相关联地显示的显示信息(步骤S208)。

接下来，输出图像生成单元270测量识别单元130识别的每个用户在图像中的停留时间(以及需要时的移动速度)(步骤S210)。然后，基于输出图像生成单元270测量的每个用户的停留时间以及每个用户的属性信息，权重确定单元260确定每个用户的权重(步骤S211)。

接下来，基于停留时间或移动速度，输出图像生成单元270设置显示对象的透明度，以便显示信息获取单元150获取的显示信息(步骤S212)。另外，使用每个用户的脸部区域的尺寸作为与用户离开成像装置104的距离相对应的参数，输出图像生成单元270设置每个显示对象的尺寸和层(步骤S214)。

接下来，输出图像生成单元270执行在下面详细地描述的显示位置确定过程，以确定每个显示对象的显示位置(步骤S215)。另外，输出图像生成单元270设置每个显示对象的其它属性如颜色(步骤S216)。

接下来，根据设置的显示对象的属性，通过在输入图像上覆盖显示对象，输出图像生成单元270生成输出图像(S218)。然后，输出图像生成单元270将生成的输出图像输出到显示装置106，以使显示装置106显示输出图像(步骤S220)。

图18是示出对应于图17的步骤S215的显示位置确定过程的示例性流程的流程图。图18中的流程图对应于参考图14A至14C描述的显示位置确定过程的第一例子。

参考图18，输出图像生成单元270首先将每个显示对象布置在它的缺省显示位置中(步骤S252)。接下来，根据缺省显示位置之间的距离，输出图像生成单元270计算作用于每个显示对象的排斥力(或者多个排斥力的合力(步骤S254)。接下来，基于计算的排斥力和用户的权重，输出图像生成单元270计算每个显示对象从它的缺省显示位置的偏移(步骤S256)。

接下来，输出图像生成单元270确定通过将计算的偏移添加到缺省显示位置而导出的每个显示对象的新的显示位置是否满足对显示的约束(步骤S258)。在此，如果新的显示位置被确定为满足对显示的约束，则输出图像生成单元270将显示对象布置在新的显示位置中(步骤S260)。同时，如果新的显示位置未被确定为满足对显示的约束，则输出图像生成单元270将显示对象布置在包括缺省显示位置的别的位置中(步骤S262)。

图19是示出对应于图17的步骤S215的显示位置确定过程的另一个示例性流程的流程图。图19中的流程图对应于参考图15描述的显示位置确定过程的第二例子。

参考图19，输出图像生成单元270首先将每个显示对象布置在它的缺省显示位置中(步骤S272)。接下来，输出图像生成单元270确定是否存在任何彼此叠加的显示对象(步骤S274)。在此，如果不存在叠加的显示对象，则输出图像生成单元270的显示位置确定过程终止。同时，如果存在叠加的显示对象，则过程前进到步骤S276。

在步骤S276中，输出图像生成单元270将在步骤S274中已被确定为彼此叠加的显示对象移动到新的显示位置(步骤S276)。接下来，基于从缺省显示位置的偏移以及用户的权重，输出图像生成单元270计算每个显示对象的吸引力(步骤S278)。然后，输出图像生成单元270确定计算的显示对象的吸引力是否已达到平衡状态(步骤S280)。在此，如果显示对象的吸引力被确定为已达到平衡状态，则输出图像生成单元270的显示位置确定过程终止。同时，如果显示对象的吸引力未被确定为已到达平衡状态，则过程前进到步骤S282。

在步骤S282中，输出图像生成单元270确定满足对显示的约束的全部显示位置是否已经被搜索(步骤S282)。在此，如果剩余尚未被搜索的任何显示位置，则过程返回到步骤S276。同时，如果满足对显示的约束的全部显示位置都已经被搜索，则输出图像生成单元270例如将显示对象再次布置在它们的缺省显示位置中，而不考虑显示对象的叠加(步骤S284)，然后终止该过程。

[3-4.第二实施例的结论]

上面已参考图12至19描述了本公开的第二实施例。根据这个实施例，例如根据用户的停留时间或属性信息来确定用户的权重，其类似于用户在显示方面的优先权。基于权重确定与每个用户相关联的显示信息的显示位置。因此，可以避免多条显示信息彼此叠加，以便具有高优先权的用户的显示信息不被其它用户的显示信息妨碍或干扰。因此，在多条信息拥挤于增强现实的图像中的状况下，可以以更加可理解的方式显示信息。

另外，根据这个实施例，每个显示信息的显示位置被确定，以便与具有较大权重的用户相关联的显示信息从它的缺省显示位置偏移至较少的程度。因此，根据这个实施例，可以减少如下风险：临时出现在图像中的用户的显示信息可能打断已连续地使用该***的用户之间的交流。另外，还可以激励用户使用***更长时间。同时，如果基于权重确定的显示位置没有满足对显示的约束，那么如第一实施例中那样控制显示信息的尺寸、在深度方向上的布置或透明度等，以便多条显示信息可以被允许彼此叠加。因此，即使当多条信息拥挤于增强现实的图像中时，信息的清楚方面的显著下降也不会发生。

注意，典型地使用软件来实施根据本说明书中描述的第一和第二实施例的一系列过程。构成用于实施一系列过程的软件的程序例如预先存储在每个装置内部或外部设置的存储介质中。另外，每个程序在执行时被读取到随机存取存储器(RAM)中，并且由诸如中央处理单元(CPU)之类的处理器执行。

尽管已参考附图详细地描述了本公开的优选实施例，但是本公开不限于此。对于本领域技术人员而言明显的是，各种修改或变更都是可能的，它们都处在所附权利要求或其等效涵义的技术范围之内。应当理解的是，这样的修改或变更也处在本公开的技术范围之内。

本公开包含与2010年9月6日向日本专利局申请的日本优先权专利申请JP 2010-198987中公开的主题有关的主题，该专利申请的整体内容通过引用结合于此。

Claims

1.一种图像处理装置，包括：

识别单元，配置成识别存在于成像装置所捕捉的输入图像中的多个用户；

信息获取单元，配置成获取将要与所述识别单元识别的每个用户相关联地显示的显示信息；以及

输出图像生成单元，配置成通过在所述输入图像上覆盖所述信息获取单元获取的所述显示信息来生成输出图像，

其中，当与第一用户相关联的第一显示信息和与第二用户相关联的第二显示信息在所述输出图像中彼此叠加时，基于与每个用户离开所述成像装置的距离相对应的参数，所述输出图像生成单元确定所述第一显示信息和所述第二显示信息中的哪一个将要覆盖在另一个的前侧，

其中，所述输出图像生成单元测量所述识别单元识别的每个用户存在于所述输入图像中的时间长度或者每个用户的移动速度，并且

所述输出图像生成单元根据针对与显示信息相关联的用户测量的时间长度或移动速度来设置所述输入图像上覆盖的显示信息的透明度。

2.根据权利要求1所述的图像处理装置，其中，如果所述第一用户离开所述成像装置的距离短于所述第二用户离开所述成像装置的距离，则所述输出图像生成单元将所述第一显示信息放置在所述第二显示信息的前侧。

3.根据权利要求1所述的图像处理装置，其中，

所述识别单元进一步识别存在于所述输入图像中的每个用户的脸部区域的尺寸，并且

所述输出图像生成单元使用所述识别单元识别的每个用户的脸部区域的尺寸作为所述参数。

4.根据权利要求1所述的图像处理装置，其中，所述输出图像生成单元将存在于所述输入图像中较长时间的用户的显示信息的透明度设置成较低水平。

5.根据权利要求1所述的图像处理装置，其中，所述输出图像生成单元将移动速度较低的用户的显示信息的透明度设置成较低水平。

6.根据权利要求1所述的图像处理装置，其中，

所述识别单元进一步识别每个用户的姿势，并且

所述输出图像生成单元临时减少做出预定姿势的用户的显示信息的透明度。

7.根据权利要求1所述的图像处理装置，其中，

所述识别单元进一步识别每个用户的姿势、面部表情或讲话状态，并且

所述输出图像生成单元临时将与做出预定姿势或具有预定面部表情的用户相关联的显示信息或者与正在讲话的用户相关联的显示信息显示在前侧，而不管用户离开所述成像装置的距离。

8.根据权利要求1所述的图像处理装置，其中，根据每个用户离开所述成像装置的距离，所述输出图像生成单元确定与每个用户相关联的显示信息的显示尺寸。

9.根据权利要求1所述的图像处理装置，其中，

所述信息获取单元获取经由文本输入装置输入的文本作为第一类型显示信息，并且获取经由语音输入装置输入的语音作为第二类型显示信息，并且

所述输出图像生成单元将用于显示所述第一类型显示信息的对象形状设置成表示思考的形状，而将用于显示所述第二类型显示信息的对象形状设置成表示言语的形状。

10.根据权利要求1所述的图像处理装置，其中，

所述信息获取单元获取经由文本输入装置或语音输入装置输入的信息作为显示信息，

所述输出图像生成单元分析所述信息获取单元获得的显示信息以确定显示信息是对应于用户的思考的第三类型显示信息还是对应于用户的言语的第四类型显示信息，并且

所述输出图像生成单元将用于显示所述第三类型显示信息的对象形状设置成表示思考的形状，而将用于显示所述第四类型显示信息的对象形状设置成表示言语的形状。

11.根据权利要求1所述的图像处理装置，其中，

所述信息获取单元获取用户输入的信息作为第五类型显示信息，并且获取基于用户输入的信息或者用户的属性信息而从外部信息源获取的信息作为第六类型显示信息，并且

所述输出图像生成单元使用具有不同形状的对象来显示所述第五类型显示信息和所述第六类型显示信息。

12.根据权利要求1所述的图像处理装置，进一步包括：

权重确定单元，配置成确定所述识别单元识别的每个用户的权重，

其中，基于所述权重确定单元确定的每个用户的权重，所述输出图像生成单元确定与每个用户相关联的显示信息的显示位置。

13.一种图像处理方法，包括：

识别存在于成像装置所捕捉的输入图像中的多个用户；

获取将要与识别的每个用户相关联地显示的显示信息；以及

通过在所述输入图像上覆盖获取的所述显示信息来生成输出图像；

其中，当与第一用户相关联的第一显示信息和与第二用户相关联的第二显示信息在所述输出图像中彼此叠加时，基于与每个用户离开所述成像装置的距离相对应的参数，确定所述第一显示信息和所述第二显示信息中的哪一个将要覆盖在另一个的前侧；并且

其中，所述方法还包括：

测量识别的每个用户存在于所述输入图像中的时间长度或者每个用户的移动速度；以及

根据针对与显示信息相关联的用户测量的时间长度或移动速度来设置所述输入图像上覆盖的显示信息的透明度。

14.根据权利要求13所述的图像处理方法，其中，如果所述第一用户离开所述成像装置的距离短于所述第二用户离开所述成像装置的距离，则将所述第一显示信息放置在所述第二显示信息的前侧。

15.根据权利要求13所述的图像处理方法，其中，所述方法还包括：

识别存在于所述输入图像中的每个用户的脸部区域的尺寸，并且使用识别的每个用户的脸部区域的尺寸作为所述参数。

16.根据权利要求13所述的图像处理方法，其中，将存在于所述输入图像中较长时间的用户的显示信息的透明度设置成较低水平。

17.根据权利要求13所述的图像处理方法，其中，将移动速度较低的用户的显示信息的透明度设置成较低水平。

18.根据权利要求13所述的图像处理方法，其中，所述方法还包括：

识别每个用户的姿势，并且临时减少做出预定姿势的用户的显示信息的透明度。

19.根据权利要求13所述的图像处理方法，其中，所述方法还包括：

识别每个用户的姿势、面部表情或讲话状态，并且临时将与做出预定姿势或具有预定面部表情的用户相关联的显示信息或者与正在讲话的用户相关联的显示信息显示在前侧，而不管用户离开所述成像装置的距离。

20.根据权利要求13所述的图像处理方法，其中，根据每个用户离开所述成像装置的距离，确定与每个用户相关联的显示信息的显示尺寸。

21.根据权利要求13所述的图像处理方法，其中，所述方法还包括：

获取经由文本输入装置输入的文本作为第一类型显示信息，并且获取经由语音输入装置输入的语音作为第二类型显示信息；以及

将用于显示所述第一类型显示信息的对象形状设置成表示思考的形状，而将用于显示所述第二类型显示信息的对象形状设置成表示言语的形状。

22.根据权利要求13所述的图像处理方法，其中，所述方法还包括：

获取经由文本输入装置或语音输入装置输入的信息作为显示信息；

分析获得的显示信息以确定显示信息是对应于用户的思考的第三类型显示信息还是对应于用户的言语的第四类型显示信息；以及

将用于显示所述第三类型显示信息的对象形状设置成表示思考的形状，而将用于显示所述第四类型显示信息的对象形状设置成表示言语的形状。

23.根据权利要求13所述的图像处理方法，其中，所述方法还包括：

获取用户输入的信息作为第五类型显示信息，并且获取基于用户输入的信息或者用户的属性信息而从外部信息源获取的信息作为第六类型显示信息；以及

使用具有不同形状的对象来显示所述第五类型显示信息和所述第六类型显示信息。

24.根据权利要求13所述的图像处理方法，进一步包括：

确定识别的每个用户的权重，

其中，基于确定的每个用户的权重，确定与每个用户相关联的显示信息的显示位置。