WO2021036624A1

WO2021036624A1 - 交互方法、装置、设备以及存储介质

Info

Publication number: WO2021036624A1
Application number: PCT/CN2020/104466
Authority: WO
Inventors: 张子隆; 孙林; 栾青
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2019-08-28
Filing date: 2020-07-24
Publication date: 2021-03-04
Also published as: KR20210131415A; JP7224488B2; US20220179609A1; TWI775134B; TW202109246A; JP2022526772A; CN110716634A

Abstract

本公开涉及一种交互方法、装置、设备以及存储介质。所述方法包括：获取摄像头采集的显示设备周边的图像，所述显示设备通过透明显示屏显示交互对象；对所述图像中涉及的一个或多个对象进行检测；响应于检测到所述图像中涉及至少两个对象，根据检测到的所述至少两个对象的特征信息，从所述至少两个对象中选择目标对象；基于对所述目标对象的检测结果，驱动所述显示设备的透明显示屏上显示的所述交互对象对所述目标对象进行回应。

Description

交互方法、装置、设备以及存储介质

技术领域

本公开涉及计算机视觉技术领域，具体涉及一种交互方法、装置、设备以及存储介质。

背景技术

人机交互的方式大多为：用户基于按键、触摸、语音进行输入，设备通过在显示屏上呈现图像、文本进行回应。目前虚拟人物多是在语音助理的基础上改进得到的，只是对设备的语音进行输出，用户与虚拟人物的交互还停留表面上。

发明内容

本公开实施例提供一种交互方案。

第一方面，提供一种交互方法，所述方法包括：获取摄像头采集的显示设备周边的图像，所述显示设备通过透明显示屏显示交互对象；对所述图像中涉及的一个或多个对象进行检测；响应于检测到所述图像中涉及至少两个对象，根据检测到的所述至少两个对象的特征信息，从所述至少两个对象中选择目标对象；基于对所述目标对象的检测结果，驱动所述显示设备的透明显示屏上显示的所述交互对象对所述目标对象进行回应。

通过对显示设备周边的图像进行对象检测，并根据对象的特征信息选择目标对象，驱动所述显示设备的透明显示屏上显示的所述交互对象对所述目标对象进行回应，能够在多对象场景下选择适合的目标对象进行交互，提高了交互效率和，也能提升交互体验。

在一个示例中，所述特征信息包括对象姿态信息和/或对象属性信息。

在一个示例中，所述根据检测到的所述至少两个对象的特征信息，从所述至少两个对象中选择目标对象，包括：根据所述至少两个对象中每个对象的对象姿态信息与设定姿态特征的姿态匹配程度，或，根据所述至少两个对象中每个对象的对象属性信息与设定属性特征的属性匹配程度，从所述至少两个对象中选择所述目标对象。

通过根据各个对象的对象姿态信息、对象属性信息等特征信息来从多个对象中选择目标对象，可以选择适合的对象作为进行交互的目标对象，从而提高交互效率以及服务体验。

在一个示例中，所述根据检测到的所述至少两个对象的特征信息，从所述至少两个对象中选择目标对象，包括：根据所述至少两个对象中每个对象的对象姿态信息，选取符合设定姿态特征的一个或多个第一对象；在所述第一对象有至少两个的情况下，驱动所述交互对象引导所述至少两个第一对象各自输出设定信息，并根据检测到的所述第一对象各自输出所述设定信息的顺序，确定所述目标对象。

通过引导第一对象输出设定信息，可以从符合设定姿态特征的对象中，选取出配合意愿高的目标对象，可以提高交互效率以及服务体验。

在一个示例中，所述根据检测到的所述至少两个对象的特征信息，从所述至少两个对象中选择目标对象，包括：根据所述至少两个对象中每个对象的对象姿态信息，选取符合设定姿态特征的一个或多个第一对象；在所述第一对象有至少两个的情况下，根据所述至少两个第一对象各自的对象属性信息，确定所述至少两个第一对象各自的交互响应优先级，并根据所述交互响应优先级确定所述目标对象。

通过结合对象属性信息、对象姿态信息、应用场景来从多个检测到的对象中选择目标对象，并通过设置不同的交互响应优先级来为目标对象提供相应服务，可以选择适合的对象作为进行交互的目标对象，从而提高交互效率以及服务体验。

在一个示例中，所述方法还包括：在从所述至少两个对象中选择目标对象后，驱动所述交互对象对所述目标对象输出确认信息。

通过向目标对象输出确认信息，可以使对象明确当前处于交互状态，提高了交互效率。

在一个示例中，所述方法还包括：响应于在当前时刻从所述图像中未检测到对象，且在当前时刻之前的设定时间段内从所述图像中未检测到对象且未追踪到对象，确定所述交互对象的待交互对象为空，并使所述显示设备进入等待对象状态。

在一个示例中，所述方法还包括：响应于在当前时刻从所述图像中未检测到对象，且在当前时刻之前的设定时间段内从所述图像中检测到对象或追踪到对象，确定所述交互对象的待交互对象为最近一次进行交互的对象。

在没有对象与交互对象进行交互的情况下，通过确定设备当前处于等待对象状态或对象离开状态，并驱动所述交互对象进行不同的回应，使所述交互对象的展示状态更符合实际交互需求、更有针对性。

在一个示例中，所述显示设备通过所述透明显示屏显示所述交互对象的倒影，或者，所述显示设备在底板上显示所述交互对象的倒影。

通过在透明显示屏上显示立体画面，并在透明显示屏或底板上形成倒影以实现立体效果，能够使所显示的交互对象更加立体、生动。

在一个示例中，所述交互对象包括具有立体效果的虚拟人物。

通过利用具有立体效果的虚拟人物与对象进行交互，可以使交互过程更加自然，提升对象的交互感受。

第二方面，提供一种交互装置，所述装置包括：图像获取单元，用于获取摄像头采集的显示设备周边的图像，所述显示设备通过透明显示屏显示交互对象；检测单元，用于对所述图像中涉及的一个或多个对象进行检测；对象选择单元，用于响应于所述检测单元检测到所述图像中涉及至少两个对象，根据检测到的所述至少两个对象的特征信息，从所述至少两个对象中选择目标对象；驱动单元，用于基于对所述目标对象的检测结果，驱动所述显示设备的透明显示屏上显示的所述交互对象对所述目标对象进行回应。

在一个示例中，所述对象选择单元具体用于：根据所述至少两个对象中每个对象的对象姿态信息与设定姿态特征的姿态匹配程度，或，根据所述至少两个对象中每个对象的对象属性信息与设定属性特征的属性匹配程度，从所述至少两个对象中选择所述目标对象。

在一个示例中，所述对象选择单元具体用于：根据所述至少两个对象中每个对象的对象姿态信息，选取符合设定姿态特征的一个或多个第一对象；在所述第一对象有至少两个的情况下，使所述驱动单元驱动所述交互对象引导所述至少两个第一对象各自输出设定信息，并根据检测到的所述第一对象各自输出所述设定信息的顺序，确定所述目标对象。

在一个示例中，所述对象选择单元具体用于：根据所述至少两个对象中每个对象的对象姿态信息，选取符合设定姿态特征的一个或多个第一对象；在所述第一对象有至少两个的情况下，根据所述至少两个第一对象各自的对象属性信息，确定所述至少两个第一对象各自的交互响应优先级，并根据所述交互响应优先级确定所述目标对象。

在一个示例中，所述装置还包括确认单元，所述确认单元用于：响应于所述对象选择单元从所述至少两个对象中选择了目标对象，使所述驱动单元驱动所述交互对象对所述目标对象输出确认信息。

在一个示例中，所述装置还包括等待状态单元，所述等待状态单元用于：响应于所述检测单元在当前时刻从所述图像中未检测到对象，且在当前时刻之前的设定时间段内从所述图像中未检测到对象且未追踪到对象，确定所述交互对象的待交互对象为空，并使所述显示设备进入等待对象状态。

在一个示例中，所述装置还包括结束状态单元，所述结束状态单元用于：响应于所述检测单元在当前时刻从所述图像中未检测到对象，且在当前时刻之前的设定时间段内从所述图像中检测到对象或追踪到对象，确定所述交互对象的待交互对象为最近一次进行交互的对象。

在一个示例中，所述显示设备还通过所述透明显示屏显示所述交互对象的倒影，或者，所述显示设备还在底板上显示所述交互对象的倒影。

第三方面，提供一种交互设备，所述设备包括处理器；用于存储可由处理器执行的指令的存储器，在所述指令被执行时，促使所述处理器实现本公开提供的任一实施方式所述的交互方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，促使所述处理器实现本公开提供的任一实施方式所述的交互方法。

附图说明

图1示出根据本公开至少一个实施例的交互方法的流程图；

图2示出根据本公开至少一个实施例的显示交互对象的示意图；

图3示出根据本公开至少一个实施例的交互装置的结构示意图；

图4示出根据本公开至少一个实施例的交互设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所述的、本公开的一些方面相一致的装置和方法的例子。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

图1示出根据本公开的至少一个实施例的交互方法的流程图，如图1所示，所述方法包括步骤101～步骤104。

在步骤101中，获取摄像头采集的显示设备周边的图像，所述显示设备通过透明显示屏显示交互对象。

所述显示设备周边，包括所述显示设备的设定范围内任意方向，例如可以包括所述显示设备的前向、侧向、后方、上方中的一个或多个方向。

用于采集图像的摄像头，可以设置在显示设备上，也可以作为外接设备，独立于显示设备之外。并且所述摄像头采集的图像，也可以在显示设备中的透明显示屏上进行显示。所述摄像头的数量可以为多个。

可选的，摄像头所采集的图像可以是视频流中的一帧，也可以是实时获取的图像。

在步骤102中，对所述图像中涉及的一个或多个用户进行检测。本文所述的图像中的一个或多个用户是指在对图像的检测过程中涉及的一个或多个对象。在下文中，“对象”和“用户”可以互换使用，为了表述方便，统称为“用户”。

通过对显示设备周边的图像中的用户进行检测，获得检测结果，例如所述显示设备周边是否有用户、有几个用户，也可以获得关于所检测到的用户的信息，例如通过图像识别技术从所述图像中获取的特征信息，或者根据所述用户的人脸和/或人体图像在显示设备端或者云端进行查询获得的特征信息，等等。本领域技术人员应当理解，所述检测结果还可以包括其他信息。

在步骤103中，响应于检测到所述图像中涉及至少两个用户，根据检测到的所述至少两个用户的特征信息，从所述至少两个用户中选择目标用户。

对于不同的应用场景，可以根据相应的特征信息来选择用户。

在步骤104中，基于对所述目标用户的检测结果，驱动所述显示设备的透明显示屏上显示的所述交互对象对所述目标用户进行回应。

响应于对不同目标用户的检测结果，将驱动所述交互对象对所述不同目标用户进行相应的回应。

本公开实施例中，通过对显示设备周边的图像进行用户检测，并根据用户的特征信息选择目标用户，驱动所述显示设备的透明显示屏上显示的所述交互对象对所述目标用户进行回应，能够在多用户场景下选择适合当前场景的目标用户进行交互，提高了交互效率和服务体验。

在一些实施例中，所述显示设备的透明显示屏显示的交互对象包括具有立体效果的虚拟人物。

通过利用具有立体效果的虚拟人物与用户进行交互，可以使交互过程更加自然，提升用户的交互感受。

本领域技术人员应当理解，交互对象并不限于具有立体效果的虚拟人物，还可以是虚拟动物、虚拟物品、卡通形象等等其他能够实现交互功能的虚拟形象。

在一些实施例中，可以通过以下方法实现透明显示屏所显示的交互对象的立体效果。

人眼看到物体是否为立体的观感，通常由物体本身的外形以及物体的光影效果所决定。该光影效果例如为在物体不同区域的高光和暗光，以及光线照射在物体后在地面的投影(即倒影)。

利用以上原理，在一个示例中，在透明显示屏上显示出交互对象的立体视频或图像的画面的同时，还在透明显示屏上显示出该交互对象的倒影，从而使得人眼可以观察到立体画面。

在另一个示例中，所述透明显示屏的下方设置有底板，并且所述透明显示与所述底板呈垂直或倾斜状。在透明显示屏显示出交互对象的立体视频或图像的画面的同时，在所述底板上显示出所述交互对象的倒影，从而使得人眼可以观察到立体画面。

在一些实施例中，所述显示设备还包括箱体，并且所述箱体的正面设置为透明，例如通过玻璃、塑料等材料实现透明设置。透过箱体的正面能够看到透明显示屏的画面以及透明显示屏或底板上画面的倒影，从而使得人眼可以观察到立体画面，如图2所示。

在一些实施例中，箱体内还设有一个或多个光源，以为透明显示屏提供光线以形成倒影。

在本公开实施例中，通过在透明显示屏上显示交互对象的立体视频或图像的画面，并在透明显示屏或底板上形成该交互对象的倒影以实现立体效果，能够使所显示的交互对象更加立体、生动，提升用户的交互感受。

在一些实施例中，所述特征信息包括用户姿态信息和/或用户属性信息，可以根据用户姿态信息和/或用户属性信息从检测到的至少两个用户中选择目标用户。

其中，所述用户姿态信息是指通过在图像中进行影像识别所获得的特征信息，例如用户的动作、手势等等。用户属性信息是指关于用户自身的特征信息，包括所述用户的身份(比如是否为VIP用户)、服务记录、到达当前场所的时间等等。所述属性特征信息可以从存储在显示设备端或者云端的用户历史记录中获得，所述用户历史记录可以通过在所述显示设备端或者云端检索与所述用户的人脸和/或人体的特征信息相匹配的记录而获得。

在一些实施例中，可以根据所述至少两个用户中每个用户的用户姿态信息与设定姿态特征的姿态匹配程度，从所述至少两个用户中选择目标用户。

例如，假设设定姿态特征为举手动作，可以通过将所述至少两个用户的用户姿态信息与举手动作进行匹配，将所述至少两个用户的匹配结果中姿态匹配程度最高的用户确定为目标用户。

在一些实施例中，可以根据所述至少两个用户中每个用户的用户属性信息与设定属性特征的属性匹配程度，从所述至少两个用户中选择目标用户。

例如，假设设定属性特征为VIP用户、女性，可以通过将所述至少两个用户的用户属性信息与所述设定属性特征进行匹配，将所述至少两个用户的匹配结果中属性匹配程度最高的用户确定为交互对象。

在本公开实施例中，通过根据各个用户的用户姿态信息、用户属性信息等特征信息来从检测到的至少两个用户中选择目标用户，可以选择适合当前应用场景的用户作为进行交互的目标用户，从而提高交互效率以及服务体验。

在一些实施例中，可以通过以下方式从所述至少两个用户中选择目标用户：

首先，根据所述至少两个用户的用户姿态信息，选取符合设定姿态特征的第一用户。其中，符合设定姿态特征，是指用户姿态信息与所述设定姿态特征的姿态匹配程度大于设定值，例如大于80％。

举例来说，假设设定姿态特征为举手动作，首先在图像中，选取用户姿态信息与举手动作的姿态匹配程度高于80％(认为该用户进行了举手动作)的第一用户，也即选取所有进行了举手动作的用户。

在第一用户有至少两个的情况下，可以进一步通过以下方法来确定目标用户：驱动所述交互对象引导所述至少两个第一用户各自输出设定信息，并根据检测到的所述第一用户各自输出所述设定信息的顺序，确定所述目标用户。

在一个示例中，第一用户输出的设定信息可以为动作、表情、语音中的一项或多项。例如，引导至少两个第一用户进行跳跃动作，将最先进行跳跃动作的第一用户确定为目标用户。

在本公开实施例中，通过引导第一用户输出设定信息，可以从符合设定姿态特征的用户中，选取出配合意愿高的目标用户，可以提高交互效率以及服务体验。

在第一用户有至少两个的情况下，还可以进一步通过以下方法来确定目标用户：

在所述第一用户有至少两个的情况下，根据所述至少两个第一用户各自的用户属性信息，确定所述至少两个第一用户各自的交互响应优先级；并根据所述交互响应优先级确定所述目标用户。

例如，如果进行举手动作的第一用户超过一个，则在这些举手的第一用户中，根据各第一用户的用户属性信息来确定交互响应优先级，并将优先级最高的第一用户确定为目标用户。其中，作为选取依据的用户属性信息，可以结合用户当前的需求、实际的场景综合判断。例如，在排队购票的场景下，可以将到达当前场所的时间作为所依据的用户属性信息，来确定交互优先级。最先到达的用户具有最高的交互响应优先级，可以将其确定为目标用户；在其他服务场所，还可以将根据其他用户属性信息确定目标用户，例如根据用户在该场所的积分确定交互优先级，使积分最高的用户具有最高的交互响应优先级。

在一个示例中，在确定了所述至少两个第一用户的交互响应优先级后，还可以进一步引导各个用户输出设定信息。如果输出设定信息的第一用户数量仍然多于一个，则可以将其中交互响应优先级最高的用户确定为目标用户。

在本公实施例中，结合用户属性信息、用户姿态信息、应用场景来从多个检测到的用户中选择目标用户，并可以通过设置不同的交互响应优先级来为目标用户提供相应服务，来选择适合的用户作为进行交互的目标用户，提高了交互效率以及服务体验。

在确定了将某一用户作为进行交互的目标用户后，可以通过向该用户输出确认信息，以告知该用户被选中。例如，可以驱动所述交互对象用手指向该用户，或者驱动所述交互对象在摄像头预览画面中高亮选中该用户，或者通过其他方式输出确认信息。

在本公开实施例中，通过向目标用户输出确认信息，可以使用户明确当前处于交互状态，提高了交互效率。

在某一用户被选中作为进行交互的目标用户后，所述交互对象仅响应或者优先响应该目标用户的指令，直至该目标用户离开摄像头的拍摄范围。

在设备周边的图像中未检测到用户的情况下，表示所述显示设备周边没有用户，也即该设备当前并未处于与用户进行交互的状态。这种状态包含了在当前时刻之前的设定时间段内都没有用户与设备进行交互，也即等待用户状态；还包含了用户在当前时刻之前的设定时间段内与用户进行了交互，设备正处于用户离开状态。对于这两种不同的状态，应当驱动所述交互对象进行不同的反应。例如，对于等待用户状态，可以驱动所述交互对象结合当前环境做出欢迎用户的回应；而对于用户离开状态，可以驱动所述交互对象对最近一次进行交互的用户做出结束服务的回应。

在一些实施例中，响应于在当前时刻从所述图像中未检测到用户，且在当前时刻之前的设定时间段内，例如5秒钟内，从所述图像中未检测到用户且未追踪到用户，确定所述交互对象的待交互用户为空，并驱动所述显示设备上的所述交互对象进入等待用户状态。

在一些实施例中，响应于当前时刻从所述图像中未检测到用户，且在当前时刻之前的设定时间段内从所述图像中检测到用户或追踪到用户，确定所述交互对象的待交互用户为最近一次进行交互的用户。

在本公开实施例中，在没有用户与交互对象进行交互的情况下，通过确定设备当前处于等待用户状态或用户离开状态，并驱动所述交互对象进行不同的回应，使所述交互对象的展示状态更符合交互需求、更有针对性。

在一些实施例中，所述检测结果还可以包括所述设备的当前服务状态，所述当前服务状态除了等待用户状态、用户离开状态，还可以包括发现用户状态等等。本领域技术人员应当理解，所述设备的当前服务状态还可以包括其他状态，不限于以上所述。

在从设备周边的图像中检测到了人脸和/或人体的情况下，表示所述显示设备周边存在用户，则可以将检测到用户这一时刻的状态确定为发现用户状态。

在发现用户状态下，对于所检测到的用户，还可以获取存储在所述显示设备中的用户历史信息，和/或，获取存储在云端的用户历史信息，以确定该用户是否为老顾定，或者是否为VIP客户。所述用户历史信息还可以包含所述用户的姓名、性别、年龄、服务记录、备注等等。该用户历史信息可以包含所述用户自行输入的信息，也可以包括所述显示设备和/或云端记录的信息。通过获取用户历史信息，可以驱动所述交互对象更有针对性地对所述用户进行回应。

在一个示例中，可以根据所检测到的用户的人脸和/或人体的特征信息去查找与所述用户相匹配的用户历史信息。

在显示设备处于发现用户状态时，可以根据所述显示设备的当前服务状态、从所述图像获取的用户属性信息、通过查找获取的用户历史信息，来驱动所述交互对象进行回应。在初次检测到一个用户的时候，所述用户历史信息可以为空，也即根据所述当前服务状态、所述用户属性信息和所述环境信息来驱动所述交互对象。

在显示设备周边的图像中检测到一个用户的情况下，可以首先通过图像对该用户进行人脸和/或人体识别，获得关于所述用户的基本用户属性信息，例如该用户为女性，年龄在20岁～30岁之间；之后根据该用户的人脸和/或人体特征信息，在显示设备端和/或云端进行搜索，以查找与所述特征信息相匹配的用户历史信息，例如该用户的姓名、服务记录等等。之后，在发现用户状态下，驱动所述交互对象对该女性用户作出有针对性的欢迎动作，并向该女性用户展示可以为其提供的服务。根据用户历史信息中包括的该用户曾经使用的服务项目，可以调整提供服务的顺序，以使用户能够更快的发现感兴趣的服务项目。

当在设备周边的图像中检测到至少两个用户的情况下，可以首先获得所述至少两个用户的特征信息，该特征信息可以包括用户姿态信息、用户属性信息中的至少一项，并且所述特征信息与用户历史信息对应，其中，所述用户姿态信息可以通过对所述图像中所述用户的动作进行识别而获得。

接下来，根据所获得的所述至少两个用户的特征信息来确定所述至少两个用户中的目标用户。可以结合实际的场景综合评估各个用户的特征信息，以确定待进行交互的目标用户。

在确定了目标用户后，则可以驱动所述显示设备上显示的所述交互对象对所述目标用户进行回应。

在一些实施例中，在发现用户状态下，驱动所述交互对象进行回应之后，通过追踪在显示设备周边的图像中所检测到的用户，例如可以追踪所述用户的面部表情，和/或，追踪所述用户的动作，等等，并通过判断所述用户有无主动交互的表情和/或动作来判断是否要使所述显示设备进入服务激活状态。

在一个示例中，在追踪所述用户时，可以设置指定触发信息，例如眨眼、点头、挥手、举手、拍打等常见的人与人之间打招呼的表情和/或动作。为了与下文进行区别，此处不妨将所设置的指定触发信息称为第一触发信息。在检测到所述用户输出的所述第一触发信息的情况下，则确定所述显示设备进入服务激活状态，并驱动所述交互对象展示所提供的服务，例如可以利用语言展示，也可以用显示在屏幕上的文字信息来展示。

目前常见的体感交互需要用户先举手一段时间来激活服务，选中服务后需要保持手部位置不动若干秒后才能完成激活。本公开实施例所提供的交互方法，无需用户先举手一段时间激活服务，也无需保持手部位置不同完成选择，通过自动判断用户的指定触发信息，可以自动激活服务，使设备处于服务激活状态，避免了用户举手等待一段时间，提升了用户体验。

在一些实施例中，在服务激活状态下，可以设置指定触发信息，例如特定的手势动作，和/或特定的语音指令等。为了与上文进行区别，此处不妨将所设置的指定触发信息称为第二触发信息。在检测到所述用户输出的所述第二触发信息的情况下，则确定所述显示设备进入服务中状态，并驱动所述交互对象提供与所述第二触发信息匹配的服务。

在一个示例中，通过用户输出的第二触发信息来执行相应的服务。例如，可以为用户提供的服务包括：第一服务选项、第二服务选项、第三服务选项等等，可以并且为第一个服务选项配置相应的第二触发信息，例如，可以设置语音“一”为第一服务选项相对应的第二触发信息，设置语音“二”为与第二服务选项相对应的第二触发信息，以此类推。当检测到所述用户输出其中一个语音，则使所述显示设备进入与第二触发信息相应的服务选项，并驱动所述交互对象根据服务选项所设置的内容提供服务。

在本公开实施例中，在所述显示设备进入发现用户状态之后，提供两种粒度的识别方式。第一粒度(粗粒度)识别方式为在检测到用户输出的第一触发信息的情况下，使设备进入服务激活状态，并驱动所述交互对象展示所提供的服务；第二粒度(细粒度) 识别方式为在检测到用户输出的第二触发信息的情况下，使设备进入服务中状态，并驱动所述交互对象提供相应的服务。通过上述两种粒度的识别方式，能够使用户与交互对象的交互更流畅、更自然。

通过本公开实施例提供的交互方法，用户无需进行按键、触摸或者语音输入，仅站在显示设备的周边，显示设备中显示的交互对象即可以有针对性地做出欢迎的动作，并按照用户的需求或者兴趣展示能够提供的服务项目，提升用户的使用感受。

在一些实施例中，可以获取所述显示设备的环境信息，根据所述检测结果和所述环境信息，来驱动所述显示设备上显示的所述交互对象进行回应。

所述显示设备的环境信息可以通过所述显示设备的地理位置和/或所述显示设备的应用场景获取。所述环境信息例如可以是所述显示设备的地理位置、互联网协议(Internet Protocol,IP)地址，也可以是所述显示设备所在区域的天气、日期等等。本领域技术人员应当理解，以上环境信息仅为示例，还可以包括其他环境信息。

举例来说，在显示设备处于等待用户状态和用户离开状态时，可以根据所述显示设备的当前服务状态和环境信息驱动所述交互对象进行回应。例如，在所述显示设备处于等待用户状态时，环境信息包括时间、地点、天气情况，可以驱动显示设备所显示的交互对象做出欢迎的动作和手势，或者做出一些有趣的动作，并输出语音“现在是X年X月X日XX时刻，天气XX，欢迎光临XX城市的XX商场，很高兴为您服务”。在通用的欢迎动作、手势和语音外，还加入了当前时间、地点和天气情况，不但提供了更多资讯，还使交互对象的反应更符合交互需求、更有针对性。

通过对显示设备周边的图像进行用户检测，并根据检测结果和所述显示设备的环境信息，来驱动所述显示设备中显示的交互对象进行回应，使交互对象的反应更符合交互需求，使用户与交互对象之间的交互更加真实、生动，从而提升用户体验。

在一些实施例中，可以根据所述检测结果和所述环境信息，获得相匹配的、预定的回应标签；之后根据所述回应标签来驱动所述交互对象做出相应的回应。本申请对此并不限定。

所述回应标签可以对应于所述交互对象的动作、表情、手势、语言中的一项或多项的驱动文本。对于不同的检测结果和环境信息，可以根据所确定的回应标签获得相应的驱动文本，从而可以驱动所述交互对象输出相应的动作、表情、语言中的一项或多项。

例如，若当前服务状态为等待用户状态，并且环境信息指示地点为上海，对应的回应标签可以是：动作为欢迎动作，语音为“欢迎来到上海”。

再比如，若当前服务状态为发现用户状态，并且环境信息指示时间为上午，用户属性信息指示女性，并且用户历史记录指示姓氏为张，对应的回应标签可以是：动作为欢迎动作，语音为“张女士上午好，欢迎光临，很高兴为您提供服务”。

通过对于不同的检测结果和不同的环境信息的组合配置相应的回应标签，并通过所述回应标签来驱动交互对象输出相应的动作、表情、语言中的一项或多项，可以驱动交互对象根据设备的不同状态、不同的场景，做出不同的回应，以使所述交互对象的回应更加多样化。

在一些实施例中，可以通过将所述回应标签输入至预先训练的神经网络，输出与所述回应标签对应的驱动文本，以驱动所述交互对象输出相应的动作、表情、语言中的一项或多项。

其中，所述神经网络可以通过样本回应标签集来进行训练，其中，所述样本回应标签标注了对应的驱动文本。所述神经网络经训练后，对于所输出的回应标签，能够输出相应的驱动文本，以驱动所述交互对象输出相应的动作、表情、语言中的一项或多项。相较于直接在显示设备端或云端搜索对应的驱动文本，采用预先训练的神经网络，对于没有预先设置驱动文本的回应标签，也能够生成驱动文本，以驱动所述交互对象进行适当的回应。

在一些实施例中，针对高频、重要的场景，还可以通过人工配置的方式进行优化。也即，对于出现频次较高的检测结果与环境信息的组合，可以为其对应的回应标签人工配置驱动文本。在该场景出现时，自动调用相应的驱动文本驱动所述交互对象进行回应，以使交互对象的动作、表情更加自然。

在一个实施例中，响应于所述显示设备处于发现用户状态，根据所述用户在所述图像中的位置，获得所述用户相对于所述显示设备中的交互对象的位置信息；并根据所述位置信息调整所述交互对象的朝向，使所述交互对象面向所述用户。

在一些实施例中，所述交互对象的图像是通过虚拟摄像头采集的。虚拟摄像头是应用于3D软件、用于采集图像的虚拟软件摄像头，交互对象是通过所述虚拟摄像头采集的3D图像显示在屏幕上的。因此用户的视角可以理解为3D软件中虚拟摄像头的视角，这样就会带来一个问题，就是交互对象无法实现用户之间的眼神交流。

为了解决以上问题，在本公开至少一个实施例中，在调整交互对象的身体朝向的同时，还使所述交互对象的视线保持对准所述虚拟摄像头。由于交互对象的在交互过程中面向用户，并且视线保持对准虚拟摄像头，因此用户会有交互对象正看自己的错觉，可以提升用户与交互对象交互的舒适性。

图3示出根据本公开至少一个实施例的交互装置的结构示意图，如图3所示，该装置可以包括：图像获取单元301、检测单元302、用户选择单元303和驱动单元304。

其中，图像获取单元301，用于获取摄像头采集的显示设备周边的图像，所述显示设备通过透明显示屏显示交互对象；检测单元302，用于对所述图像中涉及的一个或多个用户进行检测；用户选择单元303，用于响应于所述检测单元302检测到所述图像中涉及至少两个用户，根据检测到的所述至少两个用户的特征信息，从所述至少两个用户中选择目标用户；驱动单元304，用于基于对所述目标用户的检测结果，驱动所述显示设备的透明显示屏上显示的所述交互对象对所述目标用户进行回应。本文所述的图像中的一个或多个用户是指在对图像的检测过程中涉及的一个或多个对象。在下文中，“对象”和“用户”可以互换使用，为了表述方便，统称为“用户”。

在一些实施例中，所述特征信息包括用户姿态信息和/或用户属性信息。

在一些实施例中，所述用户选择单元303具体用于：根据所述至少两个用户中每个用户的用户姿态信息与设定姿态特征的姿态匹配程度，或，根据所述至少两个用户中每个用户的用户属性信息与设定属性特征的属性匹配程度，从所述至少两个用户中选择目标用户。

在一些实施例中，所述用户选择单元303具体用于：根据所述至少两个用户中每个用户的用户姿态信息，选取符合设定姿态特征的一个或多个第一用户；在所述第一用户有至少两个的情况下，使所述驱动单元304驱动所述交互对象引导所述至少两个第一用户各自输出设定信息；并根据检测到的所述第一用户各自输出所述设定信息的顺序，确定所述目标用户。

在一些实施例中，所述用户选择单元303具体用于：根据所述至少两个用户中每个用户的用户姿态信息，选取符合所述设定姿态特征的一个或多个第一用户；在所述第一用户有至少两个的情况下，根据所述至少两个第一用户各自的用户属性信息，确定所述至少两个第一用户各自的交互响应优先级；并根据所述交互响应优先级确定所述目标用户。

在一些实施例中，所述装置还包括确认单元，所述确认单元用于：响应于所述用户选择单元303从所述至少两个用户中选择了目标用户，使所述驱动单元驱动所述交互对象对所述目标用户输出确认信息。

在一些实施例中，所述装置还包括等待状态单元，所述等待状态单元用于：响应于所述检测单元302在当前时刻从所述图像中未检测到用户，且在当前时刻之前的设定时间段内从所述图像中未检测到用户且未追踪到用户，确定所述交互对象的待交互用户为空，并使所述显示设备进入等待用户状态。

在一些实施例中，所述装置还包括结束状态单元，所述结束状态单元用于：响应于所述检测单元302在当前时刻从所述图像中未检测到用户，且在当前时刻之前的设定时间段内从所述图像中检测到用户或追踪到用户，确定所述交互对象的待交互用户为最近一次进行交互的用户。

在一些实施例中，所述显示设备通过所述透明显示屏显示所述交互对象的倒影，或者，所述显示设备在底板上显示所述交互对象的倒影。

在一些实施例中，所述交互对象包括具有立体效果的虚拟人物。

本公开至少一个实施例还提供了一种交互设备，如图4所示，所述设备包括存储器401、处理器402。存储器401用于存储可由处理器执行的指令，所述指令被执行时，促使处理器402实现本公开任一实施例所述的交互方法。

本公开至少一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，使所述处理器实现本公开任一实施例所述的交互方法。

本领域技术人员应明白，本公开一个或多个实施例可提供为方法、***或计算机程序产品。因此，本公开一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本公开一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本公开中的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本公开中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本公开中的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本公开中的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM 盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本公开包含许多具体实施细节，但是这些不应被解释为限制本公开的范围或所要求保护的范围，而是主要用于描述本公开的一些实施例的特征。本公开的多个实施例中的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和***通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本公开的一些实施例而已，并不用以限制本公开。凡在本公开的精神和原则之内所做的任何修改、等同替换、改进等，均应包含在本公开的范围之内。

Claims

一种交互方法，所述方法包括：

获取摄像头采集的显示设备周边的图像，所述显示设备通过透明显示屏显示交互对象；

对所述图像中涉及的一个或多个对象进行检测；

响应于检测到所述图像中涉及至少两个对象，根据检测到的所述至少两个对象的特征信息，从所述至少两个对象中选择目标对象；

基于对所述目标对象的检测结果，驱动所述显示设备的透明显示屏上显示的所述交互对象对所述目标对象进行回应。
根据权利要求1所述的方法，其中，所述特征信息包括对象姿态信息和/或对象属性信息。
根据权利要求2所述的方法，其中，所述根据检测到的所述至少两个对象的特征信息，从所述至少两个对象中选择目标对象，包括：

根据所述至少两个对象中每个对象的对象姿态信息与设定姿态特征的姿态匹配程度，或，根据所述至少两个对象中每个对象的对象属性信息与设定属性特征的属性匹配程度，从所述至少两个对象中选择所述目标对象。
根据权利要求2所述的方法，其中，所述根据检测到的所述至少两个对象的特征信息，从所述至少两个对象中选择目标对象，包括：

根据所述至少两个对象中每个对象的对象姿态信息，选取符合设定姿态特征的一个或多个第一对象；

在所述第一对象有至少两个的情况下，驱动所述交互对象引导所述至少两个第一对象各自输出设定信息，并根据检测到的所述第一对象各自输出所述设定信息的顺序，确定所述目标对象。
根据权利要求2所述的方法，其中，所述根据检测到的所述至少两个对象的特征信息，从所述至少两个对象中选择目标对象，包括：

根据所述至少两个对象中每个对象的对象姿态信息，选取符合设定姿态特征的一个或多个第一对象；

在所述第一对象有至少两个的情况下，根据所述至少两个第一对象各自的对象属性信息，确定所述至少两个第一对象各自的交互响应优先级，并根据所述交互响应优先级确定所述目标对象。
根据权利要求1至5任一项所述的方法，所述方法还包括：

在从所述至少两个对象中选择目标对象后，驱动所述交互对象对所述目标对象输出确认信息。
根据权利要求1至6任一项所述的方法，所述方法还包括：

响应于在当前时刻从所述图像中未检测到对象，且在当前时刻之前的设定时间段内从所述图像中未检测到对象且未追踪到对象，确定所述交互对象的待交互对象为空，并使所述显示设备进入等待对象状态。
根据权利要求1至6任一项所述的方法，所述方法还包括：

响应于在当前时刻从所述图像中未检测到对象，且在当前时刻之前的设定时间段内从所述图像中检测到对象或追踪到对象，确定所述交互对象的待交互对象为最近一次进行交互的对象。
根据权利要求1至8任一项所述的方法，其中，所述显示设备通过所述透明显示屏显示所述交互对象的倒影，或者，所述显示设备在底板上显示所述交互对象的倒影。
根据权利要求1至9任一项所述的方法，其中，所述交互对象包括具有立体效果的虚拟人物。
一种交互装置，所述装置包括：

图像获取单元，用于获取摄像头采集的显示设备周边的图像，所述显示设备通过透明显示屏显示交互对象；

检测单元，用于对所述图像中涉及的一个或多个对象进行检测；

对象选择单元，用于响应于所述检测单元检测到所述图像中涉及至少两个对象，根据检测到的所述至少两个对象的特征信息，从所述至少两个对象中选择目标对象；

驱动单元，用于基于对所述目标对象的检测结果，驱动所述显示设备的透明显示屏上显示的所述交互对象对所述目标对象进行回应。
根据权利要求11所述的装置，其中，所述特征信息包括对象姿态信息和/或对象属性信息。
根据权利要求12所述的装置，其中，所述对象选择单元用于：

根据所述至少两个对象中每个对象的对象姿态信息与设定姿态特征的姿态匹配程度，或，根据所述至少两个对象中每个对象的对象属性信息与设定属性特征的属性匹配程度，从所述至少两个对象中选择所述目标对象。
根据权利要求12所述的装置，其中，所述对象选择单元用于：

根据所述至少两个对象中每个对象的对象姿态信息，选取符合设定姿态特征的一个或多个第一对象；

在所述第一对象有至少两个的情况下，使所述驱动单元驱动所述交互对象引导所述至少两个第一对象各自输出设定信息，并根据检测到的所述第一对象各自输出所述设定信息的顺序，确定所述目标对象。
根据权利要求12所述的装置，其中，所述对象选择单元用于：

根据所述至少两个对象中每个对象的对象姿态信息，选取符合设定姿态特征的一个或多个第一对象；

在所述第一对象有至少两个的情况下，根据所述至少连个第一对象各自的对象属性信息，确定所述至少两个第一对象各自的交互响应优先级，并根据所述交互响应优先级确定所述目标对象。
根据权利要求11至15任一项所述的装置，其中，所述装置还包括确认单元，所述确认单元用于：

响应于所述对象选择单元从所述至少两个对象中选择了目标对象，使所述驱动单元驱动所述交互对象对所述目标对象输出确认信息。
根据权利要求11至16任一项所述的装置，其特征在于，所述装置还包括等待状态单元，所述等待状态单元用于：

响应于所述检测单元在当前时刻从所述图像中未检测到对象，且在当前时刻之前的设定时间段内从所述图像中未检测到对象且未追踪到对象，确定所述交互对象的待交互对象为空，并使所述显示设备进入等待对象状态。
根据权利要求11至16任一项所述的装置，其中，所述装置还包括结束状态单元，所述结束状态单元用于：

响应于所述检测单元在当前时刻从所述图像中未检测到对象，且在当前时刻之前的设定时间段内从所述图像中检测到对象或追踪到对象，确定所述交互对象的待交互对象为最近一次进行交互的对象。
根据权利要求11至18任一项所述的装置，其中，所述显示设备通过所述透明显示屏显示所述交互对象的倒影，或者，所述显示设备在底板上显示所述交互对象的倒影。
根据权利要求11至19任一项所述的装置，其中，所述交互对象包括具有立体效果的虚拟人物。
一种交互设备，所述设备包括：

处理器；以及

用于存储可由所述处理器执行的指令的存储器，

其中，所述指令在被执行时，促使所述处理器实现根据权利要求1至10任一项所述的交互方法。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时，使所述处理器实现根据权利要求1至10任一项所述的交互方法。