CN110716641B

CN110716641B - 交互方法、装置、设备以及存储介质

Info

Publication number: CN110716641B
Application number: CN201910804635.XA
Authority: CN
Inventors: 张子隆; 刘畅
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2021-07-23
Anticipated expiration: 2039-08-28
Also published as: US20220300066A1; TW202109247A; TWI775135B; JP2022526511A; CN110716641A; KR20210129714A; WO2021036622A1

Abstract

本公开涉及一种交互方法、装置、设备以及存储介质。所述方法包括：获取摄像头采集的显示设备周边的图像，所述显示设备用于通过设置的透明显示屏显示具有立体效果的交互对象；对所述图像中人脸和人体的至少一项进行检测，获得检测结果；根据所述检测结果，驱动所述显示设备上显示的所述交互对象进行回应。

Description

交互方法、装置、设备以及存储介质

技术领域

本公开涉及虚拟现实领域，具体涉及一种交互方法、装置、设备以及存储介质。

背景技术

人机交互的方式大多基于按键、触摸、语音进行输入，通过在显示屏上呈现图像、文本或虚拟人物进行回应。目前虚拟人物多是在语音助理的基础上改进得到的，其只是对设备的语音进行输出，用户与虚拟人物的交互还停留表面上。

发明内容

本公开实施例提供一种交互方案。

第一方面，提供一种交互方法，所述方法包括：获取摄像头采集的显示设备周边的图像，所述显示设备用于通过设置的透明显示屏显示具有立体效果的交互对象；对所述图像中人脸和人体的至少一项进行检测，获得检测结果；根据所述检测结果，驱动所述显示设备上显示的所述交互对象进行回应。

在本公开实施例中，通过对显示设备周边的图像进行检测，并根据检测结果驱动显示设备上显示的交互对象进行回应，可以使交互对象的反应更符合应用场景，并使用户与所述交互对象之间的交互更加真实、生动，从而提升用户体验。

结合本公开提供的任一实施方式，所述显示设备还用于通过设置的所述透明显示屏显示所述交互对象的倒影，或者，所述显示设备还用于在设置的底板上显示所述交互对象的倒影。

通过在透明显示屏上显示立体画面，并在透明显示屏或底板上形成倒影以实现立体效果，能够使所显示的交互对象更加立体、生动，提升用户的交互感受。

结合本公开提供的任一实施方式，所述交互对象包括具有立体效果的虚拟人物。

通过利用具有立体效果的虚拟人物与用户进行交互，可以使交互过程更加自然，提升用户的交互感受。

结合本公开提供的任一实施方式，所述检测结果至少包括所述显示设备的当前服务状态；所述当前服务状态为等待用户状态、用户离开状态、发现用户状态、服务激活状态、服务状态中的任一种。

通过结合设备的当前服务状态来驱动所述交互对象进行回应，可以使所述交互对象的回应更符合场景。

结合本公开提供的任一实施方式，所述对所述图像中人脸和人体中的至少一项进行检测，获得检测结果，包括：响应于当前时刻未检测到人脸和人体，且在当前时刻之前的设定时间内未检测到人脸和人体，确定所述当前服务状态为等待用户状态。

结合本公开提供的任一实施方式，所述对所述图像中人脸和人体中的至少一项进行检测，获得检测结果，包括：响应于当前时刻未检测到人脸和人体，且在当前时刻之前的设定时间内检测到人脸和人体，确定所述当前服务状态为用户离开状态。

在没有用户与交互对象进行交互的情况下，通过确定设备当前入于等待用户状态或用户离开状态，并驱动所述交互对象进行不同的回应，使所述交互对象的展示状态更符合场景、更有针对性。

结合本公开提供的任一实施方式，所述对所述图像中人脸和人体中的至少一项进行检测，获得检测结果，包括：响应于检测到所述人脸和所述人体中的至少一项，确定所述显示设备的当前服务状态为发现用户状态。

结合本公开提供的任一实施方式，所述检测结果还包括用户属性信息和/或用户历史信息；在确定所述显示设备的当前服务状态为发现用户状态之后，所述方法还包括：通过所述图像获得用户属性信息，和/或，根据所述用户的人脸和人体的至少一项的特征信息查找相匹配的用户历史信息。

通过获取用户历史信息，并结合所述用户历史信息驱动所述交互对象，可以使所述交互对象更有针对性地对所述用户进行回应。

结合本公开提供的任一实施方式，响应于检测到至少两个用户，所述方法还包括：获得所述至少两个用户的特征信息；根据所述至少两个用户的特征信息，确定目标用户；驱动所述显示设备上显示的所述交互对象对所述目标用户进行回应。

通过根据至少两个用户的特征信息来确定目标用户，并驱动所述物对所交互对象对所述目标对象进行回应，能够在多用户场景下选择进行交互的对象，并实现不同交互对象之间的切换和响应，从而提升用户体验。

结合本公开提供的任一实施方式，所述方法还包括：获取所述显示设备的环境信息；所述根据所述检测结果，驱动所述显示设备上显示的所述交互对象进行回应，包括：根据所述检测结果以及所述显示设备的环境信息，驱动所述显示设备上显示的所述交互对象进行回应。

结合本公开提供的任一实施方式，所述环境信息至少包括所述显示设备的地理位置、IP地址，以及所述显示设备所在区域的天气、日期中的一项或多项。

通过获取所述显示设备的环境信息，并结合所述环境信息来驱动所述交互对象进行回应，可以使所述交互对象的反应更符合应用场景，使用户与交互对象之间的交互更加真实、生动，从而提升用户体验。

结合本公开提供的任一实施方式，根据所述检测结果以及所述显示设备的环境信息，驱动所述显示设备上显示的所述交互对象进行回应，包括：根据所述检测结果和所述环境信息，获得相匹配的、预先设定的回应标签；根据所述回应标签，驱动所述显示设备上显示的所述交互对象做出相应的回应。

结合本公开提供的任一实施方式，所述根据所述回应标签，驱动所述显示设备上显示的所述交互对象做出相应的回应，包括：将所述回应标签输入至预先训练的神经网络，输出与所述回应标签对应的驱动内容，所述驱动内容用于驱动所述交互对象输出相应的动作、表情、语言中的一项或多项。

通过对于不同的检测结果和不同的环境信息组合配置相应的回应标签，并通过所述回应标签来驱动交互对象输出相应的动作、表情、语言中的一项或多项，可以驱动交互对象根据设备的不同状态、不同的场景，做出不同的回应，以使所述交互对象的回应更符合场景、更加多样化。

结合本公开提供的任一实施方式，所述方法还包括：响应于发现用户状态，在驱动所述交互对象进行回应之后，在采集的所述显示设备周边的图像中追踪所述用户；在追踪所述用户的状态下，响应于检测到所述用户执行的第一触发信息，确定所述显示设备进入服务激活状态，并驱动所述交互对象展示所提供的服务。

通过本公开实施例提供的交互方法，用户无需进行按键、触摸或者语音输入，仅站在显示设备的周边，设备中显示的交互对象即可以有针对性地做出欢迎的动作，并按照用户的需求或者兴趣展示能够的服务项目，提升用户的使用感受。

结合本公开提供的任一实施方式，所述方法还包括：在所述服务激活状态下，响应于检测到所述用户执行的第二触发信息，确定所述显示设备进入服务状态，并驱动所述交互对象提供与所述第二触发信息匹配的服务。

在所述显示设备进入发现用户状态之后，提供两种粒度的识别方式。第一粒度(粗粒度)识别方式为在检测到用户输出的第一触发信息的情况下，使设备进入服务激活状态，并驱动所述交互对象展示所提供的服务；第二粒度(细粒度)识别方式为在检测到用户输出的第二触发信息的情况下，使设备进入服务状态，并驱动所述交互对象提供相应的服务。通过上述两种粒度的识别方式，能够使用户与交互对象的交互更流畅、更自然。

结合本公开提供的任一实施方式，所述方法还包括：响应于发现用户状态，根据所述用户在所述图像中的位置，获得所述用户相对于所述显示设备中的交互对象的位置信息；根据所述位置信息调整所述交互对象的朝向，使所述交互对象面向所述用户。

通过根据用户的位置来自动调整交互对象的朝向，使所述交互对象始终保持与用户面对面，使交互更加友好，提升了用户的交互体验。

第二方面，提供一种交互装置，所述装置包括：图像获取单元，用于获取摄像头采集的显示设备周边的图像，所述显示设备用于通过设置的透明显示屏显示具有立体效果的交互对象；检测单元，用于对所述图像中人脸和人体的至少一项进行检测，获得检测结果；驱动单元，用于根据所述检测结果，驱动所述显示设备上显示的所述交互对象进行回应。

结合本公开提供的任一实施方式，所述检测单元具体用于：响应于当前时刻未检测到人脸和人体，且在当前时刻之前的设定时间内未检测到人脸和人体，确定所述当前服务状态为等待用户状态。

结合本公开提供的任一实施方式，所述检测单元具体用于：响应于当前时刻未检测到人脸和人体，且在当前时刻之前的设定时间内检测到人脸和人体，确定所述当前服务状态为用户离开状态。

结合本公开提供的任一实施方式，所述检测单元具体用于：响应于检测到所述人脸和所述人体中的至少一项，确定所述显示设备的当前服务状态为发现用户状态。

结合本公开提供的任一实施方式，所述检测结果还包括用户属性信息和/或用户历史信息；所述装置还包括信息获取单元，所述信息获取单元用于：通过所述图像获得用户属性信息，和/或，根据所述用户的人脸和人体的至少一项的特征信息查找相匹配的用户历史信息。

结合本公开提供的任一实施方式，响应于检测到至少两个用户，所述装置还包括目标确定单元，所述目标确定单元用于：获得所述至少两个用户的特征信息；根据所述至少两个用户的特征信息，确定目标用户；驱动所述显示设备上显示的所述交互对象对所述目标用户进行回应。

结合本公开提供的任一实施方式，所述装置还包括用于获取环境信息的环境信息获取单元；所述驱动单元具体用于：根据所述检测结果以及所述显示设备的环境信息，驱动所述显示设备上显示的所述交互对象进行回应。

结合本公开提供的任一实施方式，所述驱动单元具体用于：根据所述检测结果和所述环境信息，获得相匹配的、预先设定的回应标签；根据所述回应标签，驱动所述显示设备上显示的所述交互对象做出相应的回应。

结合本公开提供的任一实施方式，所述驱动单元在用于根据所述回应标签，驱动所述显示设备上显示的所述交互对象做出相应的回应时，具体用于：将所述回应标签输入至预先训练的神经网络，输出与所述回应标签对应的驱动内容，所述驱动内容用于驱动所述交互对象输出相应的动作、表情、语言中的一项或多项。

结合本公开提供的任一实施方式，所述装置还包括服务激发单元，所述服务激发单元用于：响应于发现用户状态，在驱动所述交互对象进行回应之后，在采集的所述显示设备周边的图像中追踪所述用户；在追踪所述用户的状态下，响应于检测到所述用户执行的第一触发信息，确定所述显示设备进入服务激活状态，并驱动所述交互对象展示所提供的服务。

结合本公开提供的任一实施方式，所述装置还包括服务单元，所述服务单元用于：在所述服务激活状态下，响应于检测到所述用户执行的第二触发信息，确定所述显示设备进入服务状态，并驱动所述交互对象提供与所述第二触发信息匹配的服务。

结合本公开提供的任一实施方式，所述装置还包括方向调整单元，所述方向调整单元用于：响应于发现用户状态，根据所述用户在所述图像中的位置，获得所述用户相对于所述显示设备中的交互对象的位置信息；根据所述位置信息调整所述交互对象的朝向，使所述交互对象面向所述用户。

第三方面，提供一种交互设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开提供的任一实施方式所述的交互方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开提供的任一实施方式所述的交互方法。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出根据本公开至少一个实施例的交互方法的流程图；

图2示出根据本公开至少一个实施例的显示具有立体效果的交互对象的示意图；

图3示出根据本公开至少一个实施例的交互装置的结构示意图；

图4示出根据本公开至少一个实施例的交互设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

图1示出根据本公开至少一个实施例的交互方法的流程图，如图1所示，所述方法包括步骤101～步骤103。

在步骤101中，获取摄像头采集的显示设备周边的图像，所述显示设备用于通过设置的透明显示屏显示具有立体效果的交互对象。

所述显示设备周边，包括所述显示设备的设定范围内任意方向，例如可以包括所述显示设备的前向、侧向、后方、上方中的一个或多个方向。

用于采集图像的摄像头，可以设置在显示设备上，也可以作为外接设备，独立于显示设备之外。并且所述摄像头采集的图像，也可以在透明显示屏上进行显示。所述摄像头的数量可以为多个。

可选的，摄像头所采集的图像可以是视频流中的一帧，也可以是实时获取的图像。

在步骤102中，对所述图像中人脸和人体的至少一项进行检测，获得检测结果。

通过对显示设备周边的图像进行人脸和/或人体检测，所获得的检测结果，例如所述显示设备周边是否有用户、有几个用户，并可以通过人脸和/或人体识别技术从所述图像中获取关于用户的相关信息，或者通过用户的图像进行查询以获得用户的相关信息；还可以通过图像识别技术获知用户的动作、姿势、手势等等。本领域技术人员应当理解，以上检测结果仅为示例，还可以包括其他检测结果，本公开实施例对此不进行限制。

在步骤103中，根据所述检测结果，驱动所述显示设备上显示的所述交互对象进行回应。

响应于不同的检测结果，将驱动所述交互对象进行不同的回应。例如，对于在显示设备周边没有用户的情况，驱动所述交互对象输出欢迎的动作、表情、语音等等。

本公开实施例中，通过对显示设备周边的图像进行检测，并根据检测结果驱动显示设备上显示的交互对象进行回应，可以使交互对象的反应更符合应用场景，并使用户与所述交互对象之间的交互更加真实、生动，从而提升用户体验。

在一些实施例中，所述显示设备的透明显示屏显示的交互对象包括具有立体效果的虚拟人物。

本领域技术人员应当理解，交互对象并不限于具有立体效果的虚拟人物，还可以是虚拟动物、虚拟物品、卡通形象等等其他能够实现交互功能的虚拟形象。

在一些实施例中，可以通过以下方法实现透明显示屏所显示的交互对象的立体效果。

人眼看到物体是否为立体的观感，通常由物体本身的外形以及物体的光影效果所决定。该光影效果例如为在物体不同区域的高光和暗光，以及光线照射在物体后在地面的投影(即倒影)。

利用以上原理，在一个示例中，在透明显示屏显示出交互对象的立体视频或图像的画面的同时，还在透明显示屏上显示出该交互对象的倒影，从而使得人眼中观察到立体画面。

在另一个示例中，所述透明显示屏的下方设置有底板，并且所述透明显示与所述底板呈垂直或倾斜状。在透明显示屏显示出交互对象的立体视频或图像的画面的同时，在所述底板上显示出所述交互对象的倒影，从而使得人眼中观察到立体画面。

在一些实施例中，所述显示设备还包括箱体，并且所述箱体的正面设置为透明，例如通过玻璃、塑料等材料实现透明设置。透过箱体的正面能够看到透明显示屏的画面以及显示屏或底板上画面的倒影，从而在人眼中观察到立体画面，如图2所示。

在一些实施例中，箱体内还设有一个或多个光源，以为透明显示屏提供光线以形成倒影。

在本公开实施例中，通过在透明显示屏上显示立体画面，并在透明显示屏或底板上形成倒影以实现立体效果，能够使所显示的交互对象更加立体、生动，提升用户的交互感受。

在一些实施例中，所述检测结果可以包括所述显示设备的当前服务状态，所述当前服务状态例如包括等待用户状态、发现用户状态、用户离开状态、服务激活状态、服务状态中的任一种。本领域技术人员应当理解，所述显示设备的当前服务状态还可以包括其他状态，不限于以上所述。

在设备周边的图像中未检测到人脸和人体的情况下，表示所述显示设备周边没有用户，也即该设备当前并未处于与用户进行交互的状态。这种状态包含了在当前时刻之前的设定时间内都没有用户与设备进行交互，也即等待用户状态；还包含了用户在当前时刻之前的设定时间内与用户进行了交互，设备正处于用户离开状态。对于这两种不同的状态，应当驱动所述交互对象进行不同的反应。例如，对于等待用户状态，可以驱动所述交互对象结合当前环境做出欢迎用户的回应；而对于用户离开状态，可以驱动所述交互对象对上一个交互的对象做出结束服务的回应。

在一个示例中，可以通过以下方式确定等待用户状态。响应于当前时刻未检测到人脸和人体，且在当前时刻之前的设定时间内，例如5秒钟，未检测到人脸和人体，并且也未追踪到人脸和人体的情况下，则确定该设备的当前服务状态为等待用户状态。

在一个示例中，可以通过以下方式确定用户离开状态。响应于当前时刻未检测到人脸和人体，且在当前时刻之前的设定时间内，例如5秒钟，检测到了人脸和/或人体，或者追踪到了人脸和/或的情况下，则确定该设备的当前服务状态为用户离开状态。

在设备处于等待用户状态和用户离开状态下，可以根据所述显示设备的当前服务状态所述交互对象进行回应。例如，对于设备处于等待用户状态，可以驱动显示设备所显示的交互对象做出欢迎的动作或手势，或者做出一些有趣的动作，或者输出欢迎光临的语音。对于设备处于用户离开状态，则可以驱动所述交互对象做出再见的动作或手势，或者输出再见的语音。

在设备周边的图像中检测到了人脸和/或人体的情况下，表示所述显示设备周边存在用户，则可以将检测到用户这一时刻的状态确定为发现用户状态。

在检测到设备周边存在用户时，可以通过所述图像获得所述用户的用户属性信息。例如，可以通过人脸和/或人体检测的结果确定设备周边存在几个用户；针对每个用户，可以通过人脸和/或人体识别技术，从所述图像中获取关于所述用户的相关信息，例如用户的性别、用户的大致年龄等等，对于不同性别、不同年龄层次的用户，可以驱动交互对象进行不同的回应。

在发现用户状态下，对于所检测到的用户，还可以获取存储在所述显示设备端的用户历史信息，和/或，获取存储在云端的用户历史信息，以确定该用户是否为老顾定，或者是否为VIP客户。所述用户历史信息还可以包含所述用户的姓名、性别、年龄、服务记录、备注等等。该用户历史信息可以包含所述用户自行输入的信息，也可以包括所述显示设备和/或云端记录的信息。通过获取用户历史信息，可以驱动所述虚拟人更有针对性地对所述用户进行回应。

在一个示例中，可以根据所检测到的用户的人脸和/或人体的特征信息去查找与所述用户相匹配的用户历史信息。

在设备处于发现用户状态下，可以根据所述显示设备的当前服务状态、所述图像获取的用户属性信息、通过查找获取的用户历史信息，来驱动所述交互对象进行回应。在初次检测到一个用户的时候，所述用户历史信息可以为空，也即根据所述当前服务状态、所述用户属性信息和所述环境信息来驱动所述交互对象。

当在设备周边的图像中检测到一个用户的情况下，可以首先通过图像对该用户进行人脸和/或人体识别，获得关于所述用户的基本的用户属性信息，比如该用户为女性，年龄在20岁～30岁之间；之后根据该用户的人脸和/或人体特征信息，在显示设备端和/或云端进行搜索，以查找与所述特征信息相匹配的用户历史信息，例如该用户的姓名、服务记录等等。之后，在发现用户状态下，驱动所述交互对象对该女性用户作出有针对性的欢迎动作，并告诉该女性用户可以为其提供的服务。根据用户历史信息中该用户曾经使用的服务项目，可以调整提供服务的顺序，以使用户能够更快的发现感兴趣的服务项目。

当在设备周边的图像中检测到至少两个用户的情况下，可以首先获得所述至少两个用户的特征信息，该特征信息可以包括用户姿态信息、用户属性信息、用户历史信息中的一项或多项，其中，所述用户姿态信息可以通过对所述图像中所述用户的动作进行识别而获得。

接下来，根据所获得的所述至少两个用户的特征信息来确定目标用户。可以结合实际的场景综合评估各个用户的特征信息，以确定待进行交互的目标用户。

在确定了目标用户后，则可以驱动所述显示设备上显示的所述交互对象对所述目标用户进行回应。

在一些实施例中，在发现用户状态下，驱动所述交互对象进行回应之后，通过在显示设备周边的图像中追踪所检测到的用户，例如可以追踪所述用户的面部表情，和/或，追踪所述用户的动作，等等，通过判断所述用户有无主动交互的表情和/或动作来判断是否要使所述显示设备进入服务激活状态。

在一个示例中，在追踪所述用户的状态下，可以设置指定触发信息，例如眨眼、点头、挥手、举手、拍打等常见的人与人之间打招呼的表情和/或动作。为了与下文进行区别，此处不妨将所设置的指定触发信息称为第一触发信息。在检测到所述用户输出所述第一触发信息的情况下，则确定所述显示设备进入服务激活状态，并驱动所述交互对象展示所提供的服务，例如可以利用语言展示，也可以用显示在屏幕上的文字信息来展示。

目前常见的体感交互需要用户先举手一段时间激活，选中后需要保持手部位置不动若干秒后才能完成激活。本公开实施例所提供的交互方法，无需用户先举手一段时间激活，也无需保持手部位置不同完成选择，通过自动判断用户的指定触发信息，可以自动激活，使设备进行服务激活状态，避免了用户举手等待一段时间，提升了用户体验。

在一些实施例中，在服务激活状态下，可以设置指定触发信息，例如特定的手势动作，和/或特定的语义指令等。为了与上文进行区别，此处不妨将所设置的指定触发信息称为第二触发信息。在检测到所述用户输出所述第二触发信息的情况下，则确定所述显示设备进入服务状态，并驱动所述交互对象提供与所述第二触发信息匹配的服务。

在一个示例中，通过用户输出的第二触发信息来执行相应的服务。例如，可以为用户提供的服务共有：第一服务选项、第二服务选项、第三服务选项等等，可以并且为第一个服务选项配置相应的第二触发信息，例如，可以设置语音“一”为第一服务选项相对应，设置语音“二”与第二服务选项相对应，以此类推。当检测到所述用户输出其中一个语音，则使所述显示设备进入与第二触发信息相应的服务选项，并驱动所述交互对象根据该项服务所设置的内容提供服务。

在本公开实施例中，在所述显示设备进入发现用户状态之后，提供两种粒度的识别方式。第一粒度(粗粒度)识别方式为在检测到用户输出的第一触发信息的情况下，使设备进入服务激活状态，并驱动所述交互对象展示所提供的服务；第二粒度(细粒度)识别方式为在检测到用户输出的第二触发信息的情况下，使设备进入服务状态，并驱动所述交互对象提供相应的服务。通过上述两种粒度的识别方式，能够使用户与交互对象的交互更流畅、更自然。

在一些实施例中，可以获取所述显示设备的环境信息，根据所述检测结果和所述环境信息，来驱动所述显示设备上显示的所述交互对象进行回应。

所述显示设备的环境信息可以通过所述显示设备的地理位置和/或所述显示设备的应用场景获取。所述环境信息例如可以是所述显示设备的地理位置、IP地址，也可以是所述显示设备所在区域的天气、日期等等。本领域技术人员应当理解，以上环境信息仅为示例，还可以包括其他环境信息，本公开实施例对此不进行限制。

举例来说，在设备处于等待用户状态和用户离开状态下，可以根据所述显示设备的当前服务状态和环境信息驱动所述交互对象进行回应。例如，对于设备处于等待用户状态，环境信息包括时间、地点、天气情况，可以驱动显示设备所显示的交互对象做出欢迎的动作和手势，或者做出一些有趣的动作，并输出语音“现在是X年X月X日XX时刻，天气XX，欢迎光临XX城市的XX商场，很高兴为您服务”。在通用的欢迎动作、手势和语音外，还加入了当前时间、地点和天气情况，不但提供了更多资讯，还使交互对象的反应更符合应用场景、更有针对性。

通过对显示设备周边的图像进行用户检测，并根据检测结果和所述显示设备的环境信息，来驱动所述显示设备中显示的交互对象进行回应，使交互对象的反应更符合应用场景，使用户与交互对象之间的交互更加真实、生动，从而提升用户体验。

在一些实施例中，可以根据所述检测结果和所述环境信息，获得相匹配的、预先设定的回应标签；之后根据所述回应标签来驱动所述交互对象做出相应的回应。当然，实际应用中，也可以直接根据检测结果或者直接根据环境信息，来获得相匹配的、预先设定的回应标签，并根据所述回应标签来驱动所述交互对象做出相应的回应。本申请对此并不限定。

所述回应标签可以对应于所述交互对象的动作、表情、手势、语言中的一项或多项的驱动文本。对应于不同的检测结果和环境信息，可以根据所确定的回应标签获得相应的驱动文本，从而可以驱动所述交互对象输出相应的动作、表情、语言中的一项或多项。

例如，用户等待状态+环境信息中地点为上海，对应的回应标签可以是：动作为欢迎动作，语音为“欢迎来到上海”。

再比如，发现用户状态+环境信息中时间为上午+用户属性信息中的女性+用户历史记录中的姓氏为张，对应的回应标签可以是：动作为欢迎动作，语音为“张女士上午好，欢迎光临，很高兴为您提供服务”。

在一些实施例中，可以通过将所述回应标签输入至预先训练的神经网络，输出与所述回应标签对应的驱动文本，以驱动所述交互对象输出相应的动作、表情、语言中的一项或多项。

其中，所述神经网络可以通过样本回应标签集来进行训练，其中，所述样本回应标签标注了对应的驱动文本。所述神经网络经训练后，对于所输出的回应标签，即能够输出相应的驱动文本，以驱动所述交互对象输出相应的动作、表情、语言中的一项或多项。相较于直接在显示设备端或云端搜索对应的驱动文本，采用预先训练的神经网络，对于没有预先设置驱动文本的回应标签，也能够生成驱动文本，以驱动所述交互对象进行适当的回应。

在一些实施例中，针对高频、重要的场景，还可以通过人工配置的方式进行优化。也即，对于出现频次较高的检测结果与环境信息的组合，可以为其对应的回应标签人工配置驱动文本。在该场景出现时，自动调用相应的驱动文本驱动所述交互对象进行回应，以使交互对象的动作、表情更加自然。

在一个实施例中，响应于所述显示设备处于发现用户状态，根据所述用户在所述图像中的位置，获得所述用户相对于所述显示设备中的交互对象的位置信息；并根据所述位置信息调整所述交互对象的朝向，使所述交互对象面向所述用户。

通过根据用户的位置来自动调整交互对象的身体朝向，使所述交互对象始终保持与用户面对面，使交互更加友好，提升了用户的交互体验。

在一些实施例中，所述交互对象的图像是通过虚拟摄像头采集的。虚拟摄像头是应用于3D软件、用于采集图像的虚拟软件摄像头，交互对象是通过所述虚拟摄像头采集的3D图像显示在屏幕上的。因此用户的视角可以理解为3D软件中虚拟摄像头的视角，这样就会带来一个问题，就是交互对象无法实现用户之间的眼神交流。

为了解决以上问题，在本公开至少一个实施例中，在调整交互对象的身体朝向的同时，还使所述交互对象的视线保持对准所述虚拟摄像头。由于交互对象在交互过程中面向用户，并且视线保持对准虚拟摄像头，因此用户会有交互对象正看自己的错觉，可以提升用户与交互对象交互的舒适性。

图3示出根据本公开至少一个实施例的交互装置的结构示意图，如图3所示，该装置可以包括：图像获取单元301、检测单元302和驱动单元303。

其中，图像获取单元301，用于获取摄像头采集的显示设备周边的图像，所述显示设备用于通过设置的透明显示屏显示具有立体效果的交互对象；检测单元302，用于对所述图像中人脸和人体的至少一项进行检测，获得检测结果；驱动单元303，用于根据所述检测结果，驱动所述显示设备上显示的所述交互对象进行回应。

在一些实施例中，所述显示设备还用于通过设置的所述透明显示屏显示所述交互对象的倒影，或者，所述显示设备还用于在设置的底板上显示所述交互对象的倒影。

在一些实施例中，所述交互对象包括具有立体效果的虚拟人物。

在一些实施例中，所述检测结果至少包括所述显示设备的当前服务状态；所述当前服务状态为等待用户状态、用户离开状态、发现用户状态、服务激活状态、服务状态中的任一种。

在一些实施例中，检测单元302具体用于：响应于当前时刻未检测到人脸和人体，且在当前时刻之前的设定时间内未检测到人脸和人体，确定所述当前服务状态为等待用户状态。

在一些实施例中，检测单元302具体用于：响应于当前时刻未检测到人脸和人体，且在当前时刻之前的设定时间内检测到人脸和人体，确定所述当前服务状态为用户离开状态。

在一些实施例中，检测单元302具体用于：响应于检测到所述人脸和所述人体中的至少一项，确定所述显示设备的当前服务状态为发现用户状态。

在一些实施例中，所述检测结果还包括用户属性信息和/或用户历史信息；所述装置还包括信息获取单元，所述信息获取单元用于：通过所述图像获得用户属性信息，和/或，根据所述用户的人脸和人体的至少一项的特征信息查找相匹配的用户历史信息。

在一些实施例中，响应于检测到至少两个用户，所述装置还包括目标确定单元，所述目标确定单元用于：获得所述至少两个用户的特征信息；根据所述至少两个用户的特征信息，确定目标用户；驱动所述显示设备上显示的所述交互对象对所述目标用户进行回应。

结在一些实施例中，所述装置还包括用于获取环境信息的环境信息获取单元；所述驱动单元具体用于：根据所述检测结果以及所述显示设备的环境信息，驱动所述显示设备上显示的所述交互对象进行回应。

在一些实施例中，所述环境信息至少包括所述显示设备的地理位置、IP地址，以及所述显示设备所在区域的天气、日期中的一项或多项。

在一些实施例中，驱动单元303具体用于：根据所述检测结果和所述环境信息，获得相匹配的、预先设定的回应标签；根据所述回应标签，驱动所述显示设备上显示的所述交互对象做出相应的回应。

在一些实施例中，驱动单元303在用于根据所述回应标签，驱动所述显示设备上显示的所述交互对象做出相应的回应时，具体用于：将所述回应标签输入至预先训练的神经网络，输出与所述回应标签对应的驱动内容，所述驱动内容用于驱动所述交互对象输出相应的动作、表情、语言中的一项或多项。

在一些实施例中，所述装置还包括服务激发单元，所述服务激发单元用于：响应于发现用户状态，在驱动所述交互对象进行回应之后，在采集的所述显示设备周边的图像中追踪所述用户；在追踪所述用户的状态下，响应于检测到所述用户执行的第一触发信息，确定所述显示设备进入服务激活状态，并驱动所述交互对象展示所提供的服务。

在一些实施例中，所述装置还包括服务单元，所述服务单元用于：在所述服务激活状态下，响应于检测到所述用户执行的第二触发信息，确定所述显示设备进入服务状态，并驱动所述交互对象提供与所述第二触发信息匹配的服务。

在一些实施例中，所述装置还包括方向调整单元，所述方向调整单元用于：响应于发现用户状态，根据所述用户在所述图像中的位置，获得所述用户相对于所述显示设备中的交互对象的位置信息；根据所述位置信息调整所述交互对象的朝向，使所述交互对象面向所述用户。

本说明书至少一个实施例还提供了一种交互设备，如图4所示，所述设备包括存储器401、处理器402，存储器401用于存储可在处理器上运行的计算机指令，处理器402用于在执行所述计算机指令时实现本公开任一实施例所述的交互方法。

本说明书至少一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的交互方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和***通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种交互方法，其特征在于，所述方法包括：

获取摄像头采集的显示设备的设定范围内任意方向的图像，所述显示设备用于通过设置的透明显示屏显示具有立体效果的交互对象；

对所述图像中人脸和人体的至少一项进行检测，获得检测结果；

获取所述显示设备的环境信息；

根据所述检测结果和所述环境信息，获得相匹配的、预先设定的回应标签；

根据所述回应标签，驱动所述显示设备上显示的所述交互对象做出相应的回应。

2.根据权利要求1所述的方法，其特征在于，所述显示设备还用于通过设置的所述透明显示屏显示所述交互对象的倒影，或者，所述显示设备还用于在设置的底板上显示所述交互对象的倒影。

3.根据权利要求1所述的方法，其特征在于，所述交互对象包括具有立体效果的虚拟人物。

4.根据权利要求1所述的方法，其特征在于，所述检测结果至少包括所述显示设备的当前服务状态；

所述当前服务状态为等待用户状态、用户离开状态、发现用户状态、服务激活状态、服务状态中的任一种。

5.根据权利要求4所述的方法，其特征在于，所述对所述图像中人脸和人体中的至少一项进行检测，获得检测结果，包括：

响应于当前时刻未检测到人脸和人体，且在当前时刻之前的设定时间内未检测到人脸和人体，确定所述当前服务状态为等待用户状态。

6.根据权利要求4所述的方法，其特征在于，所述对所述图像中人脸和人体中的至少一项进行检测，获得检测结果，包括：

响应于当前时刻未检测到人脸和人体，且在当前时刻之前的设定时间内检测到人脸和人体，确定所述当前服务状态为用户离开状态。

7.根据权利要求4所述的方法，其特征在于，所述对所述图像中人脸和人体中的至少一项进行检测，获得检测结果，包括：

响应于检测到所述人脸和所述人体中的至少一项，确定所述显示设备的当前服务状态为发现用户状态。

8.根据权利要求7所述的方法，其特征在于，所述检测结果还包括用户属性信息和/或用户历史信息；

在确定所述显示设备的当前服务状态为发现用户状态之后，所述方法还包括：

通过所述图像获得用户属性信息，和/或，根据所述用户的人脸和人体的至少一项的特征信息查找相匹配的用户历史信息。

9.根据权利要求1至8任一项所述的方法，其特征在于，响应于检测到至少两个用户，所述方法还包括：

获得所述至少两个用户的特征信息；

根据所述至少两个用户的特征信息，确定目标用户；

驱动所述显示设备上显示的所述交互对象对所述目标用户进行回应。

10.根据权利要求1所述的方法，其特征在于，所述环境信息至少包括所述显示设备的地理位置、IP地址，以及所述显示设备所在区域的天气、日期中的一项或多项。

11.根据权利要求1所述的方法，其特征在于，所述根据所述回应标签，驱动所述显示设备上显示的所述交互对象做出相应的回应，包括：

将所述回应标签输入至预先训练的神经网络，输出与所述回应标签对应的驱动内容，所述驱动内容用于驱动所述交互对象输出相应的动作、表情、语言中的一项或多项。

12.根据权利要求4所述的方法，其特征在于，所述方法还包括：

响应于发现用户状态，在驱动所述交互对象进行回应之后，在采集的所述显示设备周边的图像中追踪所述用户；

在追踪所述用户的状态下，响应于检测到所述用户执行的第一触发信息，确定所述显示设备进入服务激活状态，并驱动所述交互对象展示所提供的服务。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

在所述服务激活状态下，响应于检测到所述用户执行的第二触发信息，确定所述显示设备进入服务状态，并驱动所述交互对象提供与所述第二触发信息匹配的服务。

14.根据权利要求4所述的方法，其特征在于，所述方法还包括：

响应于发现用户状态，根据所述用户在所述图像中的位置，获得所述用户相对于所述显示设备中的交互对象的位置信息；

根据所述位置信息调整所述交互对象的朝向，使所述交互对象面向所述用户。

15.一种交互装置，其特征在于，所述装置包括：

图像获取单元，用于获取摄像头采集的显示设备的设定范围内任意方向的图像，所述显示设备用于通过设置的透明显示屏显示具有立体效果的交互对象；

检测单元，用于对所述图像中人脸和人体的至少一项进行检测，获得检测结果；

环境信息获取单元，用于获取环境信息；

驱动单元，用于根据所述检测结果和所述环境信息，获得相匹配的、预先设定的回应标签；根据所述回应标签，驱动所述显示设备上显示的所述交互对象做出相应的回应。

16.根据权利要求15所述的装置，其特征在于，所述显示设备还用于通过设置的所述透明显示屏显示所述交互对象的倒影，或者，所述显示设备还用于在设置的底板上显示所述交互对象的倒影。

17.根据权利要求15所述的装置，其特征在于，所述交互对象包括具有立体效果的虚拟人物。

18.根据权利要求15所述的装置，其特征在于，所述检测结果至少包括所述显示设备的当前服务状态；

19.根据权利要求18所述的装置，其特征在于，所述检测单元具体用于：

20.根据权利要求18所述的装置，其特征在于，所述检测单元具体用于：

21.根据权利要求18所述的装置，其特征在于，所述检测单元具体用于：

22.根据权利要求21所述的装置，其特征在于，所述检测结果还包括用户属性信息和/或用户历史信息；

所述装置还包括信息获取单元，所述信息获取单元用于：

23.根据权利要求15至22任一项所述的装置，其特征在于，响应于检测到至少两个用户，所述装置还包括目标确定单元，所述目标确定单元用于：

获得所述至少两个用户的特征信息；

根据所述至少两个用户的特征信息，确定目标用户；

24.根据权利要求15所述的装置，其特征在于，所述环境信息至少包括所述显示设备的地理位置、IP地址，以及所述显示设备所在区域的天气、日期中的一项或多项。

25.根据权利要求15所述的装置，其特征在于，所述驱动单元在用于根据所述回应标签，驱动所述显示设备上显示的所述交互对象做出相应的回应时，具体用于：

26.根据权利要求18所述的装置，其特征在于，所述装置还包括服务激发单元，所述服务激发单元用于：

27.根据权利要求26所述的装置，其特征在于，所述装置还包括服务单元，所述服务单元用于：

28.根据权利要求18所述的装置，其特征在于，所述装置还包括方向调整单元，所述方向调整单元用于：

29.一种交互设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至14任一项所述的方法。

30.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至14任一所述的方法。