CN115202481A

CN115202481A - 对象的交互方法、智能终端、电子设备及存储介质

Info

Publication number: CN115202481A
Application number: CN202210837719.5A
Authority: CN
Inventors: 马骞女; 揭志伟; 孙红亮; 王子彬
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-18

Abstract

本申请公开了一种对象的交互方法、智能终端、电子设备及计算机可读存储介质，其中，该对象的交互方法包括：获取用户对当前场景内的待交互对象进行拍摄所形成的图像；获取基于图像所确定的待交互对象在当前拍摄角度下的交互内容；其中，不同拍摄角度下的交互内容不同；向用户呈现当前拍摄角度下的交互内容。上述方案，能够实时向用户呈现当前拍摄角度下对应的交互内容，优化了用户与对象的交互流程和交互方式，进而提升用户体验。

Description

对象的交互方法、智能终端、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种对象的交互方法、智能终端、电子设备及计算机可读存储介质。

背景技术

随着扩展现实(Extended Reality，XR)的持续发展和深入，扩展现实应用越来越多。通常扩展现实应用都是基于AR(Augmented Reality，增强现实)SDK(SoftwareDevelopment Kit，软件开发工具包)、VR(Virtual Reality，虚拟现实)SDK或者MR(MixedReality，混合现实)SDK实现的，常见的扩展现实应用有Vuforia AR SDK、Google VR Core和Apple MR Kit等。扩展现实应用实现过程一般包括扫描标识物生成目标数据，在应用中通过SDK加载目标数据、再根据目标数据渲染既定的虚拟3D(三维)模型，并最终显示在智能终端上，完成最终的交互。

上述过程一般用于用户终端将标识物既定的扩展内容渲染的使用场景，缺乏与用户实时互动的能力，不能满足当前用户的多样化需求。

发明内容

本申请至少提供一种对象的交互方法、智能终端、电子设备及计算机可读存储介质。

本申请第一方面提供了一种对象的交互方法，该方法包括：获取用户对当前场景内的待交互对象进行拍摄所形成的图像；获取基于图像所确定的待交互对象在当前拍摄角度下的交互内容；其中，不同拍摄角度下的交互内容不同；向用户呈现当前拍摄角度下的交互内容。

因此，利用当前场景内的图像，实时地向用户呈现当前拍摄角度下待交互对象对应的交互内容，从而优化了用户与对象的交互流程和交互方式，进而提升用户体验。

在一些实施例中，获取基于图像所确定的待交互对象在当前拍摄角度下的交互内容包括：获取基于图像所确定的待交互对象的三维模型；其中，三维模型关联有与观察角度相关的多至少一个交互内容，其中，不同的观察角度下的交互内容不同；获取当前拍摄角度所对应的三维模型的观察角度所关联的交互内容，并作为当前拍摄角度下的交互内容。

因此，基于用户的观察角度，来确定当前拍摄角度待交互对象的三维模型对应的交互内容，能够保证用户视角的交互内容的实时性，优化了用户与对象的交互方式，提升了用户体验。

在一些实施例中，图像为视频图像，向用户呈现当前拍摄角度下的交互内容包括：根据视频图像的当前拍摄角度的变化向用户呈现变化的交互内容。

因此，基于视频图像中待交互对象和/或待交互对象的当前拍摄角度的变化而向用户呈现变化的交互内容，能够保证用户视角的交互内容的实时性，优化了用户与对象的交互方式，提升了用户体验。

在一些实施例中，向用户呈现当前拍摄角度下的交互内容包括：将交互内容叠加到视频图像中；向用户呈现叠加交互内容后的视频图像。

因此，可将交互内容直接叠加到视频图像的对应位置上，或者叠加到视频图像对应三维模型的对应位置上，以向用户呈现交互内容，使得呈现内容的感官性增强，提升了用户体验。

在一些实施例中，将交互内容叠加到视频图像中包括：确定待交互对象在视频图像中的位置；基于待交互对象的位置叠加交互内容，以使得交互内容与待交互对象保持预定的位置关系。

因此，使得交互内容和待交互对象保持对应的预定位置关系，能够保证在用户视角下呈现的交互内容的实时性，使得呈现内容的感官性增强，提升了用户体验。

在一些实施例中，交互内容包括固有呈现内容和问答呈现内容，向用户呈现当前拍摄角度下的交互内容包括：向用户直接呈现固有呈现内容；基于用户通过固有呈现内容所提出的问题，呈现对应于问题的问答呈现内容。

因此，利用直接呈现的固有呈现内容，和对应用户所提出的问题选择性呈现的问答呈现内容，能够增强对象与用户的互动关联性，使得呈现内容的感官性增强，提升了用户体验。

在一些实施例中，固有呈现内容包括待交互对象的问题选项；基于用户通过固有呈现内容所提出的问题，呈现对应于问题的问答呈现内容包括：基于用户所选择的问题选项，呈现对应于问题的问答呈现内容。

因此，利用用户所选择的固有呈现内容中的问题选项，对应呈现问答呈现内容，能够增强对象与用户的互动关联性，使得呈现内容的感官性增强，提升了用户体验。

在一些实施例中，获取基于图像所确定的待交互对象在当前拍摄角度下的交互内容包括：对图像进行场景识别，并基于识别到的场景信息确定待交互对象移动终端的当前拍摄角度；或者从图像中识别出待交互对象，将识别出的待交互对象与不同观察角度下的三维模型进行匹配，并将匹配到的观察角度作为当前拍摄角度。

因此，基于用户的观察角度，对图像进行场景识别或者将三维模型和待交互对象进行匹配，从而确定当前拍摄角度待交互对象的三维模型对应的交互内容，能够保证用户视角的交互内容的实时性，优化了用户与对象的交互方式，提升了用户体验。

本申请第二方面提供了一种智能终端，该智能终端包括：图像获取模块，用于获取用户对当前场景内的待交互对象进行拍摄所形成的图像；交互内容获取模块，用于获取基于图像所确定的待交互对象在当前拍摄角度下的交互内容，其中，不同拍摄角度下的交互内容不同；交互内容呈现模块，用于向用户呈现当前拍摄角度下的交互内容。

本申请第三方面提供了一种电子设备，该电子设备包括：处理器以及与处理器连接的存储器，其中，存储器中存储有程序数据，处理器调取存储器存储的程序数据，以执行如上所述的对象的交互方法。

本申请第四方面提供了一种计算机可读存储介质，其内部存储有程序指令，该程序指令被执行以实现如上所述的对象的交互方法。

上述方案，利用当前场景内的图像，实时地向用户呈现当前拍摄角度下待交互对象对应的交互内容，从而优化了用户与对象的交互流程和交互方式，进而提升用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请提供的智能终端第一实施例的结构示意图；

图2是本申请提供的对象的交互方法第一实施例的流程示意图；

图3是本申请中对象的交互方法第一实施例的界面示意图；

图4是本申请中建立待交互对象的三维模型一实施例的流程示意图；

图5是本申请中交互内容的具体获取方式的第一实施例；

图6是本申请中交互内容的具体获取方式的第二实施例；

图7是本申请中交互内容的具体获取方式的第三实施例；

图8是本申请中对象的交互方法第二实施例的界面示意图；

图9是本申请中交互内容的第一种呈现方式；

图10是本申请中步骤231一实施例的流程示意图；

图11是本申请中交互内容的第二种呈现方式；

图12是本申请中对象的交互方法第二实施例的界面示意图；

图13为本申请提供的智能终端第二实施例的结构示意图；

图14为本申请提供的一种电子设备的结构示意图；

图15为本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面结合说明书附图，对本公开实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、流程、技术之类的具体细节，以便透彻理解本申请。

结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本公开，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

在本公开中提及“实施例”意味着，结合实施例描述的特定特征、流程或特性可以包含在本公开的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本公开实施例中的步骤并不一定是按照所描述的步骤顺序进行处理，可以按照需求有选择的将步骤打乱重排，或者删除实施例中的步骤，或者增加实施例中的步骤，本公开实施例中的步骤描述只是可选的顺序组合，并不代表本公开实施例的所有步骤顺序组合，实施例中的步骤顺序不能认为是对本公开的限制。

本公开实施例中的术语“和/或”仅仅是一种描述关联对象的关联关系，是包括相关联的列举项目中的一个或多个的任何和全部的可能组合，其表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本公开中的“多”表示两个或者多于两个。另外，本公开中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。还需要说明的是：当用在本公开说明书中时，“包括/包含”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其他特征、整数、步骤、操作、元件和/或组件和/或它们的组群的存在或添加。

本公开中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外，本公开中尽管多次采用术语“第一”、“第二”等来描述各种操作(或各种元件或各种应用或各种指令或各种阈值)等，不过这些操作(或元件或应用或指令或阈值)不应受这些术语的限制。这些术语只是用于区分一个操作(或元件或应用或指令或阈值)和另一个操作(或元件或应用或指令或阈值)。例如，第一待交互对象可以被称为第二待交互对象，第二待交互对象也可以被称为第一待交互对象，仅仅是其两者所包括的范围不同，而不脱离本公开的范围，第一待交互对象和第二待交互对象可以都是各种待交互对象的集合，只是二者并不是相同的待交互对象的集合而已。

请参阅图1，图1是本申请提供的智能终端第一实施例的结构示意图。

本公开实施例中，该智能终端10A包括应用程序11A、输入装置12A、显示器13A和摄像装置14A。

本公开实施例的智能终端10A可以以各种形式来实施。其中，智能终端10A可为包括诸如采集识别设备(如摄影机和录像机)、移动电话、智能电话、笔记本电脑、个人数字助理(PDA，Personal Digital Assistant)、平板电脑(PAD)等等的能够拍摄和储存图像信息，以及被访问或者发送图像信息的移动终端，智能终端也可以是数字广播发送器、数字TV、台式计算机、服务器等等的能够编辑和储存图像信息，以及被访问或者发送图像信息的固定终端。下面，假设智能终端10A是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本公开的实施方式的构造也能够应用于固定类型的终端。

本公开实施例中，应用程序11A可为运行在用户模式以完成某项或多项特定工作的计算机程序，其可以与用户进行交互，且具有可视的用户界面。应用程序11A也可以包括两部分：图形用户接口(GUI)和引擎(engine)，利用这两者能够以用户界面的形式向用户提供多种应用服务的数字化客户***。可选地，应用程序11A可基于Liunx(GNU/Linux)***、Mac(Macintosh，麦克机)***或微软***等用于程序操作，应用程序11A也可基于

平台、

平台、

平台或者

平台等用于程序应用。

本公开实施例中，用户可以通过输入装置12A向应用程序11A输入相应的代码数据或者控制参数，以执行应用程序11A的特色服务，以及显示器13A用于显示用户界面中的的应用服务。如用户需要对当前场景进行拍摄，或者用户需要与当前的交互对象进行互动等，则用户通过输入装置12A进行操作以及通过显示器13A进行显示。可选地，输入装置12A可为触屏输入、按键输入、语音输入或瞳孔聚焦。

在一些实施例中，按键输入可包括多种按键，以及语音输入可包括多个语音关键词，用以向应用程序11A输入不同的代码数据或者控制参数。其中，语音输入中的多个语音关键词包括有与按键输入中的多种按键相同的功能。例如，一语音关键词为“历史典故”，语音输入器识别该关键词，并向应用程序11A发送相应的控制信号，应用程序11A根据控制信号立即启动后台对应的业务***，以在用户界面根据该控制信号呈现与该交互对象对应“历史典故”的交互内容。

在其他实施例中，瞳孔聚焦可基于扩展现实设备监测人体瞳孔的聚焦点，以确定和选定显示器13A中呈现的交互内容。例如，扩展现实设备为一AR眼镜，具有瞳孔聚焦定位功能，响应于监测到人体的瞳孔通过AR眼镜焦距在一个对象的一个部位时，智能终端确定用户期望为显示该部位的交互内容，而执行显示该部位的交互内容。

本公开实施例中，摄像装置14A可为深度相机、3D相机、单目相机或双目相机等，其可根据应用程序11A发送的控制信息对当前场景和/或交互对象进行拍摄，以得到当前场景和/或交互对象的拍摄图像，且当前场景和/或交互对象，与摄像装置14A的光轴的夹角可为90～180度。

可选地，摄像装置14A拍摄的图像可为图片(包括位图、JPEG图片、PNG图片(便携式网络图形)、GIF图片、JPG图片、PDF图片或者深度图)或者视频(包括微软视频、RealPlayer、MPEG视频、手机视频或Apple视频等)。

请参阅图2，图2是本申请提供的对象的交互方法第一实施例的流程示意图。其中，该方法应用于上述实施例中的智能终端，以被该智能终端执行，具体而言，该方法可以包括如下步骤：

步骤11：获取用户对当前场景内的待交互对象进行拍摄所形成的图像。

本公开实施例中，用户通过智能终端中的摄像装置实时获取用户在当前场景内对待交互对象进行拍摄所形成的图像。其中，形成的图像可以为图片或者视频图像。

在某些实施例中，待交互对象为用户通过智能终端将要与之进行交互的对象，待交互对象可为设置有特殊标识的对象(如，贴有标签的商品)、特定区域内的特定对象(如，博物馆内的文物)或者特定特征的对象(如，特定的人脸特征)等等。其中，用户对当前场景进行拍摄拍摄所形成的图像中包含的待交互对象可以为一个、两个、三个等等，这里不做具体限定。

步骤12：获取基于图像所确定的待交互对象在当前拍摄角度下的交互内容；其中，不同拍摄角度下的交互内容不同。

本公开实施例中，智能终端根据摄像装置获取的图像，来获取在当前拍摄角度下图像中的待交互对象的交互内容。

在某些实施例中，具有时间性质的图像，在不同时间下的当前拍摄角度可以相同也可以不相同。例如，摄像装置获取的图像为一组10张的连拍图片，每相邻两张图片的拍摄间距为1秒，这一组连拍图片表示连续10秒内的10个瞬间画面，其中，前5个瞬间画面相同(即为静止画面)，后5个瞬间画面不相同(即为动态画面)。

在某些实施例中，不同拍摄角度下的待交互对象可以相同也可以不相同。例如，摄像装置获取的图像为一段10秒的视频图像，在前5秒的视频图像中仅呈现第一待交互对象，在后5秒的视频图像中同时呈现第一待交互对象和第二待交互对象，并且其呈现第一待交互对象和第二待交互对象的角度随着时间的变化而变化。

在某些实施例中，在不同拍摄角度下待交互对象的交互内容可以相同也可以不相同。例如，第一待交互对象在第一拍摄角度下具有第一交互内容，在第二拍摄角度下具有第二交互内容，在第三拍摄角度下没有交互内容，且第一交互内容和第二交互内容不相同。

在某些实施例中，待交互对象的交互内容可以为智能终端自身存储的或者第三方机构(如服务器、计算机等)定义和收集的用于用户与对象交互的信息。其中，第三方机构定义的交互内容可以基于顾客或客户调查、市场调查以及驱动需求(如，期望的外观和/或功能)等来设计。在交互内容的准备中可能涉及各种不同的工作人员，诸如功能顾问、用户体验(UX)设计人员等。交互内容可以使用计算机辅助设计工具生成并以数字格式保存，或者可以被工作人员手动生成为计算机或者纸上的草图，然后被扫描到数字图像中以数字格式保存。

步骤13：向用户呈现当前拍摄角度下的交互内容。

本公开实施例中，智能终端根据当前拍摄角度下的图像，通过显示器的用户界面向用户呈现对应的交互内容。

在某些实施例中，交互内容可以为基于用户对智能终端输入的控制指令而呈现的内容，该内容可以包括在图像中为交互对象叠加的图像、音乐、文本等，或者交互对象对应产生的互动行为(如，动作、语音)。交互内容应用的用户界面(如，GUI屏幕)可以包括一个或多个，其中每个界面包括一个或多个用户界面部件，诸如按钮、文本输入框、下拉列表、下拉菜单、图标、表格等。应用的用户界面还可以包括用于描述应用、和/或与各个部件的功能和行为相关联、和/或向用户提供其它信息或指令的文本信息。

在某些实施例中，当前拍摄角度下呈现的交互内容可以为一个或多个。在用户界面中，交互内容的呈现还可以包含关于与待交互对象的结构的信息(如，基于待交互对象的层次结构而呈现对应层次结构的交互内容)。

在一些实施例中，可以基于交互内容的类型或者位置对交互内容进行分组，以形成交互内容的子组(如，表或列表)。这些子组还可以被聚类以呈现基于待交互对象的更高级别的交互内容布局。在其他实施例中，交互内容也可以被分组以形成例如文本行或文本段。

在一个实施场景中，请参阅图3，图3是本申请中对象的交互方法第一实施例的界面示意图。其中，该界面为智能终端的用户界面，用户通过智能终端中的摄像装置实时获取用户在当前场景内对待交互对象进行拍摄以形成视频图像，视频图像呈现在用户界面中。智能终端根据视频图像，获取到在当前拍摄角度下图像中的待交互对象的第一待交互对象A和第二待交互对象B，智能终端再通过显示器的用户界面向用户呈现第一待交互对象A和第二待交互对象B。其中，在当前拍摄角度下第一待交互对象A有第一交互内容A1，第一交互内容A1为叠加的文本内容，在当前拍摄角度下第二待交互对象B有第二交互内容B1，第二交互内容B1为第二待交互对象的行为指令，该行为指令为控制第二待交互对象跳舞的指令。其中，响应于在用户界面向用户呈现第一待交互对象A的第一交互内容A1以及第二待交互对象B的第二交互内容B1，此时，用户可以直观的观察到第一交互内容A1中的文本内容，以及第二交互内容B1的指令标识，若响应于用户通过触屏输入的方式确定选择第二交互内容B1的指令标识，则第二待交互对象B根据定的行为指令而做出跳舞动作。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

在具体实施方式中，用户***在对当前场景内的待交互对象进行拍摄之前，还包括需要对待交互对象建立三维模型和为三维模型叠加对应的交互内容。随后，基于三维模型实现上述交互过程。

请参阅图4，图4是本申请中建立待交互对象的三维模型一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤a1：获取当前场景中对象的图像信息。

本公开实施例中，通过图像采集装置来采集当前场景中至少一个对象的图像信息。其中，可根据三维重建要求，采集对象的各个角度的图像信息，以保证最终所得三维模型与真实的对象一致，因此，利用图像采集装置不断调整图像拍摄视角，来获取所需的各个角度的图像信息。

在一些实施例中，采集的图像信息具体可以包括相应对象不同角度的彩色图像数据，或者，由该彩色图像数据以及对应的点云数据组成等，本实施例对该图像信息包含的内容，以及各类信息内容的获取方式不做限定。图像采集装置可以为360度全景相机也可以为深度相机、3D相机等。基于此，为了提高三维模型的精准度，本实施例在获取对象的彩色图像的同时，还可以获取对象的深度图像，具体可以获取对象的点云数据(即点云深度数据)。

步骤a2：将图像信息输入三维重建模型进行转换处理，得到对象的三维网格数据。

本公开实施例中，可以将图像采集装置获取对象的不同角度的图像信息发送至计算机设备(即上文第三方机构)，由该计算机设备基于封装的数据结构和/或算法对图像信息进行转换处理，以得到对象的三维网格数据。其中，三维网格数据是组成三维对象模型的数据，可以包括网格及顶点数据等，具体包括顶点坐标、颜色信息等等，本实施例对该三维网格数据包含的内容不做限定。

步骤a3：利用三维网格数据，生成对象的三维模型。

本公开实施例中，可以由计算机设备基于神经网络算法，对对象不同角度的三维网格数据进行训练，以得到该对象的三维重建模型。其中，该计算机设备可以是服务器或具有计算功能的电脑等终端设备，本实施例对完成三维重建模型的训练的执行体不做限定。

在一些实施例中，生成对象的三维模型之后，可以基于计算机设备为对象的三维模型叠加对应位置的交互内容，其中，叠加的交互内容与上述公开实施例中的交互内容相似，这里不再赘述。

在一些实施例中，为对象的三维模型叠加对应位置的交互内容可基于C语言开发、QT(应用程序开发框架)界面编辑和应用层运用来叠加交互内容。也可以由用户体验(UX)设计人员输入相应的代码数据，以通过经典组合GCC(GNU Compiler Collection，GNU编译器套件)+Make/Makefile+GBD(GNU Project Debugger，GNU项目调试器)+Valgrind(内存分析工具)+Vim/EMACS/Gedit/Sublime Text(Vim/EMACS/Gedit/Sublime文本编辑器)进行编程以叠加交互内容。其中，在C语言开发中可封装常用的数据结构和算法，QT的界面库可应用编辑软件的二次开发。

此时，后续的具体交互内容的具体获取方式可以包括如下的步骤。

参阅图5，图5是本申请中交互内容的具体获取方式的第一实施例，具体包括：

步骤221：获取基于图像所确定的待交互对象的三维模型。

在一些实施例中，智能终端可将拍摄所形成的图像发送至计算机设备(即上文第三方机构)，以使计算机设备确定当前拍摄角度中对应的待交互对象，并向智能终端返回对应的待交互对象的三维模型。

在其他实施例中，智能终端也可以利用自身搭载的服务端(如，三维全景地图、数据库、知识图谱等)来确定当前拍摄角度中对应的待交互对象，并向计算机设备发送指示命令，以获取对应的待交互对象的三维模型。

步骤222：获取当前拍摄角度所对应的三维模型的观察角度所关联的交互内容，并作为当前拍摄角度下的交互内容。

本公开实施例中，交互内容可为扩展现实内容，包括增强现实内容、虚拟现实内容和混合现实内容中的至少一种。三维模型关联有与观察角度相关的至少一个交互内容。其中，不同的观察角度下的交互内容不同。例如，三维模型在第一观察角度关联有第一交互内容，在第二观察角度关联有第二交互内容和第三交互内容。其中，第一交互内容、第二交互内容和第三交互内容各不相同。

在一些实施例中，智能终端根据图像的当前拍摄角度向计算机设备获取待交互对象的三维模型对应当前观察角度所关联的交互内容，并作为当前拍摄角度下的交互内容。

在其他实施例中，智能终端的应用程序中存储有所有待交互对象的三维模型对应的全部交互内容，当智能终端向计算机设备获取到待交互对象的三维模型后，智能终端根据图像的当前拍摄角度提取对应当前观察角度所关联的交互内容，并作为当前拍摄角度下的交互内容。

在一个实施场景中，用户控制智能终端拍摄当前场景中包含有待交互对象的图像；然后，智能终端将拍摄所形成的图像发送至计算机设备，计算机设备识别并确定图像的当前拍摄角度中对应的待交互对象，并提取待交互对象对应的三维模型，再返回至智能终端中；智能终端根据图像动态的不同观察角度，向计算机设备实时获取对应当前观察角度三维模型关联的交互内容，并作为所述当前拍摄角度下的交互内容。

上述方案，基于用户的观察角度，来确定当前拍摄角度待交互对象的三维模型对应的交互内容，能够保证用户视角的交互内容的实时性，优化了用户与对象的交互方式，提升了用户体验。

请参阅图6，图6是本申请中交互内容的具体获取方式的第二实施例，具体包括：

步骤223：对图像进行场景识别，并基于识别到的场景信息确定待交互对象的当前拍摄角度。

本公开实施例中，智能终端将拍摄所形成的图像发送至计算机设备，以使计算机设备利用识别算法、空间定位、数据库或者知识图谱对当前拍摄角度的图像进行场景识别，以识别出当前拍摄角度的场景信息以及对应的待交互对象，并基于识别到的场景信息确定待交互对象的当前拍摄角度。

在一些实施例中，场景信息包括当前拍摄角度的待交互对象的方向、位置、完整度、清晰度、像素点比例或者待交互对象与智能终端的距离值中的至少一个。

例如，计算机设备利用搭载的知识图谱平台对图像进行检索和匹配，从而得出图像中的待交互对象显示的完整度(若待交互对象在摄像装置的镜头前被其他人体或者物体遮挡，则图像中显示的待交互对象的完整度小于百分之百)、清晰度(若摄像装置在拍摄待交互对象时，因镜头的不稳定并产生晃动，则图像中显示的待交互对象的清晰度小于百分之百)。

又例如，计算机设备利用空间定位相关算法(如，SLAM算法)对图像进行定位，从而得出图像中的待交互对象的方向和位置信息、以及显示的像素点比例(若待交互对象与智能终端的距离越大，则在用户界面中显示待交互对象的像素点比例越小)、待交互对象与智能终端的距离值。

步骤224：获取当前拍摄角度所对应的三维模型的观察角度所关联的交互内容，并作为当前拍摄角度下的交互内容。

其中，本公开实施例中的步骤224与上述公开实施例中的步骤222相似，这里不再赘述。

在一个实施场景中，用户控制智能终端拍摄当前场景中包含有待交互对象的图像；然后，智能终端将拍摄所形成的图像发送至计算机设备，计算机设备通过SLAM算法对待交互对象进行空间定位，以识别并确定图像的当前拍摄角度中对应的待交互对象，并提取待交互对象对应的三维模型，再返回至智能终端中；智能终端根据图像动态的不同观察角度，向计算机设备实时获取对应当前观察角度三维模型关联的交互内容，并作为所述当前拍摄角度下的交互内容。

上述方案，基于用户的观察角度，对图像进行场景识别，从而确定当前拍摄角度待交互对象的三维模型对应的交互内容，能够保证用户视角的交互内容的实时性，优化了用户与对象的交互方式，提升了用户体验。

请参阅图7，图7是本申请中交互内容的具体获取方式的第三实施例，具体包括：：

步骤225：从图像中识别出待交互对象，将识别出的待交互对象与不同观察角度下的三维模型进行匹配，并将匹配到的观察角度作为当前拍摄角度。

本公开实施例中，智能终端将拍摄所形成的图像发送至计算机设备，以使计算机设备利用识别算法、空间定位、数据库或者知识图谱对当前拍摄角度的图像进行场景识别，以识别出当前拍摄角度对应的待交互对象，并将识别出的待交互对象在用户界面中呈现的位姿，与其不同观察角度下的三维模型呈现的位姿进行匹配，响应于匹配到两者的位姿相同，则将此时三维模型对应的观察角度作为当前拍摄角度。

步骤226：获取当前拍摄角度所对应的三维模型的观察角度所关联的交互内容，并作为当前拍摄角度下的交互内容。

其中，本公开实施例中的步骤226与上述公开实施例中的步骤222相似，这里不再赘述。

在一个实施场景中，用户控制智能终端拍摄当前场景中包含有待交互对象的图像；然后，智能终端将拍摄所形成的图像发送至计算机设备，计算机设备通过知识图谱平台对待交互对象进行识别，以确定图像的当前拍摄角度中对应的待交互对象，并提取待交互对象对应的三维模型，再将三维模型在不同观察角度下的位姿与待交互对象在用户界面中呈现的位姿进行匹配，以确定待交互对象的当前拍摄角度，再从数据库中提取出对应拍摄角度的交互内容；计算机设备将三维模型和对应的交互内容返回至智能终端中；智能终端根据图像动态的不同观察角度，确定每一时刻的当前拍摄角度下的交互内容。

上述方案，基于用户的观察角度，将三维模型和待交互对象进行匹配，从而确定当前拍摄角度待交互对象的三维模型对应的交互内容，能够保证用户视角的交互内容的实时性，优化了用户与对象的交互方式，提升了用户体验。

在本申请中，交互内容的具体呈现方式可以多种多样，例如，用户对当前场景内的待交互对象进行拍摄所形成的图像为视频图像。在智能终端获取到视频图像确定的待交互对象在当前拍摄角度下的交互内容之后，智能终端根据视频图像的当前拍摄角度的变化向用户呈现变化的交互内容。

在一些实施例中，拍摄的视频图像可以为智能终端实时拍摄的直播视频，也可以为智能终端拍摄存储的和/或收集的录制视频。

在一些实施例中，基于时间性质的视频图像，随着时间的变化其视频画面也同步变化，从而视频图像中的待交互对象和/或待交互对象的当前拍摄角度也可能随着时间的变化而变化。进而，与待交互对象的三维模型的观察角度相关联的交互内容，在用户界面段呈现时，也同步随着待交互对象和/或待交互对象的当前拍摄角度的变化而变化。

在一个实施场景中，请参阅图8，图8是本申请中对象的交互方法第二实施例的界面示意图。其中，该界面为智能终端的用户界面，在用户界面中显示有摄像装置实时拍摄的视频图像。如图8中的左侧界面P1的示意图为视频图像在第1秒时智能终端当前拍摄角度的呈现画面，在该画面中包括有第一待交互对象A和第二待交互对象B。其中，在第1秒时的当前拍摄角度下第一待交互对象A有第一交互内容A1，第一交互内容A1为叠加的文本内容，在当前拍摄角度下第二待交互对象B有第二交互内容B1，第二交互内容B1为第二待交互对象的行为指令，该行为指令为控制第二待交互对象跳舞的指令。在第1秒至第10秒内，随着视频图像中的时间的变化其视频画面也同步变化，进而，与待交互对象的三维模型的观察角度相关联的交互内容，也同步随着待交互对象和/或待交互对象的当前拍摄角度的变化而变化。又如图8中的右侧界面P2的示意图为视频图像在第10秒时智能终端当前拍摄角度的呈现画面，在该画面中仅包括有第二待交互对象B。其中，在第10秒时的当前拍摄角度下第二待交互对象B有第三交互内容B2，第三交互内容B2为叠加的文本内容。

上述方案，基于用户的观察角度，根据视频图像中待交互对象和/或待交互对象的当前拍摄角度的变化而向用户呈现变化的交互内容，能够保证用户视角的交互内容的实时性，优化了用户与对象的交互方式，提升了用户体验。

请参阅图9，图9是本申请中交互内容的第一种呈现方式：

步骤231：将交互内容叠加到视频图像中。

请参阅图10，图10是本申请中步骤231一实施例的流程示意图。

具体而言，步骤231可以包括如下步骤：

步骤2311：确定待交互对象在视频图像中的位置。

本公开实施例中，智能终端的用户界面中，首先识别待交互对象在视频图像中的位置，再将获取到的待交互对象的三维模型与视频图像中待交互对象的方向和位置进行匹配，以使待交互对象的三维模型与视频图像中的待交互对象完全重合。其中，待交互对象的三维模型在视频图像中可以呈现出来也可以不呈现出来。

在一些实施例中，若智能终端应用的用户界面(如，GUI屏幕)只有一个，则在该用户界面呈现的视频图像中，将与视频图像中的待交互对象完全重合的三维模型进行隐藏。在其他实施例中，若智能终端应用的用户界面(如，GUI屏幕)有第一GUI屏幕和第二GUI屏幕，则在第一GUI屏幕呈现的视频图像中，将与视频图像中的待交互对象完全重合的三维模型进行隐藏。在第二GUI屏幕呈现的视频图像中，将与三维模型完全重合的视频图像中的待交互对象，以及场景画面进行隐藏，即在第二GUI屏幕中仅呈现随着当前拍摄角度的变化而变化的三维模型。

步骤2312：基于待交互对象的位置叠加交互内容，以使得交互内容与待交互对象保持预定的位置关系。

本公开实施例中，交互内容叠加在待交互对象上的位置，可根据设计需要叠加在任意位置，并且待交互对象上的同一个位置可叠加至少一个交互内容，这里不做具体限定。将交互内容叠加在待交互对象上的位置之后，交互内容与待交互对象保持预定的位置关系。

本公开实施例中，待交互对象的交互内容可以为智能终端自身存储的或者第三方机构(如服务器、计算机等)定义和收集的用于用户与对象交互的信息。其中，第三方机构定义的交互内容可以基于顾客或客户调查、市场调查以及驱动需求(如，期望的外观和/或功能)等来设计。在交互内容的准备中可能涉及各种不同的工作人员，诸如功能顾问、用户体验(UX)设计人员等。交互内容可以使用计算机辅助设计工具生成并以数字格式叠加到视频图像中，或者可以被工作人员手动生成为计算机或者纸上的草图，然后被扫描到数字图像中以数字格式叠加到视频图像中。

在一些实施例中，将编辑的交互内容叠加到视频图像中的对应位置可基于C语言开发、QT(应用程序开发框架)界面编辑和应用层运用来叠加交互内容。也可以由用户体验(UX)设计人员输入相应的代码数据，以通过经典组合GCC(GNU Compiler Collection，GNU编译器套件)+Make/Makefile+GBD(GNU Project Debugger，GNU项目调试器)+Valgrind(内存分析工具)+Vim/EMACS/Gedit/Sublime Text(Vim/EMACS/Gedit/Sublime文本编辑器)进行编程以叠加交互内容。其中，在C语言开发中可封装常用的数据结构和算法，QT的界面库可应用编辑软件的二次开发。

在一个实施场景中，智能终端应用的GUI屏幕只有一个，在GUI屏幕呈现的视频图像中，首先识别待交互对象在视频图像中的位置，再将获取到的待交互对象的三维模型与视频图像中待交互对象的方向和位置进行匹配，以使待交互对象的三维模型的位置与视频图像中的待交互对象完全重合，并且三维模型隐藏在视频图像中不呈现出来。然后，再根据交互对象的位置，在三维模型对应位置上叠加上交互内容，以使得交互内容与待交互对象保持预定的位置关系。

上述方案，使得交互内容和待交互对象保持与三维模型对应的预定位置关系，并且可选择将三维模型显示或者不显示，能够保证在用户视角下呈现的交互内容的实时性，使得呈现内容的感官性增强，提升了用户体验。

步骤232：向用户呈现叠加交互内容后的视频图像。

其中，本公开实施例中的步骤232与上述公开实施例中的根据视频图像的当前拍摄角度的变化向用户呈现叠加交互内容后变化的交互内容相似，这里不再赘述。

在一个实施场景中，智能终端应用的GUI屏幕有两个，在第一GUI屏幕呈现的视频图像中，首先识别待交互对象在视频图像中的位置，再将获取到的待交互对象的三维模型与视频图像中待交互对象的方向和位置进行匹配，以使待交互对象的三维模型的位置与视频图像中的待交互对象完全重合，并且在第一GUI屏幕中三维模型隐藏在视频图像中不呈现出来，在第二GUI屏幕中仅呈现与视频图像中的待交互对象的当前视角的三维模型。然后，再根据交互对象的位置，在第一GUI屏幕和第二GUI屏幕中的三维模型对应位置上叠加上交互内容，以使得交互内容与待交互对象保持预定的位置关系。最后，智能终端根据叠加交互内容后的视频图像的当前拍摄角度的变化在第一GUI屏幕和第二GUI屏幕中向用户呈现对应变化的交互内容。

上述方案，使得交互内容和待交互对象保持与三维模型对应的预定位置关系，并且根据视频图像中待交互对象和/或待交互对象的当前拍摄角度的变化而向用户呈现变化的交互内容，能够保证在用户视角下呈现的交互内容的实时性，使得呈现内容的感官性增强，提升了用户体验。

在一些实施例中，交互内容包括固有呈现内容和问答呈现内容。其中，固有呈现内容为设置有特殊标识的直接呈现内容(如，标签、标识等)和/或待交互对象的问题选项。其中，问题选项可以为设置有问话文字的直接呈现内容(如，问话、问题等的直接呈现对话框)，问题选项也可以为设置有问话文字的隐藏呈现内容(需要用户通过说出语音，智能终端再识别语音中的关键词，以确定用户选择的问题选项)。而问答呈现内容为与问题选项中的问话文字相对应的答话文字的间接呈现内容(如，问话和问题对应的答话和答案的对话框等)。

在一些实施例中，直接呈现内容为直接呈现在用户界面中的交互内容，间接呈现内容为响应于对部分直接呈现内容所选择的问题选项，所间接呈现出来的交互内容。

请参阅图11，图11是本申请中交互内容的第二种呈现方式，包括：

步骤233：向用户直接呈现固有呈现内容。

本公开实施例中，智能终端根据视频图像的当前拍摄角度的变化，直接向用户呈现变化的固有呈现内容。

步骤234：基于用户通过固有呈现内容所提出的问题，呈现对应于用户问题的问答呈现内容。

本公开实施例中，用户通过固有呈现内容所提出的问题可以是待交互对象的问题选项也可以不是待交互对象的问题选项。当用户所提出的问题为问题选项中的问题时，智能终端则呈现出问题选项对应的问答呈现内容，当用户所提出的问题不是问题选项中的问题时，智能终端则选择不呈现出任何的一个问答呈现内容。

在一些实施例中，用户向智能终端提出问题的方式可通过触屏选择、按键选择、语音选择或瞳孔聚焦选择等方式进行选择。

在一个实施场景中，请参阅图12，图12是本申请中对象的交互方法第三实施例的界面示意图。其中，该界面为智能终端的用户界面，该应用场景为博物馆，博物馆内的待交互对象为各种文物。在用户界面中显示有摄像装置实时拍摄的视频图像。如图12中的左侧界面P3的示意图为向用户直接呈现固有呈现内容的呈现画面，在该画面中包括有待交互对象C。其中，待交互对象C为一种青瓷器，待交互对象C呈现有第一固有呈现内容C1和第二固有呈现内容C2，第一固有呈现内容C1为待交互对象C设置的特殊标识，用于表示待交互对象C的基本属性，例如名称、尺寸等；第二固有呈现内容C2为待交互对象C设置的问题选项，问题选项的文字内容为“它的历史典故有哪些？”。其中，响应于用户通过语音选择方式说出“它的历史典故有哪些？”来选择该问题选项。如图12中的右侧界面P4的示意图为左侧界面P3的示意图对应的向用户间接呈现问答呈现内容的呈现画面，在该画面中包括有待交互对象C。其中，待交互对象C呈现有第一固有呈现内容C1，和由第二固有呈现内容C2转变过来的第三固有呈现内容C3，第三固有呈现内容C3为第二固有呈现内容C2的文字部分对应设置的答案内容，答案内容的文字内容为“在清朝的乾隆年间，浙江的太守……。”。

上述方案，利用直接呈现的固有呈现内容，和对应用户所提出的问题选择性呈现的问答呈现内容，能够增强对象与用户的互动关联性，使得呈现内容的感官性增强，提升了用户体验。

参阅图13，图13为本申请提供的智能终端第二实施例的结构示意图，该智能20A包括图像获取模块21A、交互内容获取模块22A和交互内容呈现模块23A。

本公开实施例中，图像获取模块21A用于获取用户对当前场景内的待交互对象进行拍摄所形成的图像。

在某些实施例中，用户通过图像获取模块21A中的摄像装置实时获取用户在当前场景内对待交互对象进行拍摄所形成的图像。其中，形成的图像可以为图片或者视频图像。

本公开实施例中，交互内容获取模块22A用于获取基于图像所确定的待交互对象在当前拍摄角度下的交互内容；其中，不同拍摄角度下的交互内容不同。

在某些实施例中，交互内容获取模块22A根据摄像装置获取的图像，来获取在当前拍摄角度下图像中的待交互对象的交互内容。

本公开实施例中，交互内容呈现模块23用于向用户呈现当前拍摄角度下的交互内容。

在某些实施例中，交互内容呈现模块23根据当前拍摄角度下的图像，通过显示器的用户界面向用户呈现对应的交互内容。

在一个实施场景中，用户通过智能终端中的摄像装置实时获取用户在当前场景内对待交互对象进行拍摄以形成视频图像，视频图像呈现在智能终端的用户界面中。智能终端再根据视频图像，获取到在当前拍摄角度下图像中的待交互对象的第一待交互对象A和第二待交互对象B，智能终端通过显示器的用户界面向用户呈现第一待交互对象A和第二待交互对象B。其中，在当前拍摄角度下第一待交互对象A有第一交互内容A1，第一交互内容A1为叠加的文本内容，在当前拍摄角度下第二待交互对象B有第二交互内容B1，第二交互内容B1为第二待交互对象的行为指令，该行为指令为控制第二待交互对象跳舞的指令。其中，响应于在用户界面向用户呈现第一待交互对象A的第一交互内容A1以及第二待交互对象B的第二交互内容B1，此时，用户可以直观的观察到第一交互内容A1中的文本内容，以及第二交互内容B1的指令标识，若响应于用户通过触屏输入的方式确定选择第二交互内容B1的指令标识，则第二待交互对象B根据定的行为指令而做出跳舞动作。

参阅图14，图14为本申请提供的一种电子设备的结构示意图，该电子设备100包括处理器101以及与处理器101连接的存储器102，其中，存储器102中存储有程序数据，处理器101调取存储器102存储的程序数据，以执行上述的对象的交互方法。

可选地，在一实施例中，处理器101用于执行程序数据以实现如下方法：获取用户对当前场景内的待交互对象进行拍摄所形成的图像；获取基于图像所确定的待交互对象在当前拍摄角度下的交互内容；其中，不同拍摄角度下的交互内容不同；向用户呈现当前拍摄角度下的交互内容。

上述方案，电子设备100利用当前场景内的图像，实时地向用户呈现当前拍摄角度下待交互对象对应的交互内容，从而优化了用户与对象的交互流程和交互方式，进而提升用户体验。

其中，处理器101还可以称为CPU(Central Processing Unit，中央处理单元)。处理器101可能是一种电子芯片，具有信号的处理能力。处理器101还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器101可以由集成电路芯片共同实现。

存储器102可以为内存条、TF卡等，可以存储电子设备100中的全部信息，包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器102中。它根据处理器101指定的位置存入和取出信息。有了存储器102，电子设备100才有记忆功能，才能保证正常工作。电子设备100的存储器102按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。

作为示例而非限制，如图14所示，存储器102可以加载正在被执行的可以包括各种应用(诸如Web浏览器、中间层应用、关系型数据库管理***(RDBMS)等)的应用程序、程序数据和操作***。作为示例，操作***可以包括各种版本的Microsoft

Apple

和/或Linux操作***、各种商用或类

操作***(包括但不限于各种GNU/Linux操作***、Google

OS等)和/或移动操作***，诸如

Phone、

OS、

OS、

OS操作***，以及其它操作***。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的智能终端100的实施方式仅仅是示意性的，例如，待交互对象三维模型的制作方式，不同拍摄角度下的交互内容的类型等等，其仅仅为一种集合的方式，实际实现时可以有另外的划分方式，例如视频图像和待交互对象的三维模型可以结合或者可以集合到另一个***中，或一些特征可以忽略，或不执行。

另外，在本申请各个实施例中的各功能单元(如服务器和摄像机等)可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

参阅图15，图15为本申请提供的计算机可读存储介质一实施例的结构示意图，该计算机可读存储介质110中存储有能够实现上述所有方法的程序指令111。

在本申请各个实施例中的各功能单元集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在计算机可读存储介质110中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机可读存储介质110在一个程序指令111中，包括若干指令用以使得一台计算机设备(可以是个人计算机，***服务器，或者网络设备等)、电子设备(例如MP3、MP4等，也可以是手机、平板电脑、可穿戴设备等移动终端，也可以是台式电脑等)或者处理器(processor)以执行本申请各个实施方式方法的全部或部分步骤。

可选地，在一实施例中，程序指令111在被处理器执行时，用以实现如下方法：获取用户对当前场景内的待交互对象进行拍摄所形成的图像；获取基于图像所确定的待交互对象在当前拍摄角度下的交互内容；其中，不同拍摄角度下的交互内容不同；向用户呈现当前拍摄角度下的交互内容。

上述方案，计算机可读存储介质110利用当前场景内的图像，实时地向用户呈现当前拍摄角度下待交互对象对应的交互内容，从而优化了用户与对象的交互流程和交互方式，进而提升用户体验。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质110(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可读存储介质110实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可读存储介质110到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的程序指令111产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机可读存储介质110也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储介质110中的程序指令111产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机可读存储介质110也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的程序指令111提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一实施例中，这些可编程数据处理设备上包括处理器和存储器。处理器还可以称为CPU(Central Processing Unit，中央处理单元)。处理器可能是一种电子芯片，具有信号的处理能力。处理器还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以为内存条、TF卡等，它根据处理器指定的位置存入和取出信息。存储器按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种对象的交互方法，其特征在于，所述方法包括：

获取用户对当前场景内的待交互对象进行拍摄所形成的图像；

获取基于所述图像所确定的所述待交互对象在当前拍摄角度下的交互内容；其中，不同拍摄角度下的所述交互内容不同；

向所述用户呈现所述当前拍摄角度下的交互内容。

2.根据权利要求1所述的方法，其特征在于，所述获取基于所述图像所确定的所述待交互对象在当前拍摄角度下的交互内容包括：

获取基于所述图像所确定的所述待交互对象的三维模型；其中，所述三维模型关联有与观察角度相关的至少一个交互内容，其中，不同的观察角度下的所述交互内容不同；

获取所述当前拍摄角度所对应的所述三维模型的观察角度所关联的交互内容，并作为所述当前拍摄角度下的交互内容。

3.根据权利要求1所述的方法，其特征在于，所述图像为视频图像，所述向所述用户呈现所述当前拍摄角度下的交互内容包括：

根据所述视频图像的所述当前拍摄角度的变化向所述用户呈现变化的交互内容。

4.根据权利要求3所述的方法，其特征在于，

所述向所述用户呈现所述当前拍摄角度下的交互内容包括：

将所述交互内容叠加到所述视频图像中；

向所述用户呈现叠加所述交互内容后的视频图像。

5.根据权利要求4所述的方法，其特征在于，所述将所述交互内容叠加到所述视频图像中包括：

确定所述待交互对象在所述视频图像中的位置；

基于所述待交互对象的位置叠加所述交互内容，以使得所述交互内容与所述待交互对象保持预定的位置关系。

6.根据权利要求1所述的方法，其特征在于，所述交互内容包括固有呈现内容和问答呈现内容，所述向所述用户呈现所述当前拍摄角度下的交互内容包括：

向所述用户直接呈现所述固有呈现内容；

基于所述用户通过所述固有呈现内容所提出的问题，呈现对应于所述问题的所述问答呈现内容。

7.根据权利要求6所述的方法，其特征在于，所述固有呈现内容包括所述待交互对象的问题选项；

所述基于所述用户通过所述固有呈现内容所提出的问题，呈现对应于所述问题的所述问答呈现内容包括：

基于所述用户所选择的所述问题选项，呈现对应于所述问题的所述问答呈现内容。

8.根据权利要求2所述的方法，其特征在于，所述获取基于所述图像所确定的所述待交互对象在当前拍摄角度下的交互内容包括：

对所述图像进行场景识别，并基于识别到的场景信息确定所述待交互对象的当前拍摄角度；或者

从所述图像中识别出所述待交互对象，将识别出的所述待交互对象与不同观察角度下的所述三维模型进行匹配，并将匹配到的观察角度作为所述当前拍摄角度。

9.一种智能终端，其特征在于，所述智能终端包括：

图像获取模块，用于获取用户对当前场景内的待交互对象进行拍摄所形成的图像；

交互内容获取模块，用于获取基于所述图像所确定的所述待交互对象在当前拍摄角度下的交互内容，其中，不同拍摄角度下的所述交互内容不同；

交互内容呈现模块，用于向所述用户呈现所述当前拍摄角度下的交互内容。

10.一种电子设备，其特征在于，所述电子设备包括处理器以及与所述处理器连接的存储器，其中，所述存储器中存储有程序数据，所述处理器调取所述存储器存储的所述程序数据，以执行如权利要求1-8任意一项所述的对象的交互方法。

11.一种计算机可读存储介质，内部存储有程序指令，其特征在于，所述程序指令被执行以实现如权利要求1-8任意一项所述的对象的交互方法。