CN108320331A

CN108320331A - 一种生成用户场景的增强现实视频信息的方法与设备

Info

Publication number: CN108320331A
Application number: CN201710032139.8A
Authority: CN
Inventors: 胡晨鹏
Original assignee: Shanghai Zhangmen Science and Technology Co Ltd
Current assignee: Shanghai Zhangmen Science and Technology Co Ltd
Priority date: 2017-01-17
Filing date: 2017-01-17
Publication date: 2018-07-24
Anticipated expiration: 2037-01-17
Also published as: CN108320331B

Abstract

本申请的目的是提供一种生成用户场景的增强现实视频信息的方法与设备；本申请通过网络设备的图像匹配识别与用户设备的图像校准识别相结合的方法，突破了现有技术中由于移动设备的计算能力与存储容量受限，只能实现简单的人脸识别的局限，从而将可识别对象范围有效地扩大到用户场景中的任意场景对象，在本申请中，由于用户设备对应的任意场景对象都可以被识别和重新合成，因此本申请所生成的增强现实视频信息，相比于传统的视频应用、或是现有的增强现实的用户视频聊天应用，视觉突破将十分明显，用户所见的增强现实视频信息变化性将大大增强，从而提升了用户的交互趣味性，优化了用户的智能化视频体验。

Description

一种生成用户场景的增强现实视频信息的方法与设备

技术领域

本申请涉及通信领域，尤其涉及一种生成用户场景的增强现实视频信息的技术。

背景技术

随着增强现实技术的发展，出现了围绕人脸识别技术的美化聊天视频的移动应用产品，这些移动应用产品的功能基本是：移动设备对视频中人脸进行识别建模后，再通过增强现实技术对人的头部/脸部画面进行虚拟物件的添加以实现人脸美化。由于移动设备的计算能力与存储容量受限，移动设备只能实现简单的人脸识别，人脸识别的现实增强在交互模式上比较单调，无外乎美颜，如脸部变形，以及为用户的头部增加少数的一些虚拟首饰等，因此与传统的视频应用相比，现有的基于增强现实的用户视频聊天应用并没有明显的视觉突破，用户的的智能化视频体验并不丰富。

发明内容

本申请的目的是提供一种基于增强现实进行用户场景视频呈现的方法与设备。

根据本申请的一个方面，提供了一种在用户设备端生成用户场景的增强现实视频信息的方法，包括：

将用户场景对应的第一视频流的视频关键帧发送至对应的网络设备；

获取网络设备基于图像匹配识别确定的、与所述视频关键帧对应的场景对象相关信息；

基于所述场景对象相关信息，对用户设备采集到的第二视频流的目标帧进行图像校准识别；

基于所述图像校准识别的结果，将相应的的虚拟对象与所述第二视频流合成为增强现实视频信息。

根据本申请的又一个方面，提供了一种在网络设备端生成用户场景的增强现实视频信息的方法，包括：

获取用户设备的用户场景对应的视频关键帧，其中，所述视频关键帧是基于用户设备采集的场景对象对应的第一视频流确定的；

对所述视频关键帧进行图像匹配识别，用以确定与所述视频关键帧对应的场景对象相关信息；

将所述场景对象相关信息发送至所述用户设备。

根据本申请的另一方面，还提供了一种生成用户场景的增强现实视频信息的用户设备，包括：

视频关键帧发送装置，用于将用户场景对应的第一视频流的视频关键帧发送至对应的网络设备；

场景对象相关信息获取装置，用于获取网络设备基于图像匹配识别确定的、与所述视频关键帧对应的场景对象相关信息；

图像校准识别装置，用于基于所述场景对象相关信息，对用户设备采集到的第二视频流的目标帧进行图像校准识别；

合成装置，用于基于所述图像校准识别的结果，将相应的的虚拟对象与所述第二视频流合成为增强现实视频信息。

根据本申请的再一方面，还提供了一种生成用户场景的增强现实视频信息的网络设备，包括：

视频关键帧获取装置，用于获取用户设备的用户场景对应的视频关键帧，其中，所述视频关键帧是基于用户设备采集的场景对象对应的第一视频流确定的；

图像匹配识别装置，用于对所述视频关键帧进行图像匹配识别，用以确定与所述视频关键帧对应的场景对象相关信息；

场景对象相关信息发送装置，用于将所述场景对象相关信息发送至所述用户设备。

根据本申请的又一方面，还提供了一种生成用户场景的增强现实视频信息的***，其中所述***包括：根据本申请另一方面提供的一种基于增强现实进行用户场景视频呈现的用户设备，以及根据本申请再一方面提供的一种基于增强现实进行用户场景视频呈现的网络设备。

与现有技术相比，本申请将场景对象对应的视频关键帧发送至对应的网络设备，并且获取到用户设备基于图像匹配识别确定的、与所述视频关键帧对应的场景对象相关信息，例如，场景对象的属性信息、位置信息、表面信息等，接着，用户设备结合从网络设备获取到的场景对象相关信息，对当前用户设备实时采集到的第二视频流中的各个目标帧进行图像校准识别，并基于图像校准识别结果，将相应的虚拟对象与所述第二视频流合成为增强现实视频信息。在此，本申请通过网络设备的图像匹配识别与用户设备的图像校准识别相结合的方法，突破了现有技术中由于移动设备的计算能力与存储容量受限，只能实现简单的人脸识别的局限，从而将可识别对象范围有效地扩大到用户场景中的任意场景对象，其中，一方面，可以利用网络设备比之用户设备更强大的计算能力和存储能力，对视频关键帧进行的图像匹配识别，有效确定场景对象的属性信息、位置信息、表面信息等用于辨识场景对象的核心信息；另一方面，用户设备可以基于网络设备图像匹配识别的结果，进一步对用户设备中实时更新的视频流，如第二视频流的目标帧进行以偏差修正为目的的图像校准识别，从而可以实现对当前用户设备的每一帧图像中场景对象的精准识别；接着，基于图像校准识别的结果，将相应的虚拟对象与第二视频流合成渲染成增强现实视频信息，并可以呈现给用户。在本申请中，由于用户设备对应的任意场景对象都可以被识别和重新合成，因此本申请所呈现的增强现实视频信息，相比于传统的视频应用、或是现有的增强现实的用户视频聊天应用，视觉突破将十分明显，用户所见的增强现实视频信息变化性将大大增强，从而提升了用户的交互趣味性，优化了用户的智能化视频体验。

同时，由于用户设备与对应网络设备之间所需要传输的只是少量的视频关键帧、或是与所述视频关键帧对应的场景对象相关信息，传输数据量较小，网络延时较小，因此，对数据通信的负担较小，且不会影响用户体验。

进一步，在一种实现方式中，本申请还可以将所述增强现实视频信息提供至与所述用户设备对应的一个或多个其他用户设备。在此，本申请的基于增强现实进行的用户场景视频呈现即可以是单个用户的场景视频呈现，如单个用户录像模式；还可以是多个用户交互时的各个用户将自己的用户场景视频分享给其他用户，例如，多个用户视频聊天模式。在多用户交互模式下，基于本申请，可以提升各个用户的交互趣味性，优化了各个交互用户的智能化视频体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种生成用户场景的增强现实视频信息的***图；

图2示出根据本申请另一个方面的一种在用户设备端和网络设备端生成用户场景的增强现实视频信息的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在本申请的一种实现方式中，提供了一种生成用户场景的增强现实视频信息的用户设备；在本申请的一种实现方式中，还提供一种生成用户场景的增强现实视频信息的网络设备；进一步，在本申请的一种实现方式中，还提供了一种生成用户场景的增强现实视频信息的***，所述***包括上述一个或多个用户设备和所述网络设备。所述用户设备可以包括但不限于各种移动设备，例如智能手机、平板电脑、智能穿戴设备等。在一种实现方式中，所述用户设备包括可以进行图像视频采集、如摄像头，或进行视频采集的采集模块、如麦克风等。所述网络设备可以包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或云服务器，其中，所述云服务器是运行在分布式***中的、由一群松散耦合的计算机集组成的一个虚拟超级计算机，其用以实现简单高效、安全可靠、处理能力可弹性伸缩的计算服务。在本申请中，所述用户设备可以指代为用户设备1，所述网络设备可以指代为网络设备2(可以参考图1)。

图1示出根据本申请一个方面的一种生成用户场景的增强现实视频信息的***图。所述***包括用户设备1和网络设备2。其中，用户设备1包括视频关键帧发送装置11、场景对象相关信息获取装置12、图像校准识别装置13、合成装置14；网络设备2包括视频关键帧获取装置21、图像匹配识别装置22和场景对象相关信息发送装置23。

其中，视频关键帧发送装置11可以将用户场景对应的第一视频流的视频关键帧发送至对应的网络设备2；与之相对应，视频关键帧获取装置21可以获取用户设备1的用户场景对应的视频关键帧；接着，图像匹配识别装置22可以对所述视频关键帧进行图像匹配识别，用以确定与所述视频关键帧对应的场景对象相关信息；接着，场景对象相关信息发送装置23可以将所述场景对象相关信息发送至所述用户设备1；与之相对应，场景对象相关信息获取装置12可以获取网络设备2基于图像匹配识别确定的、与所述视频关键帧对应的场景对象相关信息；接着，图像校准识别装置13可以基于所述场景对象相关信息，对用户设备1采集到的第二视频流的目标帧进行图像校准识别；接着，合成装置14可以基于所述图像校准识别的结果，将相应的虚拟对象与所述第二视频流合成为增强现实视频信息。

在本申请中，所生成的用户场景的增强现实视频信息可以应用于单个用户的场景视频呈现，如单个用户录像模式，还可以是多个用户交互时的各个用户将自己的用户场景的增强现实视频信息分享给其他用户可见，例如，多个用户视频聊天模式。此外，其他任意可以适用用户场景的增强现实视频信息的模式都可以作为本申请的应用场景，并包含在本申请的保护范围内。

具体地，视频关键帧发送装置11可以将用户场景对应的第一视频流的视频关键帧发送至对应的网络设备。接着，与之相对应，视频关键帧获取装置21可以获取用户设备1的用户场景对应的视频关键帧。

在一种实现方式中，所述用户设备1还包括采集装置(未示出)，所述采集装置用于采集用户场景对应的第一视频流。在此，所述采集装置用于采集对应用户进行录像、或是与其他用户进行交互过程中的视频信息，即所述视频流。本申请中，所述第一视频流可以是任意时刻的一个视频流。在一种实现方式中，可以通过用户设备1上的各种类型的摄像头、或是摄像组合进行用户场景的第一视频流的采集。在此，所述第一视频流对应多个连续的帧，每一帧对应相应的图像信息，所述图像信息中的各个对象即为所述用户场景中的场景对象。在一种实现方式中，用户设备1可以实时采集所述场景对象对应的第一视频流。

接着，所述用户设备1还包括视频关键帧确定装置(未示出)，在此，所述视频关键帧确定装置可以从所述第一视频流中确定视频关键帧。在此，所述视频关键帧可以是第一视频流中的一帧或多帧，所述视频关键帧的确认标准可以基于不同的场景需要进行自定义。在一种实现方式中，当第一视频流某一帧的图像信息对比之前的帧的图像信息变化较大，例如场景对象增加、减少，又如场景对象移动明显，又如达到其他预设的图像信息变化阈值，则确定该帧为视频关键帧；接着，视频关键帧发送装置11可以将场景对象对应的视频关键帧发送至对应的网络设备2，用以在网络设备2中对视频关键帧进行图像匹配识别，在此，所述图像匹配识别的作用是为了有效确定场景对象的属性信息、位置信息、表面信息等用于辨识场景对象的核心信息。此外，对于相比于之前的帧的图像信息变化不大的帧，则可以确定为非视频关键帧，设置为不需要上传，进一步，实际操作中，对于该非视频关键帧可以选择忽视该帧、或是还可以选择在用户设备1上通过图像校准识别进行图像识别。在本申请中，由于用户设备1与对应网络设备2之间所需要传输的只是少量的视频关键帧，传输数据量较小，网络延时较小，因此，对数据通信的负担较小，且不会影响用户体验，同时网络设备2的强大计算能力和存储能力，又可以有效弥补用户设备1无法进行大量、复杂的图像识别操作的不足。

在一种实现方式中，网络设备2与一个或多个用户设备之间、相互视频交互的多个用户设备之间，都可以建立信息传输通道，所述信息传输通道可以包括信令通道与数据通道，其中信令通道负责传输数据量较小的控制指令等内容，数据通道则负责传输视频关键帧、数据量较大的视频流、虚拟对象集等内容。

在一种实现方式中，用户设备1可以实时采集所述场景对象对应的视频流。进一步，每一视频流中都可能存在视频关键帧。例如所述第一视频流、后续的第二视频流都可能存在一个或多个关键帧。进而，在一种实现方式中，可以实时进行视频关键帧的确定，并设置将所述视频关键帧发送至对应的网络设备2。例如，可以是上述对第一视频流中视频关键帧的确定和上传；又如，还可以是对后续第二视频流进行视频关键帧的确定和上传。

接着，图像匹配识别装置22可以对所述视频关键帧进行图像匹配识别，用以确定与所述视频关键帧对应的场景对象相关信息；接着，场景对象相关信息发送装置23可以将所述场景对象相关信息发送至所述用户设备1；与之相对应，场景对象相关信息获取装置12可以获取网络设备2基于图像匹配识别确定的、与所述视频关键帧对应的场景对象相关信息。在一种实现方式中，可以通过网络设备2中预置的、或可调用的场景对象数据库，或是网络设备2中预置的通过机器学习确定的大量的已训练的图像识别模型，对所述视频关键帧进行图像匹配识别，识别出所述视频关键帧的一个或多个场景对象，为该一个或多个场景对象匹配对应的场景对象相关信息。

在一种实现方式中，所述场景对象相关信息包括以下至少任一项：一是场景对象的属性信息，二是场景对象的位置信息，三是场景对象的表面信息。例如，需要将视频关键帧中的桌子图像识别成为桌子物体，并且识别出桌子在图像中的位置坐标，以及桌子表面的方向，例如桌子的上表面方向，以便于后续在桌子上放置虚拟物体，并提供交互。

具体地，在一种实现方式中，所述场景对象的属性信息可以包括所述场景对象是什么，在此，可以实现模糊匹配：如场景对象是建筑、家具、植物等；进一步，还可以实现更精确地匹配，如所述场景对象是塔楼、桌子、树等。在一种实现方式中，所述场景对象的位置信息可以包括所述场景对象在所述视频关键帧中的图像位置信息，可以包括坐标信息，例如塔楼的轮廓坐标信息、桌子的位置坐标等。在一种实现方式中，所述场景对象的表面信息可以包括物体的表面轮廓信息，在此，可以设置需要识别的场景对象的表面轮廓，例如，需要识别桌子的上表面用以后续在桌面上添加虚拟对象，因此，所识别的表面信息主要包括桌子上表面信息。

在此，本领域技术人员应该能够理解，上述场景对象的属性信息、场景对象的位置信息、场景对象的表面信息仅为举例，现有或今后可能出现的场景对象相关信息，如能够适用于本申请，也应该包含在本申请的保护范围内，并以引用的形式包含于此。

接着，图像校准识别装置13可以基于所述场景对象相关信息，对用户设备1采集到的第二视频流的目标帧进行图像校准识别。在此，所述图像校准识别是对网络设备2的图像匹配识别的一种补充，由于所述图像校准识别只是对视频关键帧进行的图像信息识别，但是对于用户设备1来说，在用户视频过程中，例如，用户录像、或是用户与其他用户视频聊天等交互过程中，采集装置，如摄像头，会实时采集到视频流，即会实时采集到连续的多帧，每一帧的图片信息比起之前的帧、如上一帧都可能存在变化，这些变化有些可能很细微，并不需要复杂的图像匹配操作也可以识别，此时，即可以配合采用所述图像校准识别。在此，可以基于图像匹配识别所识别出的、所述视频关键帧对应的所述场景对象相关信息，如场景对象的属性信息、位置信息、表面信息等，对用户设备1当前采集到的新的视频流、即第二视频流的目标帧进行图像校准识别，该图像校准识别的目的是确定所述目标帧的场景对象相关信息，特别是识别其中场景对象的位置信息、表面信息等微小变化信息，从而可以基于识别结果确定的所述目标帧的场景对象相关信息，进行虚拟对象的叠加合成，将所述第二视频流渲出增强现实效果。在一种实现方式中，所述第二视频流中的每一帧都可以设置为所述目标帧，或者，还可以将第二视频流中的某一个或几个帧设置为所述目标帧。

接着，合成装置14可以基于所述图像校准识别的结果，将相应的虚拟对象与所述第二视频流合成为增强现实视频信息。在一种实现方式中，可以将第二视频中进行过图像校准识别的一个或多个目标帧分别与对应的虚拟对象进行合成。例如，将一个目标帧的图像信息与虚拟对象对应的图像信息、或模型进行叠加，从而合成与所述目标帧的图像信息对应的增强现实图像信息。所述第二视频流对应的增强现实视频信息中可以包括一帧或多帧增强现实图像信息，例如，视频流中有连续多帧为对应的增强现实图像信息。在一种实现方式中，可以用所述增强现实图像信息替代所述第二视频流的目标帧的图像信息。此外，在一种实现方式中，所述虚拟对象可以是从网络设备1、或其他第三方设备中获取到的虚拟对象集，如各种虚拟物品图像或模型等；在另一种实现方式中，所述虚拟对象还可以是从用户设备1中提取的，例如，所述用户设备1的图片应用中的图片，如手机相册中的照片。此外，在一种实现方式中，所述对应的虚拟对象可以是一个单独的虚拟对象，还可以是多个虚拟对象的组合，例如，从虚拟对象集中确定的虚拟相框与用户手机相册中的照片组合成相框照片。

在此，本申请将场景对象对应的视频关键帧发送至对应的网络设备2，并且获取到用户设备1基于图像匹配识别确定的、与所述视频关键帧对应的场景对象相关信息，例如，场景对象的属性信息、位置信息、表面信息等，接着，用户设备1结合从网络设备2获取到的场景对象相关信息，对当前用户设备1实时采集到的第二视频流中的各个目标帧进行图像校准识别，并基于图像校准识别结果，将相应的虚拟对象与所述第二视频流合成为增强现实视频信息。在此，本申请通过网络设备2的图像匹配识别与用户设备1的图像校准识别相结合的方法，突破了现有技术中由于移动设备的计算能力与存储容量受限，只能实现简单的人脸识别的局限，从而将可识别对象范围有效地扩大到用户场景中的任意场景对象，其中，一方面，可以利用网络设备2比之用户设备1更强大的计算能力和存储能力，对视频关键帧进行的图像匹配识别，有效确定场景对象的属性信息、位置信息、表面信息等用于辨识场景对象的核心信息；另一方面，用户设备1可以基于网络设备2图像匹配识别的结果，进一步对用户设备1中实时更新的视频流，如第二视频流的目标帧进行以偏差修正为目的的图像校准识别，从而可以实现对当前用户设备1的每一帧图像中场景对象的精准识别；接着，基于图像校准识别的结果，将相应的虚拟对象与第二视频流合成渲染成增强现实视频信息，并可以呈现给用户。在本申请中，由于用户设备1对应的任意场景对象都可以被识别和重新合成，因此本申请所呈现的增强现实视频信息，相比于传统的视频应用、或是现有的增强现实的用户视频聊天应用，视觉突破将十分明显，用户所见的增强现实视频信息变化性将大大增强，从而提升了用户的交互趣味性，优化了用户的智能化视频体验。

同时，由于用户设备1与对应网络设备2之间所需要传输的只是少量的视频关键帧、或是与所述视频关键帧对应的场景对象相关信息，传输数据量较小，网络延时较小，因此，对数据通信的负担较小，且不会影响用户体验。

在一种实现方式中，所述图像校准识别装置13包括第一图像校准识别单元(未示出)、第一确定单元(未示出)。其中，第一图像校准识别单元可以基于所述场景对象相关信息，对用户设备1采集到的第二视频流的第一目标帧进行图像校准识别；第一确定单元可以基于对所述第一目标帧进行的图像校准识别，确定所述第一目标帧对应的场景对象相关信息。

具体地，在本实现方式中，第二视频流中的目标帧、如第一目标帧可以参照第一视频流的视频关键帧的场景对象相关信息进行所述图像校准识别。在此，首先将第一目标帧的图像信息与所述视频关键帧的图像信息进行比对，确定出两者的图像信息差异，如进行场景对象的轮廓比较、场景对象的位置比较等，进而基于已知的视频关键帧的场景对象相关信息，如场景对象的属性信息、位置信息、表面信息等，计算出第一目标帧所对应的各个具体的场景对象相关信息的数据，例如，第一目标帧相比于视频关键帧，其中的一个场景对象桌子的图像位置发生了移动，则基于对比计算出的上述两帧中所识别出的属性信息为桌子的对象的位置偏移，结合已知的视频关键帧中桌子的位置坐标，即可以确定出所述第一目标帧中桌子的实际位置坐标。在一种实现方式中，所述第二视频流中的任何目标帧都可以是所述第一目标帧，从而一或多个第一目标帧都可以基于参照第一视频流的视频关键帧的场景对象相关信息进行所述图像校准识别。

接着，所述合成装置14可以基于所述第一目标帧对应的场景对象相关信息，将相应的的虚拟对象与所述第一目标帧合成为第一增强现实图像信息；接着，基于所述第一增强现实图像信息生成增强现实视频信息。在一种实现方式中，所述增强现实视频信息所包含的图像信息可以是全部为与第一增强现实图像信息相似或相同的增强现实图像信息，还可以是包含了部分没有增强现实效果的普通图像信息。

进一步，在一种实现方式中，所述图像校准识别装置13还包括第二图像校准识别单元(未示出)、第二确定单元(未示出)。其中，第二图像校准识别单元可以基于所述第一目标帧对应的场景对象相关信息，对用户设备1采集到的第二视频流的第二目标帧进行图像校准识别；接着，第二确定单元可以基于对所述第二目标帧进行的图像校准识别，确定所述第二目标帧对应的场景对象相关信息。

具体地，在本实现方式中，第二视频流中的目标帧、如第二目标帧可以参照第一目标帧的场景对象相关信息进行所述图像校准识别。在一种实现方式中，所述第二目标帧可以是顺序在所述第一目标帧之后的第二视频流中的某一帧。此时，相比于第一视频流的视频关键帧、所述第一目标帧的出现时间，更接近与所述第二目标帧，则可以合理的理解，所述第一目标帧的图像信息与所述第二目标帧中的图像信息近似度更高的概率相对较高，进而，在本实现方式中，可以选择所述第一目标帧作为对所述第二目标帧进行图像校准识别的参照图像，即基于所述第一目标帧对应的场景对象相关信息，对所述第二目标帧进行图像校准识别。

进一步，在一种实现方式中，若用户设备1在所述第一视频流的视频关键帧之后，又获取了一个新的视频关键帧，且该新的视频关键帧出现的顺序在所述第一目标帧之后，则相比于所述第一目标帧，所述新的视频关键帧的目标帧的图像信息与所述第二目标帧中的图像信息近似度更高的概率相对较高，此时也可以优选新的视频关键帧作为识别所述第二目标帧的图像信息的参照。

接着，所述合成装置14可以基于所述第二目标帧对应的场景对象相关信息，将相应的的虚拟对象与所述第二目标帧合成为第二增强现实图像信息；接着，基于所述第一增强现实图像信息和所述第二增强现实图像信息生成增强现实视频信息。在一种实现方式中，所述增强现实视频信息所包含的图像信息可以是全部为与第一增强现实图像信息、或第二增强现实图像信息相似或相同的增强现实图像信息，还可以是包含了部分没有增强现实效果的普通图像信息。

在一种实现方式中，所述用户设备1还包括呈现装置(未示出)；所述呈现装置可以呈现第二视频流对应的所述增强现实视频信息。

具体地，用户设备1可以在其对应的设备显示屏上实时播放所述增强现实视频信息，例如，在用户设备1，如手机进行摄影录像过程中，利用本申请对实时采集的视频流进行增强现实效果处理，并在手机上实时呈现相应的增强现实视频信息；又如，用户通过用户设备1，如手机与其他用户进行视频聊天时，该用户手机上可以呈现增强现象效果的视频画面，进一步，与该用户交互的其他用户的手机上也可以观看到该增强现实视频信息。

在一种实现方式中，所述用户设备1还包括用户交互装置(未示出)，所述用户交互装置可以将所述增强现实视频信息提供至与所述用户设备1对应的一个或多个其他用户设备。在本申请中，基于增强现实进行的用户场景视频呈现不仅可以是单个用户的场景视频呈现，如单个用户录像模式，还可以是多个用户交互时的各个用户将自己的用户场景视频分享给其他用户可见，例如，多个用户视频聊天模式。在一种实现方式中，所述增强现实视频信息，例如，增强现实视频流，可以由所述用户设备1发送至对应的网络设备，如所述网络设备1，再由所述网络设备1将该增强现实视频信息转发至对应的其他用户设备。在另一种实现方式中，所述用户设备1与其他用户设备也可以直接交互各自的增强现实视频信息，而不需要网络设备1的中转。

在一种实现方式中，所述用户设备1还包括场景互动装置(未示出)，所述场景互动装置可以获取用户对虚拟对象的操作指令信息；并基于所述操作指令信息，执行相应操作。例如，用户可以通过对录像场景、或对视频聊天场景中的虚拟对象进行触摸或者语音等方式的控制录像场景、或聊天场景中的虚拟对象，如，可以在真实环境中的桌子表面上放置一个虚拟的宠物，录像的用户、或参与聊天的用户可以使用触摸、语音等方式控制虚拟宠物进行一系列的动作。在一种实现方式中，与所述增强现实视频信息中的虚拟对象的互动可以是所述用户设备1对应的用户执行的，在另一种实现方式中，若是该用户与其他用户进行交互，如多用户视频聊天，则其他用户基于交互的增强现实视频信息也可以实现与所述虚拟对象的互动。

进一步，在一种实现方式中，所述场景互动装置包括以下至少任一项：第一场景互动单元(未示出)，所述第一场景互动单元可以获取用户的触屏操作信息，并基于所述触屏操作信息确定用户对虚拟对象的操作指令信息；例如，若虚拟对象是宠物小狗，用户可以通过点击屏幕的预设区域，如小狗所在的区域发出操作指令信息，从而指令视频中的小狗进行相应的反应，例如虚拟小狗可以基于用户的点击屏幕操作摇尾巴。又如，若是虚拟对象是用户手机中的照片集合，则可以通过在触屏上的滑动操作进行照片间的切换。第二场景互动单元(未示出)，所述第二场景互动单元可以通过用户设备摄像装置获取用户的手势信息，并基于所述手势信息确定用户对虚拟对象的操作指令信息，例如，用户通过摄像头拍摄手部动作，丛中提取手势信息，如拍打、点击等，进而基于预设的手势信息与操作指令信息的对应关系，确定所述操作指令信息。第三场景互动单元(未示出)，所述第三场景互动单元可以获取用户的语音信息，并基于所述语音信息确定用户对虚拟对象的操作指令信息，在此，可以通过用户设备1内置的麦克风采集到用户的语音信息，进而基于预设的语音信息与操作指令信息的对应关系，确定所述操作指令信息。在此，本申请可以通过用户与所述增强现实视频信息中的虚拟对象的互动，进一步丰富用户的交互体验。

在一种实现方式中，所述用户设备1还包括虚拟对象集获取装置(未示出)和目标虚拟对象确定装置(未示出)，所述网络设备2还包括虚拟对象集发送装置(未示出)。具体地，所述虚拟对象集发送装置可以将与所述视频关键帧对应的场景对象相关信息相匹配的虚拟对象集发送至所述用户设备1，对应地由所述虚拟对象集获取装置获取。例如，网络设备2可以基于确定出的视频关键帧中的场景对象的属性信息，筛选出与之匹配的虚拟对象集，如若场景对象是一棵树，则可以基于用户场景需要的判断，筛选出包含各种虚拟小动物的虚拟对象集。又如，还可以结合场景对象的位置信息、表面信息等场景对象相关信息，来设置虚拟对象的大小等筛选参数。接着，所述目标虚拟对象确定装置可以从所述虚拟对象集中确定出一个或多个目标虚拟对象，从而，所述合成装置14可以基于所述图像校准识别的结果，将所述目标虚拟对象与所述第二视频流合成为增强现实视频信息。在此，本实现方式通过为用户设备1匹配对应的虚拟对象集，可以丰富增强现实视频信息的合成渲染效果，同时，可以优化用户的智能化体验。

图2示出根据本申请另一个方面的一种在用户设备端和网络设备端生成用户场景的增强现实视频信息的方法流程图。所述方法包括步骤S301、步骤S302、步骤S303、步骤S304、步骤S401、步骤S402和步骤S403。

其中，在步骤S301中，所述用户设备1可以将用户场景对应的第一视频流的视频关键帧发送至对应的网络设备2；与之相对应，在步骤S401中，所述网络设备2可以获取用户设备1的用户场景对应的视频关键帧；接着，在步骤S402中，所述网络设备2可以对所述视频关键帧进行图像匹配识别，用以确定与所述视频关键帧对应的场景对象相关信息；接着，在步骤S403中，所述网络设备2可以将所述场景对象相关信息发送至所述用户设备1；与之相对应，在步骤S302中，所述用户设备1可以获取网络设备2基于图像匹配识别确定的、与所述视频关键帧对应的场景对象相关信息；接着，在步骤S303中，所述用户设备1可以基于所述场景对象相关信息，对用户设备1采集到的第二视频流的目标帧进行图像校准识别；接着，在步骤S304中，所述用户设备1可以基于所述图像校准识别的结果，将相应的虚拟对象与所述第二视频流合成为增强现实视频信息。

具体地，在步骤S301中，所述用户设备1可以将用户场景对应的第一视频流的视频关键帧发送至对应的网络设备。接着，与之相对应，在步骤S401中，所述网络设备2可以获取用户设备1的用户场景对应的视频关键帧。

在一种实现方式中，所述方法还包括步骤S306(未示出)，在步骤S306中，所述用户设备1可以采集用户场景对应的第一视频流。在此，所述采集装置用于采集对应用户进行录像、或是与其他用户进行交互过程中的视频信息，即所述视频流。本申请中，所述第一视频流可以是任意时刻的一个视频流。在一种实现方式中，可以通过用户设备1上的各种类型的摄像头、或是摄像组合进行用户场景的第一视频流的采集。在此，所述视频流对应多个连续的帧，每一帧对应相应的图像信息，所述图像信息中的各个对象即为所述用户场景中的场景对象。在一种实现方式中，用户设备1可以实时采集所述场景对象对应的第一视频流。

接着，所述方法还包括步骤S307(未示出)，在此，在步骤S307中，所述用户设备1可以从所述第一视频流中确定视频关键帧。在此，所述视频关键帧可以是第一视频流中的一帧或多帧，所述视频关键帧的确认标准可以基于不同的场景需要进行自定义。在一种实现方式中，当第一视频流某一帧的图像信息对比之前的帧的图像信息变化较大，例如场景对象增加、减少，又如场景对象移动明显，又如达到其他预设的图像信息变化阈值，则确定该帧为视频关键帧；接着，在步骤S301中，所述用户设备1可以将场景对象对应的视频关键帧发送至对应的网络设备2，用以在网络设备2中对视频关键帧进行图像匹配识别，在此，所述图像匹配识别的作用是为了有效确定场景对象的属性信息、位置信息、表面信息等用于辨识场景对象的核心信息。此外，对于相比于之前的帧的图像信息变化不大的帧，则可以确定为非视频关键帧，设置为不需要上传，进一步，实际操作中，对于该非视频关键帧可以选择忽视该帧、或是还可以选择在用户设备1上通过图像校准识别进行图像识别。在本申请中，由于用户设备1与对应网络设备2之间所需要传输的只是少量的视频关键帧，传输数据量较小，网络延时较小，因此，对数据通信的负担较小，且不会影响用户体验，同时网络设备2的强大计算能力和存储能力，又可以有效弥补用户设备1无法进行大量、复杂的图像识别操作的不足。

接着，在步骤S402中，所述网络设备2可以对所述视频关键帧进行图像匹配识别，用以确定与所述视频关键帧对应的场景对象相关信息；接着，在步骤S403中，所述网络设备2可以将所述场景对象相关信息发送至所述用户设备1；与之相对应，在步骤S302中，所述用户设备1可以获取网络设备2基于图像匹配识别确定的、与所述视频关键帧对应的场景对象相关信息。在一种实现方式中，可以通过网络设备2中预置的、或可调用的场景对象数据库，或是网络设备2中预置的通过机器学习确定的大量的已训练的图像识别模型，对所述视频关键帧进行图像匹配识别，识别出所述视频关键帧的一个或多个场景对象，为该一个或多个场景对象匹配对应的场景对象相关信息。

接着，在步骤S303中，所述用户设备1可以基于所述场景对象相关信息，对用户设备1采集到的第二视频流的目标帧进行图像校准识别。在此，所述图像校准识别是对网络设备2的图像匹配识别的一种补充，由于所述图像校准识别只是对视频关键帧进行的图像信息识别，但是对于用户设备1来说，在用户视频过程中，例如，用户录像、或是用户与其他用户视频聊天等交互过程中，采集装置，如摄像头，会实时采集到视频流，即会实时采集到连续的多帧，每一帧的图片信息比起之前的帧、如上一帧都可能存在变化，这些变化有些可能很细微，并不需要复杂的图像匹配操作也可以识别，此时，即可以配合采用所述图像校准识别。在此，可以基于图像匹配识别所识别出的、所述视频关键帧对应的所述场景对象相关信息，如场景对象的属性信息、位置信息、表面信息等，对用户设备1当前采集到的新的视频流、即第二视频流的目标帧进行图像校准识别，该图像校准识别的目的是确定所述目标帧的场景对象相关信息，特别是识别其中场景对象的位置信息、表面信息等微小变化信息，从而可以基于识别结果确定的所述目标帧的场景对象相关信息，进行虚拟对象的叠加合成，将所述第二视频流渲出增强现实效果。在一种实现方式中，所述第二视频流中的每一帧都可以设置为所述目标帧，或者，还可以将第二视频流中的某一个或几个帧设置为所述目标帧。

接着，在步骤S304中，所述用户设备1可以基于所述图像校准识别的结果，将相应的虚拟对象与所述第二视频流合成为增强现实视频信息。在一种实现方式中，可以将第二视频中进行过图像校准识别的一个或多个目标帧分别与对应的虚拟对象进行合成。例如，将一个目标帧的图像信息与虚拟对象对应的图像信息、或模型进行叠加，从而合成与所述目标帧的图像信息对应的增强现实图像信息。所述第二视频流对应的增强现实视频信息中可以包括一帧或多帧增强现实图像信息，例如，视频流中有连续多帧为对应的增强现实图像信息。在一种实现方式中，可以用所述增强现实图像信息替代所述第二视频流的目标帧的图像信息。此外，在一种实现方式中，所述虚拟对象可以是从网络设备1、或其他第三方设备中获取到的虚拟对象集，如各种虚拟物品图像或模型等；在另一种实现方式中，所述虚拟对象还可以是从用户设备1中提取的，例如，所述用户设备1的图片应用中的图片，如手机相册中的照片。此外，在一种实现方式中，所述对应的虚拟对象可以是一个单独的虚拟对象，还可以是多个虚拟对象的组合，例如，从虚拟对象集中确定的虚拟相框与用户手机相册中的照片组合成相框照片。

在一种实现方式中，所述步骤S303包括步骤S3031(未示出)、步骤S3032(未示出)。其中，在步骤S3031中，所述用户设备1可以基于所述场景对象相关信息，对用户设备1采集到的第二视频流的第一目标帧进行图像校准识别；在步骤S3032中，所述用户设备1可以基于对所述第一目标帧进行的图像校准识别，确定所述第一目标帧对应的场景对象相关信息。

接着，在步骤S304中，所述用户设备1可以基于所述第一目标帧对应的场景对象相关信息，将相应的的虚拟对象与所述第一目标帧合成为第一增强现实图像信息；接着，基于所述第一增强现实图像信息生成增强现实视频信息。在一种实现方式中，所述增强现实视频信息所包含的图像信息可以是全部为与第一增强现实图像信息相似或相同的增强现实图像信息，还可以是包含了部分没有增强现实效果的普通图像信息。

进一步，在一种实现方式中，所述步骤S303还包括步骤S3033(未示出)、步骤S3034(未示出)。其中，在步骤S3033中，所述用户设备1可以基于所述第一目标帧对应的场景对象相关信息，对用户设备1采集到的第二视频流的第二目标帧进行图像校准识别；接着，在步骤S3034中，所述用户设备1可以基于对所述第二目标帧进行的图像校准识别，确定所述第二目标帧对应的场景对象相关信息。

接着，在步骤S304中，所述用户设备1可以基于所述第二目标帧对应的场景对象相关信息，将相应的的虚拟对象与所述第二目标帧合成为第二增强现实图像信息；接着，基于所述第一增强现实图像信息和所述第二增强现实图像信息生成增强现实视频信息。在一种实现方式中，所述增强现实视频信息所包含的图像信息可以是全部为与第一增强现实图像信息、或第二增强现实图像信息相似或相同的增强现实图像信息，还可以是包含了部分没有增强现实效果的普通图像信息。

在一种实现方式中，所述方法还包括步骤S305(未示出)；在步骤S305中，用户设备1可以呈现第二视频流对应的所述增强现实视频信息。

在一种实现方式中，所述方法还包括S308(未示出)，在步骤S308中，所述用户设备1可以将所述增强现实视频信息提供至与所述用户设备1对应的一个或多个其他用户设备。在本申请中，基于增强现实进行的用户场景视频呈现不仅可以是单个用户的场景视频呈现，如单个用户录像模式，还可以是多个用户交互时的各个用户将自己的用户场景视频分享给其他用户可见，例如，多个用户视频聊天模式。在一种实现方式中，所述增强现实视频信息，例如，增强现实视频流，可以由所述用户设备1发送至对应的网络设备，如所述网络设备1，再由所述网络设备1将该增强现实视频信息转发至对应的其他用户设备。在另一种实现方式中，所述用户设备1与其他用户设备也可以直接交互各自的增强现实视频信息，而不需要网络设备1的中转。

在一种实现方式中，所述方法还包括S309(未示出)，在步骤S309中，所述用户设备1可以获取用户对虚拟对象的操作指令信息；并基于所述操作指令信息，执行相应操作。例如，用户可以通过对录像场景、或对视频聊天场景中的虚拟对象进行触摸或者语音等方式的控制录像场景、或聊天场景中的虚拟对象，如，可以在真实环境中的桌子表面上放置一个虚拟的宠物，录像的用户、或参与聊天的用户可以使用触摸、语音等方式控制虚拟宠物进行一系列的动作。在一种实现方式中，与所述增强现实视频信息中的虚拟对象的互动可以是所述用户设备1对应的用户执行的，在另一种实现方式中，若是该用户与其他用户进行交互，如多用户视频聊天，则其他用户基于交互的增强现实视频信息也可以实现与所述虚拟对象的互动。

进一步，在一种实现方式中，所述步骤S309还包括步骤S3091(未示出)、步骤S3092(未示出)、步骤S3093(未示出)中至少任一项：在步骤S3091中，所述用户设备1可以获取用户的触屏操作信息，并基于所述触屏操作信息确定用户对虚拟对象的操作指令信息；例如，若虚拟对象是宠物小狗，用户可以通过点击屏幕的预设区域，如小狗所在的区域发出操作指令信息，从而指令视频中的小狗进行相应的反应，例如虚拟小狗可以基于用户的点击屏幕操作摇尾巴。又如，若是虚拟对象是用户手机中的照片集合，则可以通过在触屏上的滑动操作进行照片间的切换。在步骤S3092中，所述用户设备1可以通过用户设备摄像装置获取用户的手势信息，并基于所述手势信息确定用户对虚拟对象的操作指令信息，例如，用户通过摄像头拍摄手部动作，丛中提取手势信息，如拍打、点击等，进而基于预设的手势信息与操作指令信息的对应关系，确定所述操作指令信息。在步骤S3093中，所述用户设备1可以获取用户的语音信息，并基于所述语音信息确定用户对虚拟对象的操作指令信息，在此，可以通过用户设备1内置的麦克风采集到用户的语音信息，进而基于预设的语音信息与操作指令信息的对应关系，确定所述操作指令信息。在此，本申请可以通过用户与所述增强现实视频信息中的虚拟对象的互动，进一步丰富用户的交互体验。

在一种实现方式中，所述方法还包括步骤S310(未示出)、步骤S311(未示出)和步骤S404(未示出)。

具体地，在步骤S404中，网络设备2可以将与所述视频关键帧对应的场景对象相关信息相匹配的虚拟对象集发送至所述用户设备1，对应地在步骤S310中，由用户设备1获取。例如，网络设备2可以基于确定出的视频关键帧中的场景对象的属性信息，筛选出与之匹配的虚拟对象集，如若场景对象是一棵树，则可以基于用户场景需要的判断，筛选出包含各种虚拟小动物的虚拟对象集。又如，还可以结合场景对象的位置信息、表面信息等场景对象相关信息，来设置虚拟对象的大小等筛选参数。接着，在步骤S311中，由用户设备1可以从所述虚拟对象集中确定出一个或多个目标虚拟对象，从而，在步骤S304，由用户设备1可以基于所述图像校准识别的结果，将所述目标虚拟对象与所述第二视频流合成为增强现实视频信息。在此，本实现方式通过为用户设备1匹配对应的虚拟对象集，可以丰富增强现实视频信息的合成渲染效果，同时，可以优化用户的智能化体验。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种在用户设备端生成用户场景的增强现实视频信息的方法，其中，所述方法包括：

基于所述图像校准识别的结果，将相应的虚拟对象与所述第二视频流合成为增强现实视频信息。

2.根据权利要求1所述的方法，其中，所述方法还包括：

采集用户场景对应的第一视频流；

从所述第一视频流中确定视频关键帧；

其中，所述将用户场景对应的第一视频流的视频关键帧发送至对应的网络设备包括：

将所述视频关键帧发送至对应的网络设备。

3.根据权利要求1或2所述的方法，其中，所述基于所述场景对象相关信息，对用户设备采集到的第二视频流的目标帧进行图像校准识别包括：

基于所述场景对象相关信息，对用户设备采集到的第二视频流的第一目标帧进行图像校准识别；

基于对所述第一目标帧进行的图像校准识别，确定所述第一目标帧对应的场景对象相关信息；

其中，所述基于所述图像校准识别的结果，将相应的虚拟对象与所述第二视频流合成为增强现实视频信息包括：

基于所述第一目标帧对应的场景对象相关信息，将相应的的虚拟对象与所述第一目标帧合成为第一增强现实图像信息；

基于所述第一增强现实图像信息生成增强现实视频信息。

4.根据权利要求3所述的方法，其中，所述基于所述场景对象相关信息，对用户设备采集到的第二视频流的目标帧进行图像校准识别还包括：

基于所述第一目标帧对应的场景对象相关信息，对用户设备采集到的第二视频流的第二目标帧进行图像校准识别；

基于对所述第二目标帧进行的图像校准识别，确定所述第二目标帧对应的场景对象相关信息；

其中，所述基于所述图像校准识别的结果，将相应的虚拟对象与所述第二视频流合成为增强现实视频信息还包括：

基于所述第二目标帧对应的场景对象相关信息，将相应的的虚拟对象与所述第二目标帧合成为第二增强现实图像信息；

基于所述第一增强现实图像信息和所述第二增强现实图像信息生成增强现实视频信息。

5.根据权利要求1至4中任一项所述的方法，其中，所述方法还包括：

呈现第二视频流对应的所述增强现实视频信息。

6.根据权利要求1至5中任一项所述的方法，其中，所述方法还包括：

将所述增强现实视频信息提供至与所述用户设备对应的一个或多个其他用户设备。

7.根据权利要求1至6中任一项所述的方法，其中，所述方法还包括：

获取用户对虚拟对象的操作指令信息，并基于所述操作指令信息，执行相应操作。

8.根据权利要求7所述的方法，其中，所述获取用户对虚拟对象的操作指令信息，并基于所述操作指令信息，执行相应操作包括以下至少任一项：

获取用户的触屏操作信息，基于所述触屏操作信息确定用户对虚拟对象的操作指令信息；

通过用户设备摄像装置获取用户的手势信息，基于所述手势信息确定用户对虚拟对象的操作指令信息；

获取用户的语音信息，并基于所述语音信息确定用户对虚拟对象的操作指令信息。

9.根据权利要求1所述的方法，其中，所述方法还包括：

获取与所述视频关键帧对应的场景对象相关信息相匹配的虚拟对象集；

从所述虚拟对象集中确定目标虚拟对象；

基于所述图像校准识别的结果，将所述目标虚拟对象与所述第二视频流合成为增强现实视频信息。

10.一种在网络设备端生成用户场景的增强现实视频信息的方法，其中，所述方法包括：

获取用户设备的用户场景对应的视频关键帧，其中，所述视频关键帧是基于用户设备采集的用户场景对应的第一视频流确定的；

将所述场景对象相关信息发送至所述用户设备。

11.根据权利要求10所述的方法，其中，所述方法还包括：

将与所述视频关键帧对应的场景对象相关信息相匹配的虚拟对象集发送至所述用户设备。

12.一种生成用户场景的增强现实视频信息的用户设备，其中，所述设备包括：

合成装置，用于基于所述图像校准识别的结果，将相应的虚拟对象与所述第二视频流合成为增强现实视频信息。

13.根据权利要求12所述的设备，其中，所述设备还包括：

采集装置，用于采集用户场景对应的第一视频流；

视频关键帧确定装置，用于从所述第一视频流中确定视频关键帧；

其中，所述视频关键帧发送装置用于：

将场景对象对应的所述视频关键帧发送至对应的网络设备。

14.根据权利要求12或13所述的设备，其中，所述图像校准识别装置包括：

第一图像校准识别单元，用于基于所述场景对象相关信息，对用户设备采集到的第二视频流的第一目标帧进行图像校准识别；

第一确定单元，用于基于对所述第一目标帧进行的图像校准识别，确定所述第一目标帧对应的场景对象相关信息；

其中，所述合成装置用于：

基于所述第一增强现实图像信息生成增强现实视频信息。

15.根据权利要求14所述的设备，其中，所述图像校准识别装置还包括：

第二图像校准识别单元，用于基于所述第一目标帧对应的场景对象相关信息，对用户设备采集到的第二视频流的第二目标帧进行图像校准识别；

第二确定单元，用于基于对所述第二目标帧进行的图像校准识别，确定所述第二目标帧对应的场景对象相关信息；

其中，所述合成装置还用于：

16.根据权利要求12至15中任一项所述的设备，其中，所述设备还包括：

呈现装置，用于呈现第二视频流对应的所述增强现实视频信息。

17.根据权利要求12至16中任一项所述的设备，其中，所述设备还包括：

用户交互装置，用于将所述增强现实视频信息提供至与所述用户设备对应的一个或多个其他用户设备。

18.根据权利要求12至17中任一项所述的设备，其中，所述设备还包括：

场景互动装置，用于获取用户对虚拟对象的操作指令信息；并基于所述操作指令信息，执行相应操作。

19.根据权利要求18所述的设备，其中，所述场景互动装置包括以下至少任一项：

第一场景互动单元，用于获取用户的触屏操作信息，并基于所述触屏操作信息确定用户对虚拟对象的操作指令信息；

第二场景互动单元，用于通过用户设备摄像装置获取用户的手势信息，并基于所述手势信息确定用户对虚拟对象的操作指令信息；

第三场景互动单元，用于获取用户的语音信息，并基于所述语音信息确定用户对虚拟对象的操作指令信息。

20.根据权利要求12所述的设备，其中，所述设备还包括：

虚拟对象集获取装置，用于获取与所述视频关键帧对应的场景对象相关信息相匹配的虚拟对象集；

目标虚拟对象确定装置，用于从所述虚拟对象集中确定目标虚拟对象；

其中，所述合成装置用于：

21.一种生成用户场景的增强现实视频信息的网络设备，其中，所述设备包括：

视频关键帧获取装置，用于获取用户设备的用户场景对应的视频关键帧，其中，所述视频关键帧是基于用户设备采集的用户场景对应的第一视频流确定的；

22.根据权利要求21所述的设备，其中，所述设备还包括：

虚拟对象集发送装置，用于将与所述视频关键帧对应的场景对象相关信息相匹配的虚拟对象集发送至所述用户设备。

23.一种生成用户场景的增强现实视频信息的***，其中，所述***包括：权利要求12至20中任一项所述的用户设备，及权利要求21或22中所述的网络设备。