CN117136381A

CN117136381A - 整个身体分割

Info

Publication number: CN117136381A
Application number: CN202280016597.1A
Authority: CN
Inventors: 贾勒·杜多维奇; 皮莱格·哈雷尔; 谢嘉豪; 谢尔盖·科罗廖夫; 马阿扬·舒维
Original assignee: Snap Inc
Current assignee: Snap Inc
Priority date: 2021-02-24
Filing date: 2022-02-21
Publication date: 2023-11-28
Also published as: US20220270261A1; EP4298597A1; KR20230147724A; WO2022183175A1; US11790531B2; US20230419497A1

Abstract

公开了用于执行以下操作的方法和***，这些操作包括：接收单目图像，该单目图像包括对用户的整个身体的描绘；基于单目图像，生成对用户的整个身体的分割；访问包括在单目图像之前接收到的多个单目图像的视频馈送；使用视频馈送，对基于单目图像生成的对整个身体的分割进行平滑，以提供经平滑的分割；以及基于经平滑的分割，对单目图像应用一个或更多个视觉效果。

Description

整个身体分割

优先权申明

本申请要求于2021年2月24日提交的序列号为17/249,239的美国专利申请的优先权的权益，该美国专利申请的全部内容通过引用并入本文中。

技术领域

本公开内容总体上涉及使用消息应用提供增强现实体验。

背景技术

增强现实(AR)是对虚拟环境的修改。例如，在虚拟现实(VR)中，用户完全沉浸在虚拟世界中，而在AR中，用户沉浸在将虚拟对象与现实世界组合或将虚拟对象叠加在现实世界上的世界中。AR***旨在生成并呈现与现实世界环境真实地交互并且彼此之间进行交互的虚拟对象。AR应用的示例可以包括单人或多人视频游戏、即时消息***等。

附图说明

在不一定按比例绘制的附图中，在不同的视图中，相似的附图标记可以描述相似的部件。为了容易地识别对任何特定元件或动作的讨论，附图标记中的一个或多个最高位数字是指该元件被首次引入时所在的图号。在附图中示出了一些非限制性示例，在附图中：

图1是根据一些示例的可以在其中部署本公开内容的联网环境的图解表示。

图2是根据一些示例的消息客户端应用的图解表示。

图3是根据一些示例的如在数据库中维护的数据结构的图解表示。

图4是根据一些示例的消息的图解表示。

图5是示出根据示例的示例分割估计***的框图。

图6至图9是根据一些示例的分割估计***的输出的图解表示。

图10A和图10B是示出根据示例的消息应用服务器的示例操作的流程图。

图11是根据一些示例的呈计算机***形式的机器的图解表示，在该计算机***内可以执行一组指令以使该机器执行本文中所讨论的方法中的任何一种或更多种方法。

图12是示出了其中可以实现示例的软件架构的框图。

具体实施方式

以下描述包括体现本公开内容的说明性示例的***、方法、技术、指令序列和计算机器程序产品。在以下描述中，出于说明的目的，阐述了许多具体细节以便提供对各种示例的理解。然而，对于本领域技术人员来说明显的是，可以在没有这些具体细节的情况下实践示例。通常，不一定详细示出公知的指令实例、协议、结构和技术。

通常，虚拟现实(VR)和增强现实(AR)***通过捕获给定用户的图像并另外地使用深度传感器获得在图像中描绘的现实世界人体的深度图，来对表示给定用户的经修改图像进行显示。通过一起处理深度图和图像，VR和AR***可以检测用户在图像中的定位，并且可以适当地修改图像中的用户或背景。虽然这样的***可以很好地工作，但对深度传感器的需求限制了它们的应用范围。这是因为出于修改图像的目的向用户设备添加深度传感器增加了设备的整体成本和复杂度，从而使得它们的吸引力降低。

某些***不需要使用深度传感器来修改图像。例如，某些***允许用户替换视频会议中的背景，在该视频会议中检测用户的面部。具体地，这样的***可以使用专门的技术，这些专门技术经优化以识别用户的面部，以标识描绘用户面部的图像中的背景。然后，这些***可以仅替换描绘背景的那些像素，使得在图像中利用替选的背景替换现实世界的背景。但是，这样的***无法识别用户的整个身体。因此，如果用户距摄像装置大于阈值距离，使得不仅仅是用户的面部被摄像装置捕获，则利用替选背景替换背景开始失败。在这种情况下，图像质量受到严重影响，并且用户的面部和身体中的部分可能被***无意地移除，因为***错误地识别出这样的部分属于图像的背景而不是前景。此外，当在图像或视频馈送中描绘多于一个用户时，这样的***无法适当地替换背景。

所公开的技术通过对描绘用户或多个用户的整个身体的图像进行分割并且对图像应用一个或更多个视觉效果，来提高使用电子设备的效率。具体地，所公开的技术应用第一机器学***滑、过滤或改进。

具体地，接收描绘用户的身体的视频。通过第一机器学***滑、改进和过滤。

在一些示例中，所公开的技术应用第一机器学***滑、过滤或改进。在这种情况下，仅使用第一机器学***滑或生成分割。

以这种方式，所公开的技术可以对在当前图像中已分割的用户的身体应用一个或更多个视觉效果。例如，可以利用不同的图像或虚拟背景替换现实世界背景，以提供用户的整个身体处于不同环境或背景中的错觉。作为另一示例，可以利用视觉元素增强或替换用户的身体的边界或用户的身体本身的部分(例如，给用户穿上不同的服装或移除用户的一个或更多个部分的显示)。这改善了用户在使用电子设备时的整体体验。此外，通过在不使用深度传感器的情况下执行这样的分割，减少了完成任务所需的总***资源量。

联网计算环境

图1是示出用于通过网络交换数据(例如，消息和相关联的内容)的示例消息***100的框图。消息***100包括客户端设备102的多个实例，每个实例托管若干应用，包括消息客户端104和其他外部应用109(例如，第三方应用)。每个消息客户端104经由网络112(例如，因特网)通信地耦接至(例如，托管在相应的其他客户端设备102上的)消息客户端104的其他实例、消息服务器***108以及外部APP服务器110。消息客户端104还可以使用应用程序接口(API)与本地托管的第三方应用109进行通信。

消息客户端104能够经由网络112与其他消息客户端104和消息服务器***108进行通信并且交换数据。在消息客户端104之间以及消息客户端104与消息服务器***108之间交换的数据包括功能(例如，激活功能的命令)以及净荷数据(例如，文本、音频、视频或其他多媒体数据)。

消息服务器***108经由网络112向特定消息客户端104提供服务器侧功能。虽然消息***100的某些功能在本文中被描述为由消息客户端104或由消息服务器***108执行，但是某些功能的定位是在消息客户端104内还是在消息服务器***108内可以是设计选择。例如，在技术上可能优选是：最初将某些技术和功能部署在消息服务器***108内，但是后面将该技术和功能迁移至客户端设备102具有足够处理能力的消息客户端104。

消息服务器***108支持向消息客户端104提供的各种服务和操作。这样的操作包括向消息客户端104发送数据、从消息客户端104接收数据以及对由消息客户端104生成的数据进行处理。作为示例，该数据可以包括消息内容、客户端设备信息、地理位置信息、媒体增强和叠加、消息内容持久化条件、社交网络信息和现场事件信息。通过经由消息客户端104的用户接口(UI)可用的功能来激活和控制消息***100内的数据交换。

现在具体地转至消息服务器***108，应用程序接口(API)服务器116耦接至应用服务器114并且向应用服务器114提供编程接口。应用服务器114通信地耦接至数据库服务器120，该数据库服务器120促进对数据库126的访问，该数据库126存储与通过应用服务器114处理的消息相关联的数据。类似地，web服务器128耦接至应用服务器114，并且向应用服务器114提供基于web的接口。为此，web服务器128通过超文本传输协议(HTTP)和若干其他相关协议处理传入的网络请求。

应用程序接口(API)服务器116在客户端设备102与应用服务器114之间接收和发送消息数据(例如，命令和消息净荷)。具体地，应用程序接口(API)服务器116提供一组接口(例如，例程和协议)，该组接口可以由消息客户端104调用或查询以激活应用服务器114的功能。应用程序接口(API)服务器116显露由应用服务器114支持的各种功能，包括：帐户注册；登录功能；经由应用服务器114将消息从特定消息客户端104发送至另一消息客户端104；将媒体文件(例如，图像或视频)从消息客户端104发送至消息服务器118并用于另一消息客户端104的可能访问；媒体数据集合(例如，故事)的设置；检索客户端设备102的用户的朋友列表；检索这样的集合；检索消息和内容；在实体图(例如，社交图)中添加和删除实体(例如，朋友)；在社交图中定位朋友；以及打开应用事件(例如，与消息客户端104有关)。

应用服务器114托管若干服务器应用和子***，包括例如消息服务器118、图像处理服务器122以及社交网络服务器124。消息服务器118实现了若干消息处理技术和功能，特别是与从消息客户端104的多个实例接收到的消息中包括的内容(例如，文本和多媒体内容)的聚合和其他处理有关的消息处理技术和功能。如将进一步详细描述的，来自多个源的文本和媒体内容可以被汇集成内容的集合(例如，称为故事或库(gallery))。然后，使这些集合对消息客户端104可用。鉴于其他处理器和存储器密集型数据处理的硬件要求，也可以由消息服务器118在服务器侧执行这样的处理。

应用服务器114还包括图像处理服务器122，该图像处理服务器122专用于执行各种图像处理操作，通常相对于在从消息服务器118发送或者在消息服务器118处接收的消息的净荷内的图像或视频，执行各种图像处理操作。

图像处理服务器122用于实现增强***208的扫描功能。扫描功能包括当图像由客户端设备102捕获时，在客户端设备102上激活并提供一个或更多个增强现实体验。具体地，客户端设备102上的消息应用104可以用于激活摄像装置。摄像装置将一个或更多个实时图像或视频连同一个或更多个增强现实体验的一个或更多个图标或标识符显示给用户。用户可以选择标识符中的给定标识符来启动对应的增强现实体验或者执行所期望的图像修改(例如，替换背景或用户的身体的一个或更多个关节的部分)。

社交网络服务器124支持各种社交联网功能和服务并使这些功能和服务对消息服务器118可用。为此，社交网络服务器124维护并且访问数据库126内的实体图308(如图3所示)。由社交网络服务器124支持的功能和服务的示例包括识别消息***100的与特定用户有关系或该特定用户正在“关注”的其他用户，以及识别特定用户的兴趣和其他实体。

返回至消息客户端104，外部资源(例如，第三方应用109或小程序(applet))的特征和功能经由消息客户端104的接口对用户可用。消息客户端104接收对用于启动或访问例如外部应用109的外部资源(例如，第三方资源)的特征的选项的用户选择。外部资源可以是安装在客户端设备102上的第三方应用(外部应用109)(例如，“本地应用”)，或者托管在客户端设备102上或者远离客户端设备102(例如，在第三方服务器110上)的第三方应用的小规模版本(例如，“小程序”)。第三方应用的小规模版本包括第三方应用(例如，第三方独立应用的全规模本地版本)的特征和功能的子集并且使用标记语言文档来实现。在一个示例中，第三方应用的小规模版本(例如，“小程序”)是第三方应用的基于web的标记语言版本，并且被嵌入在消息客户端104中。除了使用标记语言文档(例如，*ml文件)之外，小程序可以包括脚本语言(例如，.*js文件或.json文件)和样式表(例如，*ss文件)。

响应于接收到对用于启动或访问外部资源(外部应用109)的特征的选项的用户选择，消息客户端104确定所选择的外部资源是基于web的外部资源还是本地安装的外部应用。在一些情况下，本地安装在客户端设备102上的外部应用109可以例如通过在客户端设备102的主页画面上选择与外部应用109对应的图标来独立于消息客户端104并且与消息客户端104分开地启动。这样的外部应用的小规模版本可以经由消息客户端104启动或访问，并且在一些示例中，小规模外部应用的任何部分都不能(或者有限部分才能)在消息客户端104之外被访问。可以通过消息客户端104从外部APP服务器110接收与小规模外部应用相关联的标记语言文档并对这样的文档进行处理来启动小规模外部应用。

响应于确定外部资源是本地安装的外部应用109，消息客户端104指示客户端设备102通过执行与外部应用109对应的本地存储的代码来启动外部应用109。响应于确定外部资源是基于web的资源，消息客户端104与外部APP服务器110进行通信以获得与所选择的资源对应的标记语言文档。然后消息客户端104处理获得的标记语言文档以在消息客户端104的用户界面内呈现基于web的外部资源。

消息客户端104可以向客户端设备102的用户或与这样的用户有关的其他用户(例如，“朋友”)通知一个或更多个外部资源中发生的活动。例如，消息客户端104可以向消息客户端104中的对话(例如，聊天会话)的参与者提供与一组用户的一个或更多个成员当前或最近使用外部资源有关的通知。可以邀请一个或更多个用户加入活跃的外部资源或者启动(在该朋友组中)最近使用过但当前不活跃的外部资源。外部资源可以向对话中的参与者(每个参与者使用相应的消息客户端104)提供与聊天会话中的用户组中的一个或更多个成员共享外部资源中的项、状况、状态或定位的能力。共享项可以是交互式聊天卡，聊天的成员可以利用该交互式聊天卡进行交互，例如，以用于启动对应的外部资源、查看外部资源内的特定信息或将聊天的成员带到外部资源内的特定定位或状态。在给定的外部资源内，可以向消息客户端104上的用户发送响应消息。外部资源可以基于外部资源的当前上下文将不同的媒体项选择性地包括在响应中。

消息客户端104可以向用户呈现可用外部资源(例如，第三方或外部应用109或小程序)的列表以启动或访问给定的外部资源。该列表可以被呈现在上下文敏感菜单中。例如，表示不同的外部应用109(或小程序)的图标可以基于用户如何启动菜单(例如，从对话界面或从非对话界面)而变化。

***架构

图2是示出根据一些示例的关于消息***100的其他细节的框图。具体地，消息***100被示为包括消息客户端104和应用服务器114。消息***100包含若干子***，这些子***在客户端侧由消息客户端104支持并且在服务器侧由应用服务器114支持。这些子***包括例如短暂定时器***202、集合管理***204、增强***208、地图***210、游戏***212和外部资源***220。

短暂定时器***202负责实施消息客户端104和消息服务器118对内容的临时或时间受限访问。短暂定时器***202包含若干定时器，这些定时器基于与消息或消息的集合(例如，故事)相关联的持续时间和显示参数，选择性地实现经由消息客户端104对消息和相关联的内容进行访问(例如，用于呈现和显示)。下面提供关于短暂定时器***202的操作的其他细节。

集合管理***204负责管理媒体的集或集合(例如，文本、图像、视频和音频数据的集合)。内容(例如，消息，包括图像、视频、文本和音频)的集合可以被组织成“事件库”或“事件故事”。可以使这样的集合在指定时间段(例如，与内容有关的事件的持续时间)内可用。例如，可以使与音乐会有关的内容在音乐会的持续时间内作为“故事”可用。集合管理***204还可以负责向消息客户端104的用户接口发布提供特定集合的存在的通知的图标。

此外，集合管理***204还包括策展接口206，该策展接口206使得集合管理者能够管理和策展特定内容集合。例如，策展接口206使得事件组织者能够策展与特定事件相关的内容的集合(例如，删除不适当的内容或冗余消息)。此外，集合管理***204采用机器视觉(或图像识别技术)和内容规则来自动地策展内容集合。在某些示例中，可以向用户支付补偿以用于将用户生成的内容包括到集合中。在这样的情况下，集合管理***204进行操作以自动地向这样的用户支付费用以使用其内容。

增强***208提供使得用户能够增强(例如，注解或以其他方式修改或编辑)与消息相关联的媒体内容的各种功能。例如，增强***208提供与生成和发布用于由消息***100处理的消息的媒体叠加(media overlay)有关的功能。增强***208基于客户端设备102的地理位置可操作地向消息客户端104提供媒体叠加或增强(例如，图像过滤器)。在另一示例中，增强***208基于诸如客户端设备102的用户的社交网络信息的其他信息可操作地向消息客户端104提供媒体叠加。媒体叠加可以包括音频和视觉内容和视觉效果。音频和视觉内容的示例包括图片、文本、标识、动画和声音效果。视觉效果的示例包括颜色叠加。音频和视觉内容或视觉效果可以应用于客户端设备102处的媒体内容项(例如，照片)。例如，媒体叠加可以包括可以叠加在由客户端设备102拍摄的照片的顶部的文本、图形元素或者图像。在另一示例中，媒体叠加包括定位标识叠加(例如，威尼斯海滩)、现场事件的名称或商家名称叠加(例如，海滩咖啡馆)。在另一示例中，增强***208使用客户端设备102的地理位置来识别包括客户端设备102的地理位置处的商家名称的媒体叠加。媒体叠加可以包括与商家相关联的其他标志。媒体叠加可以存储在数据库126中并且通过数据库服务器120进行访问。

在一些示例中，增强***208提供基于用户的发布平台，该基于用户的发布平台使得用户能够选择地图上的地理位置，并且上传与选择的地理位置相关联的内容。用户还可以指定特定媒体叠加应当被提供给其他用户的情况。增强***208生成包括所上传的内容并将所上传的内容与所选择的地理位置相关联的媒体叠加。

在其他示例中，增强***208提供基于商家的发布平台，该基于商家的发布平台使得商家能够经由竞标处理选择与地理位置相关联的特定媒体叠加。例如，增强***208使最高出价商家的媒体叠加与对应地理位置相关联达预定义时间量。增强***208与图像处理服务器122通信以获得增强现实体验，并且在一个或更多个用户界面中呈现这样的体验的标识符(例如，作为实时图像或视频上的图标，或作为专用于呈现的增强现实体验的标识符的界面中的缩略图或图标)。一旦选择了增强现实体验，则检索一个或更多个图像、视频或增强现实图形元素，并将其呈现为由客户端设备102捕获的图像或视频之上的叠加。在一些情况下，摄像装置被切换至正面视角(例如，客户端设备102的前置摄像装置响应于特定增强现实体验的激活而被激活)，并且来自客户端设备102的前置摄像装置而不是客户端设备102的后置摄像装置的图像开始显示在客户端设备102。一个或更多个图像、视频或增强现实图形元素被检索并呈现为由客户端设备102的前置摄像装置捕获和显示的图像之上的叠加。

在其他示例中，增强***208能够经由网络106与另一客户端设备102上的另一个增强***208以及服务器通信并交换数据。交换的数据可以包括：标识共享AR会话的会话标识符；第一客户端设备102与第二客户端设备102(例如，多个客户端设备102包括第一设备和第二设备)之间的变换，该变换用于将共享AR会话对准至共同原点；共同坐标系；功能(例如，激活函数的命令)以及其他净荷数据(例如，文本、音频、视频或其他多媒体数据)。

增强***208将变换发送至第二客户端设备102，使得第二客户端设备102可以基于该变换来调整AR坐标系。以这种方式，第一客户端设备102和第二客户端设备102将它们的坐标系(coordinate systems and frames)同步以显示AR会话中的内容。具体地，增强***208计算第二客户端设备102在第一客户端设备102的坐标系中的原点。然后，增强***208可以基于从第二客户端设备102的角度来看该原点在第二客户端设备102的坐标系中的位置来确定第二客户端设备102的坐标系中的偏移量。使用该偏移量生成变换，使得第二客户端设备102根据与第一客户端设备102的共同坐标系生成AR内容。

增强***208，可以与客户端设备102通信，以建立单独或共享的AR会话。增强***208还可以耦接至消息服务器118以在共享AR会话中为客户端设备102建立电子群组通信会话(例如，群组聊天、即时消息)。电子群组通信会话可以与由客户端设备102提供以获得对电子群组通信会话和共享AR会话的访问的会话标识符相关联。在一个示例中，客户端设备102首先获得对电子群组通信会话的访问，并且然后在电子群组通信会话中获得允许客户端设备102访问共享AR会话的会话标识符。在一些示例中，客户端设备102能够在无需应用服务器114中的增强***208的帮助或与应用服务器114中的增强***208通信的情况下访问共享AR会话。

地图***210提供各种地理定位功能，并且支持由消息客户端104呈现基于地图的媒体内容和消息。例如，地图***210使得能够在地图上显示(例如，存储在简档数据316中的)用户图标或化身表示，以指示用户的“朋友”的当前或过去位置，以及由这样的朋友在地图的上下文内生成的媒体内容(例如，包括照片和视频的消息的集合)。例如，可以在消息客户端104的地图界面上将用户从特定地理位置发布到消息***100的消息在地图的该特殊定位的上下文内显示给特定用户的“朋友”。用户还可以经由消息客户端104与消息***100的其他用户(例如，使用适当的状况化身)分享他或她的定位和状况信息，其中，在消息客户端104的地图界面的上下文内该定位和状况信息被类似地显示给选择的用户。

游戏***212在消息客户端104的上下文中提供各种游戏功能。消息客户端104提供游戏界面，该游戏界面提供可用游戏(例如，基于web的游戏或基于web的应用)的列表，该游戏可以由用户在消息客户端104的上下文内启动并且与消息***100的其他用户一起玩。消息***100还使得特定用户能够通过从消息客户端104向其他用户发出邀请来邀请这样的其他用户参与玩特定游戏。消息客户端104还支持玩游戏上下文内的语音和文本消息两者(例如，聊天)，为游戏提供排行榜，并且还支持提供游戏内奖励(例如，游戏币和物品)。

外部资源***220向消息客户端104提供用于与外部APP服务器110通信以启动或访问外部资源的接口。每个外部资源(应用)服务器110托管例如基于标记语言(例如，HTML5)的应用或外部应用(例如，在消息客户端104外部的游戏、实用程序、支付或乘车共享应用)的小规模版本。消息客户端104可以通过从与基于web的资源(例如，应用)相关联的外部资源(APP)服务器110访问HTML5文件来启动该基于web的资源。在某些示例中，由外部资源服务器110托管的应用是利用由消息服务器118提供的软件开发工具包(SDK)以JavaScript编程的。SDK包括应用编程接口(API)，这些API具有可以由基于web的应用调用或激活的功能。在某些示例中，消息服务器118包括JavaScript库，该JavaScript库向给定的第三方资源提供对消息客户端104的某些用户数据的访问权限。HTML5被用作用于对游戏进行编程的示例技术，但是可以使用基于其他技术编程的应用和资源。

为了将SDK的功能集成到基于web的资源中，由外部资源(APP)服务器110从消息服务器118下载SDK或者由外部资源(app)服务器110以其他方式来接收SDK。一旦被下载或接收，SDK就将被包括作为基于web的外部资源的应用代码的一部分。然后，基于web的资源的代码可以调用或激活SDK的某些功能以将消息客户端104的特征集成到基于web的资源内。

存储在消息服务器118上的SDK有效地提供了外部资源(例如，第三方或外部应用109或小程序与消息客户端104)之间的桥接。这为用户提供了在消息客户端104上与其他用户交流的无缝体验，同时还保留了消息客户端104的外观和感觉。为了桥接外部资源与消息客户端104之间的通信，在某些示例中，SDK促进外部资源服务器110与消息客户端104之间的通信。在某些示例中，在客户端设备102上运行的WebViewJavaScriptBridge在外部资源与消息客户端104之间建立两个单向通信通道。在外部资源与消息客户端104之间经由这些通信通道异步地发送消息。每个SDK功能激活被作为消息和回调来发送。每个SDK功能通过构造唯一的回调标识符并发送具有该回调标识符的消息来实现。

通过使用SDK，并非所有来自消息客户端104的信息都与外部资源服务器110共享。SDK基于外部资源的需求来限制共享哪些信息。在某些示例中，每个外部资源服务器110将与基于web的外部资源对应的HTML5文件提供给消息服务器118。消息服务器118可以在消息客户端104中添加基于web的外部资源的视觉表示(例如，盒设计(boxart)或其他图形)。一旦用户通过消息客户端104的GUI选择该视觉表示或指示消息客户端104访问基于web的外部资源的特征，消息客户端104就获得HTML5文件并且使访问基于web的外部资源的特征所需的资源实例化。

消息客户端104呈现用于外部资源的图形用户界面(例如，登录页面或标题画面)。在呈现登录页面或标题画面期间、之前或之后，消息客户端104确定所启动的外部资源是否先前已被授权访问消息客户端104的用户数据。响应于确定启动的外部资源先前已被授权访问消息客户端104的用户数据，消息客户端104呈现包括外部资源的功能和特征的外部资源的另一图形用户界面。响应于确定所启动的外部资源先前未被授权访问消息客户端104的用户数据，在显示外部资源的登录页面或标题画面的阈值时间段(例如，3秒)之后，消息客户端104向上滑动菜单(例如，将菜单动画化为从屏幕底部浮现到屏幕中部或其他部分)以用于授权外部资源访问用户数据。该菜单标识外部资源将被授权进行使用的用户数据的类型。响应于接收到对接受选项的用户选择，消息客户端104将外部资源添加到授权的外部资源的列表中，并且使得外部资源能够访问来自消息客户端104的用户数据。在一些示例中，消息客户端104根据OAuth2框架来授权外部资源访问用户数据。

消息客户端104基于被授权的外部资源的类型来控制与外部资源共享的用户数据的类型。例如，向包括全规模外部应用(例如，第三方或外部应用109)的外部资源提供对第一类型的用户数据(例如，具有或不具有不同化身特征的用户的仅二维化身)的访问权限。作为另一示例，向包括外部应用的小规模版本(例如，第三方应用的基于web的版本)的外部资源提供对第二类型的用户数据(例如，支付信息、用户的二维化身、用户的三维化身以及具有各种化身特征的化身)的访问权限。化身表示特性包括定制化身表示的外观和感觉(例如不同的姿势、面部特征、服装等)的不同方式。

分割估计***224分割图像中描绘的用户的整个身体或图像中描绘的多个用户的多个身体。如本文所提及的，用户的“整个身体”包括用户的身体的一个或更多个骨骼身体部位或关节的预定组合(例如，头部关节、肩部关节和手臂关节的组合；肩部关节和臀部关节的组合；或头部关节、肩部关节、臀部关节和腿部关节的组合)。分割估计***224可以对捕获的视频馈送执行对象识别，以检测用户的一个或更多个骨骼关节的存在。响应于确定检测到的骨骼关节与预定组合匹配，分割估计***224确定在视频馈送中描绘了用户的整个身体。下文结合图5示出和描述了分割估计***224的示意性实现方式。

具体地，分割估计***224是可以由在客户端设备102上实现的AR/VR应用访问的部件。AR/VR应用使用RGB摄像装置来捕获用户的现实世界身体的单目图像。AR/VR应用将各种经训练的机器学习技术应用于所捕获的身体的图像和描绘身体的一个或更多个先前帧上，以分割图像中的用户的身体并且对所捕获的图像应用一个或更多个视觉效果。在一些实现方式中，AR/VR应用实时地或定期地连续捕获用户的身体的图像以连续地或定期地更新所应用的一个或更多个视觉效果。这允许用户在现实世界中四处移动并且实时地查看一个或更多个视觉效果更新。

为了使AR/VR应用直接从捕获的RGB图像应用一个或更多个视觉效果，AR/VR应用从分割估计***224获得第一经训练的机器学***滑、过滤或改进。

在训练中，分割估计***224获得包括用户的不同现实世界身体的第一多个输入训练图像。这些训练图像还提供与每个图像中描绘的身体的分割有关的真值信息。基于多个训练图像的特征来训练第一机器学习技术(例如，深度神经网络)。具体地，第一机器学习技术从给定的训练图像中提取一个或更多个特征，并且估计身体的分割。第一机器学习技术获得与训练图像对应的真值信息并且调整或更新一个或更多个系数以改进对分割的后续估计。

在训练中，分割估计***224获得包括不同现实世界身体的第一多个输入训练视频(每个具有与诸如1至2秒的阈值视频持续时间对应的帧数目)。这些训练视频还为相对于每个视频的后续帧提供了具有身体的分割的真值信息。即，第一训练视频可以与识别在第一训练视频中的在紧接在给定帧之后的帧中描绘的身体的分割的真值信息相关联。基于多个训练视频的特征来训练第二机器学习技术(例如，神经网络)。具体地，第二机器学习技术从给定的训练视频中提取一个或更多个特征，并且估计或预测相对于训练视频的先前帧的后续帧中对身体的分割。第二机器学习技术获得与训练视频对应的真值信息并调整或更新一个或更多个系数以改进后续视频中描绘的身体的分割的后续估计。

数据架构

图3是示出根据某些示例的可以存储在消息服务器***108的数据库126中的数据结构300的示意图。虽然数据库126的内容被示为包括若干表，但是应当理解，数据可以存储在其他类型的数据结构(例如，面向对象的数据库)中。

数据库126包括存储在消息表302中的消息数据。对于任何特定的一个消息，该消息数据至少包括消息发送数据、消息接收方(或接收者)数据和净荷。下面参照图4描述了关于可以被包括在消息中并且被包括在存储在消息表302中的消息数据中的信息的另外的细节。

实体表306存储实体数据，并且(例如，参考地)链接至实体图308和简档数据316。在实体表306内为其维持记录的实体可以包括个人、公司实体、组织、对象、地点、事件等。无论实体类型如何，消息服务器***108存储关于其的数据的任何实体可以是识别的实体。为每个实体提供唯一的标识符以及实体类型标识符(未示出)。

实体图308存储关于实体之间的关系和关联的信息。仅作为示例，这样的关系可以是社交的、职业的(例如，在共同的公司或组织工作)、基于兴趣或者基于活动的。

简档数据316存储关于特定实体的多种类型的简档数据。基于由特定实体指定的隐私设置，简档数据316可以被选择性地使用并呈现给消息***100的其他用户。在实体是个人的情况下，简档数据316包括例如用户名、电话号码、地址、设置(例如，通知和隐私设置)、以及用户选择的化身表示(或这样的化身表示的集合)。然后，特定用户可以将这些化身表示中的一个或更多个化身表示选择性地包括在经由消息***100传送的消息的内容中以及包括在由消息客户端104向其他用户显示的地图界面上。化身表示的集合可以包括“状态化身”，其呈现用户可以选择以在特定时间进行通信的状态或活动的图形表示。

在实体是团体的情况下，除了团体名称、成员和相关团体的各种设置(例如，通知)之外，团体的简档数据316还可以类似地包括与团体相关联的一个或更多个形象化表示。

数据库126还在增强表310中存储增强数据，例如叠加或过滤器。增强数据与视频(视频数据存储在视频表304中)和图像(图像数据存储在图像表312中)相关联并且应用于视频和图像。

数据库126还可以存储与单独的和共享的AR会话有关的数据。该数据可以包括第一客户端设备102的AR会话客户端控制器与第二客户端设备102的另一AR会话客户端控制器之间传送的数据，以及AR会话客户端控制器与增强***208之间传送的数据。数据可以包括用于建立共享AR场景的共同坐标系、设备之间的变换、会话标识符、描绘身体的图像、骨骼关节位置、腕关节位置、脚等的数据。

在一个示例中，过滤器是在向接收方用户呈现期间显示为叠加在图像或视频上的叠加。过滤器可以是各种类型的，包括当发送用户正在编写消息时从由消息客户端104呈现给发送用户的一组过滤器中用户选择的过滤器。其他类型的过滤器包括地理位置过滤器(也称为地理过滤器)，其可以基于地理位置被呈现给发送用户。例如，可以基于由客户端设备102的全球定位***(GPS)单元确定的地理位置信息，由消息客户端104在用户界面内呈现特定于附近或特殊位置的地理位置过滤器。

另一种类型的过滤器是数据过滤器，其可以由消息客户端104基于在消息创建处理期间由客户端设备102收集的其他输入或信息选择性地呈现给发送用户。数据过滤器的示例包括特定位置处的当前温度、发送用户出行的当前速度、客户端设备102的电池寿命或当前时间。

可以被存储在图像表312内的其他增强数据包括增强现实内容项(例如，对应于应用增强现实体验)。增强现实内容项或增强现实项可以是能够被添加至图像或视频的实时特殊效果和声音。

如上所述，增强数据包括增强现实内容项、叠加物、图像变换、AR图像以及指代可以应用于图像数据(例如，视频或图像)的修改的类似术语。这包括实时修改，实时修改在使用客户端设备102的设备传感器(例如，一个或多个摄像装置)捕获图像时对图像进行修改并且然后在客户端设备102的屏幕上显示修改的图像。这还包括对存储的内容(例如，库中的可以被修改的视频片段)的修改。例如，在可以访问多个增强现实内容项的客户端设备102中，用户可以使用具有多个增强现实内容项的单个视频片段来观看不同的增强现实内容项将如何修改所存储的片段。例如，通过为内容选择不同的增强现实内容项，可以将应用不同伪随机移动模型的多个增强现实内容项应用于该相同内容。类似地，实时视频捕获可以与所示出的修改一起使用，以示出当前由客户端设备102的传感器捕获的视频图像将如何修改所捕获的数据。这样的数据可以简单地显示在屏幕上而不存储在存储器中，或者由设备传感器捕获的内容可以在进行或不进行修改(或两者)的情况下被记录并被存储在存储器中。在一些***中，预览功能可以显示不同的增强现实内容项将同时在显示器的不同窗口内显示的情形。这可以例如使得能够同时在显示器上查看具有不同伪随机动画的多个窗口。

因此，使用增强现实内容项的数据和各种***或使用该数据修改内容的其他这样的变换***可以涉及视频帧中对象(例如，面部、手、身体、猫、狗、表面、物体等)的检测；在这些对象离开视场、进入视场以及在视场四处移动时对这些对象的跟踪；以及在跟踪这些对象时对其进行的修改或变换。在各种示例中，可以使用用于实现这样的变换的不同的方法。一些示例可以涉及：生成一个或多个对象的三维网格模型；以及在视频内使用模型的变换和动画纹理来实现变换。在其他示例中，可以使用对象上的点的跟踪将图像或纹理(其可以是二维或三维的)放置在所跟踪的位置处。在更进一步的示例中，可以使用视频帧的神经网络分析来将图像、模型或纹理放置在内容(例如，图像或视频帧)中。因此，增强现实内容项既指用于在内容中创建变换的图像、模型和纹理，也指利用对象检测、跟踪和放置实现这样的变换所需的附加建模和分析信息。

可以利用保存在任何种类的计算机化***的存储器中的任何种类的视频数据(例如，视频流、视频文件等)来执行实时视频处理。例如，用户可以加载视频文件并将它们保存在设备的存储器中，或者可以使用设备的传感器来生成视频流。此外，可以使用计算机动画模型来处理任何对象，例如人的面部和人身体的各部分、动物或非生物(例如，椅子、汽车或其他对象)。

在一些示例中，在特定修改与要变换的内容一起被选择的情况下，由计算设备识别要变换的元素，并且然后如果要变换的元素存在于视频帧中，则检测并跟踪要变换的元素。根据针对修改的请求来修改对象的元素，从而变换视频流的帧。可以通过用于不同类型的变换的不同方法来执行视频流的帧的变换。例如，对于主要是指对象的元素的变化形式的帧变换，计算对象的每个元素的特征点(例如，使用主动形状模型(ASM)或其他已知方法)。然后，针对对象的至少一个元素中的每个元素，生成基于特征点的网格。该网格被用于后续阶段，在所述后续阶段中跟踪视频流中对象的元素。在跟踪的过程中，所提及的针对每个元素的网格与每个元素的位置对准。然后，在网格上生成附加点。基于对修改地请求针对每个元素生成第一组第一点，并且基于该组第一点和对修改的请求针对每个元素生成一组第二点。然后，可以通过基于该组第一点和该组第二点以及网格修改对象的元素来变换视频流的帧。在这样的方法中，也可以通过跟踪和修改所修改对象的背景来使所修改对象的背景改变或变形。

在一些示例中，使用对象的元素来改变对象的一些区域的变换可以通过计算对象的每个元素的特征点并基于所计算的特征点生成网格来执行。在网格上生成点，然后基于所述点生成各种区域。然后，通过将每个元件的区域与至少一个元件中的每个元件的位置对准来跟踪对象的元件，并且可以基于修改请求来修改区域的性质，从而变换视频流的帧。取决于具体的修改请求，可以以不同的方式对所提及区域的属性进行变换。这样的修改可以涉及：改变区域的颜色；从视频流的帧中移除区域的至少一些部分；将一个或更多个新对象包括在基于修改请求的区域中；以及对区域或对象的元素进行修改或使其发生扭曲。在各种示例中，可以使用这样的修改或其他类似修改的任何组合。对于要被动画化的某些模型，可以选择一些特征点作为控制点以用于确定针对模型动画的选项的整个状态空间。

在使用面部检测来变换图像数据的计算机动画模型的一些示例中，使用特定的面部检测算法(例如，Viola-Jones)在图像上检测面部。然后，将主动形状模型(ASM)算法应用于图像的面部区域以检测面部特征参考点。

可以使用其他适合面部检测的方法和算法。例如，在一些示例中，使用界标来定位特征，该界标表示在所考虑的大多数图像中存在的可区分点。例如，对于面部界标，可以使用左眼瞳孔的位置。如果初始界标不可识别(例如，如果人带眼罩)，则可以使用次要界标。这样的界标标识过程可以被用于任何这样的对象。在一些示例中，一组界标形成形状。可以使用形状中的点的坐标来将形状表示为矢量。利用使形状点之间的平均欧几里德距离最小化的相似性变换(允许平移、缩放和旋转)将一个形状与另一个形状对准。平均形状(meanshape)是经对准的训练形状的平均值。

在一些示例中，从与由全局面部检测器确定的面部的位置和大小对准的均值形状开始搜索界标。然后，这样的搜索重复以下步骤：通过每个点周围的图像纹理的模板匹配来调整形状点的位置而建议暂定形状，然后使暂定形状符合全局形状模型，直至发生收敛。在一些***中，个体模板匹配是不可靠的，并且形状模型将弱模板匹配的结果进行池化，以形成更强的整体分类器。整个搜索在从粗分辨率到细分辨率的图像金字塔的每个级别上重复。

变换***可以在客户端设备(例如，客户端设备102)上捕获图像或视频流，并在客户端设备102上本地执行复杂的图像操纵，同时维持适当的用户体验、计算时间和功耗。复杂的图像操纵可以包括大小和形状改变、情感变换(例如，将面部从皱眉改变为微笑)、状态变换(例如，使主体变老、减小外表年龄、改变性别)、风格变换、图形元素应用以及由已经被配置成在客户端设备102上有效执行的卷积神经网络实现的任何其他合适的图像或视频操纵。

在一些示例中，用于变换图像数据的计算机动画模型可以由***使用，在该***中，用户可以使用具有神经网络的客户端设备102来捕获用户的图像或视频流(例如，自拍)，该神经网络操作为在客户端设备102上操作的消息客户端104的一部分。在消息客户端104内操作的变换***确定图像或视频流内的面部的存在，并且提供与计算机动画模型相关联的修改图标以变换数据图像，或者计算机动画模型可以被呈现为与本文中描述的界面相关联。修改图标包括以下变化，所述变化可以是作为修改操作的一部分的在图像或视频流中修改用户面部的基础。一旦选择了修改图标，则变换***发起将用户的图像转换以反映所选择的修改图标(例如，在用户上生成笑脸)的处理。一旦捕获了图像或视频流并且选择了指定的修改，就可以在客户端设备102上显示的图形用户界面中呈现经修改的图像或视频流。变换***可以在图像或视频流的一部分上实施复杂的卷积神经网络，以生成和应用选择的修改。也就是说，用户可以捕获图像或视频流，并且一旦已经选择了修改图标，就可以实时或接近实时地呈现经修改的结果。此外，当正在捕获视频流时，修改可以是持久的，并且选择的修改图标保持被切换。机器教导的神经网络可以用于实现此类修改。

呈现由变换***执行的修改的图形用户接口可以为用户供应附加的交互选项。这样的选项可以基于用于发起内容捕获以及选择特定计算机动画模型的界面(例如，从内容创建者用户界面发起)。在各种示例中，在最初选择了修改图标之后，修改可以是持久的。用户可以通过轻敲或以其他方式选择正由变换***修改的面部来切换以打开或关闭修改，并对其进行存储以供稍后观看或浏览成像应用的其他区域。在由变换***修改多个面部的情况下，用户可以通过轻击或选择在图形用户接口内修改和显示的单个面部来全局打开或关闭修改。在一些示例中，可以单独修改一组多个面部中的各个面部，或者可以通过轻击或选择图形用户界面内显示的单独面部或一系列面部来，单独切换这样的修改。

故事表314存储关于消息的集合的数据以及相关联的图像、视频或音频数据，这些数据被汇编成集合(例如，故事或库)。特定集合的创建可以由特定用户(例如，在实体表306中维护其记录的每个用户)发起。用户可以以已由该用户创建和发送/广播的内容的集合的形式创建“个人故事”。为此，消息客户端104的用户界面可以包括用户可选择的图标，以使得发送用户能够将特定内容添加到他或她的个人故事。

集合还可以构成作为来自多个用户的内容的集合的“现场故事”，其是手动地、自动地或者使用手动技术和自动技术的组合创建的。例如，“现场故事”可以构成来自各种位置和事件的用户提交内容的策划流。其客户端设备启用了定位服务并且在特定时间处于共同定位事件处的用户可以例如经由消息客户端104的用户接口被呈现有将内容贡献给特定现场故事的选项。可以由消息客户端104基于他或她的定位向用户标识现场故事。最终结果是从社群角度讲述的“现场故事”。

另一类型的内容集合被称为“位置故事”，“位置故事”使得其客户端设备102位于特定地理位置(例如，在学院或大学校园)内的用户能够对特定集合做出贡献。在一些实施方式中，对位置故事的贡献可能需要二级认证，以验证最终用户属于特定的组织或其他实体(例如，是大学校园的学生)。

如以上提及的，视频表304存储视频数据，在一个示例中，该视频数据与其记录保存在消息表302内的消息相关联。类似地，图像表312存储与消息数据被存储在实体表306中的消息相关联的图像数据。实体表306可以使来自增强表310的各种增强与存储在图像表312和视频表304中的各种图像和视频相关联。

经训练的机器学习技术307存储在分割估计***224的训练期间已被训练的参数。例如，经训练的机器学习技术207存储一个或更多个神经网络机器学习技术的经训练的参数。

分割训练图像309存储对用户的现实世界身体进行描绘的多个图像。存储在分割训练图像309中的多个图像包括现实世界身体姿势的各种描绘以及身体的分割，所述分割指示图像中的哪些像素与身体对应，以及哪些像素与图像中的背景对应。这些分割训练图像309由分割估计***224用于训练第一机器学习技术，以用于生成对接收到的RGB单目图像中描绘的一个或更多个身体的分割。在一些情况下，分割训练图像309包括相应训练单目图像中描绘的一个或更多个身体的真值骨骼关键点。在一些情况下，分割训练图像309包括图像中描绘的身体的多个图像分辨率。分割训练图像309可以包括经标记和未经标记的图像和视频数据。分割训练图像309可以包括对特定用户的整个身体的描绘、缺少对任何用户的描绘的图像(例如，负图像)、对多个用户和用户的整个身体的描绘以及对距图像捕获设备不同距离处的用户的描绘。

身体姿势训练图像309存储对用户的现实世界身体的描绘的多个视频(1至2秒视频段)。存储在分割训练图像309中的多个视频包括对现实世界身体的各种描绘。多个视频还包括识别在相对于多个视频中的每个视频中的当前帧或先前帧的后续帧中描绘的身体分割的真值信息。这些分割训练图像309被分割估计***224用于训练第二机器学习技术，以用于根据接收到的用户身体的RGB单目视频预测后续帧的分割。

数据通信架构

图4是示出根据一些示例的消息400的结构的示意图，该消息400由消息客户端104生成，以传送至另外的消息客户端104或消息服务器118。特定消息400的内容用于填充存储在数据库126内的消息表302，该消息表302可由消息服务器118访问。类似地，消息400的内容被存储在存储器中作为客户端设备102或应用服务器114的“传输中”或“飞行中”数据。消息400被示为包括以下示例组成部分：

·消息标识符402：标识消息400的唯一标识符。

·消息文本净荷404：要由用户经由客户端设备102的用户界面生成并且包括在消息400中的文本。

·消息图像净荷406：由客户端设备102的摄像装置部件捕获的或从客户端设备102的存储器部件检索到的并且包括在消息400中的图像数据。用于发送或接收的消息400的图像数据可以存储在图像表312中。

·消息视频净荷408：由摄像装置部件捕获的或从客户端设备102的存储器部件检索到的并且包括在消息400中的视频数据。用于发送或接收的消息400的视频数据可以存储在视频表304中。

·消息音频净荷410：由麦克风捕获的或从客户端设备102的存储器部件检索到的并且包括在消息400中的音频数据。

·消息增强数据412：表示要应用于消息400的消息图像净荷406、消息视频净荷408或消息音频净荷410的增强的增强数据(例如，过滤器、标贴或其他标注或增强)。针对发送或接收的消息400的增强数据可以被存储在增强表310中。

·消息持续时间参数414：指示消息的内容(例如，消息图像净荷406、消息视频净荷408、消息音频净荷410)将经由消息客户端104呈现给用户或使其可由用户访问的以秒为单位的时间量的参数值。

·消息地理位置参数416：与消息的内容净荷相关联的地理位置数据(例如，纬度坐标和经度坐标)。在净荷中可以包括多个消息地理位置参数416值，这些参数值中的每个参数值都与包括在内容中的内容项(例如，消息图像净荷406内的特定图像，或消息视频净荷408中的特定视频)相关联。

·消息故事标识符418：标识与消息400的消息图像净荷406中的特定内容项相关联的一个或更多个内容集合(例如，故事表314中标识的“故事”)的标识符值。例如，消息图像净荷406内的多个图像可以各自使用标识符值与多个内容集合相关联。

·消息标签420：每个消息400可以用多个标签来标记，所述多个标签中的每个标签指示消息净荷中包括的内容的主题。例如，在包括在消息图像净荷406中的特定图像描绘动物(例如，狮子)的情况下，标签值可以包括在指示相关动物的消息标签420内。标签值可以基于用户输入手动生成，或者可以使用例如图像识别自动生成。

·消息发送者标识符422：指示在其上生成消息400以及从其发送消息400的客户端设备102的用户的标识符(例如，消息***标识符、电子邮件地址或设备标识符)。

·消息接收者标识符424：指示消息400寻址到的客户端设备102的用户的标识符(例如，消息***标识符、电子邮件地址或设备标识符)。

消息400的各个组成部分的内容(例如，值)可以是指向表中的存储内容数据值的位置的指针。例如，消息图像净荷406中的图像值可以是指向图像表312内的位置的指针(或是图像表312内的位置的地址)。类似地，消息视频净荷408内的值可以指向存储在视频表304内的数据，存储在消息增强数据412内的值可以指向存储在增强表310中的数据，存储在消息故事标识符418内的值可以指向存储在故事表314中的数据，以及存储在消息发送者标识符422和消息接收者标识符424内的值可以指向存储在实体表306内的用户记录。

分割估计***

图5是示出根据示例的示例分割估计***224的框图。分割估计***224包括一组部件510，该组部件510对一组输入数据(例如，描绘用户的现实身体的单目图像501、分割训练图像数据502、描绘用户的身体的单目视频403、以及分割训练视频数据504)进行操作。该组输入数据在训练阶段从存储在数据库中的身体姿势训练图像309(图3)获得，并且在正在例如由消息客户端104使用AR/VR应用时从客户端设备102的RGB摄像装置获得。分割估计***224包括第一机器学***滑分割模块516、图像修改模块518、视觉效果选择模块519和图像显示模块520。

在训练期间，分割估计***224接收来自分割训练图像数据502的给定的训练图像(例如，描绘现实世界身体的单目图像501，例如，包括面部、手臂、躯干、臀部和腿部的用户整个身体的图像或同时描绘多个用户的多个现实世界身体的图像)。分割估计***224使用第一机器学习技术模块512对给定训练图像应用一个或更多个机器学习技术。第一机器学习技术模块512从给定的训练图像中提取一个或更多个特征以估计图像中描绘的用户的一个或多个身体的分割。例如，第一机器学习技术模块512获取描绘用户面部、手臂、躯干、臀部和腿部的给定训练图像。第一机器学习技术模块512从图像中提取与用户面部和手臂对应的特征，以识别一个或更多个骨骼关节，并且分割或指定图像中哪些像素与用户身体对应，以及哪些像素与背景对应(或不与用户身体对应)。

第一机器学习技术模块512检索与给定训练图像相关联的分割信息。第一机器学习技术模块512将所估计的分割(在图像中存在多个用户的情况下，所估计的分割可以包括对图像中的多个身体的识别)与作为分割训练图像数据502的一部分提供的真值分割进行比较。基于比较的差异阈值，第一机器学习技术模块512更新一个或更多个系数并获得一个或更多个附加的分割训练图像。在处理了指定数目的时期(epoch)或批次(batch)训练图像之后以及/或者当差异阈值达到指定值时，第一机器学习技术模块512完成训练并且第一机器学习技术模块512的参数和系数被存储在经训练机器学习技术307中。

在一些示例中，第一机器学***进行操作。然后，具有适当复杂度水平的适当分割模型可以被提供给客户端设备102，以用于分割一个或更多个图像。

在训练期间，分割估计***224接收来自分割训练图像数据502的给定的训练视频(例如，描绘现实世界身体或在视频中同时描绘的多个用户的多个身体的单目视频503，例如用户的面部、手臂、躯干、臀部和腿部的图像)。分割估计***224使用第二机器学习技术模块517对给定训练视频应用一个或更多个机器学习技术。第二机器学习技术模块517从给定的训练视频中提取一个或更多个特征以预测视频的当前帧或先前帧之后的帧的分割。例如，第二机器学习技术模块517获取给定训练视频，该给定训练视频描绘用户面部、手臂、躯干、臀部和腿部的在跨1至2秒视频的一组帧上的移动。第二机器学习技术模块517从视频中提取与用户的面部和手臂对应的特征，以预测对视频的当前帧或先前帧之后的帧中的用户或多个用户的分割。

第二机器学习技术模块517预测对给定训练视频帧之后的一个或更多个后续帧的分割。例如，第二机器学习技术模块517可以处理给定视频的帧2至25以预测在同一视频的帧26中描绘的身体的分割。第二机器学习技术模块517将确定/预测的分割与作为分割训练图像数据502的一部分提供的真值分割进行比较。真值分割可以针对帧2至25中描绘的身体的移动提供帧26的真值分割。基于比较的差异阈值，第二机器学习技术模块517更新一个或更多个系数并获得一个或更多个附加的分割训练视频。在处理了指定数目的时期或批次的训练视频之后以及/或者当差值阈值达到指定值时，第二机器学习技术模块517完成训练并且第二机器学习技术模块517的参数和系数被存储在经训练机器学习技术307中。

具体地，第二机器学习技术模块517处理在当前帧紧之前1至2秒的视频帧序列。第二机器学习技术模块517分析分割跨视频帧的序列的移动，以预测当前帧或当前帧之后的帧中的估计的分割。

在训练之后，分割估计***224接收输入图像501(例如，描绘现实世界身体或多个身体的单目图像，例如，用户的面部、手臂、躯干、臀部和腿部的图像)作为来自客户端设备102的单个RGB图像。分割估计***224将第一经训练机器学习技术模块512应用于所接收到的输入图像501，以提取表示对图像501中描绘的一个或多个身体的分割的一个或更多个特征。分割估计***224将第二经训练机器学习技术模块517应用于所接收到的单目视频503，以提取表示视频503中描绘的一个或多个身体的一个或更多个特征以及生成对后续帧中的分割的预测或估计。

平滑分割模块516将由第一机器学***滑分割模块516对分割中的任何差异进行调整、平滑或过滤，以生成当前帧的经平滑的分割。在一些情况下，平滑分割模块516基于经平滑的分割来生成分割边界。分割边界指示位于分割的边界或边缘处的一组像素。即，分割边界像素对应于图像中描绘的背景与用户的身体之间的像素。在一些情况下，分割边界像素具有指定的宽度(例如3至4像素)，在这种情况下，分割边界表示指定宽度的分割边缘。在一些情况下，平滑分割模块516对经平滑的分割应用引导滤波器，以改进在经平滑的分割的边缘的指定数目像素内的经平滑分割部分的分割质量。

由第二机器学习技术模块517分析的先前视频帧的数目或先前接收的视频段的持续时间可以由用户设置、可以是预定的或者可以动态调整。在一些情况下，如果由第一机器学习技术模块512确定的分割的过滤或校正量超过指定阈值，则分析的先前视频帧的数目可以增加(例如，从1秒视频增加到2秒视频)。在一些情况下，基于用户与摄像装置之间的距离超过指定阈值，可以增加分析的先前视频帧的数目(例如，从1秒视频增加到2秒视频)。

视觉效果选择模块519从客户端设备102接收对虚拟化模式的选择。例如，可以向AR/VR应用的用户呈现模式选项列表。响应于接收到从列表中对给定模式选项的用户选择，给定模式被提供给视觉效果选择模块519作为对虚拟化模式的选择。模式选项可以包括：背景移除选项(例如，用虚拟背景替换现实世界背景)；遮挡选项(例如，将一个或更多个增强现实元素添加到用户的分割或身体)；克隆选项(例如，通过复制图像中的一个或更多个设计位置上的分割来复制和粘贴用户的一个或更多个图像的选项)；视频剪切选项(例如，用于移除用户的身体的一个或更多个部分)；轮廓效果选项(例如，用于在分割边界周围呈现一个或更多个增强现实元素，例如发光效果(glow)或阴影)；动画帧选项、身体遮罩选项；重新着色选项(例如，用于改变用户的身体的部分的颜色，例如替换用户所穿戴的服装)；波纹、颗粒或闪烁选项(例如，用于在图像背景中显示一个或更多个增强现实元素)；消失选项；以及身体部位切割选项。虚拟化模式选择控制了用户的身体的分割影响图像中视觉元素相对于用户显示的方式。图6至图9示出了可以由视觉效果选择模块519选择以及下文进行讨论的一个或更多个选项的示意性输出。

图像修改模块518可以基于由视觉效果选择模块519选择的模式和从平滑分割模块516接收到的经平滑的分割，来调整由摄像装置捕获的图像。图像修改模块518例如通过改变图像中的背景、用户的部分、用户的视觉属性和/或位置，来调整在图像中呈现背景或用户的方式。图像显示模块520将由图像修改模块518进行的调整组合到所接收到的描绘用户的身体的单目图像中。该图像由图像显示模块520提供给客户端设备102，然后可以发送给另一个用户，或者被存储以供以后访问和显示。

图6至图9是根据一些示例的分割估计***的输出的图解表示。例如，如图6中所示，分割估计***224生成经平滑的分割610。分割估计***224还可以基于经平滑的分割610来生成分割边界620。基于经平滑的分割610和/或分割边界620，分割估计***224可以对单目图像或视频应用一个或更多个视觉效果。

在一个示例中，如图7所示，分割估计***224可以修改单目图像或视频的背景。具体地，分割估计***224可以接收单目图像710。如以上所讨论的，分割估计***224可以生成经平滑的分割(例如，经平滑的分割610)。分割估计***224可以确定用户的整个身体对应于像素集合712以及背景对应于像素集合716。分割估计***224可以接收用户输入，该用户输入导航用户界面元素714以修改单目图像710的背景。作为响应，分割估计***224生成图像720，在该图像720中与背景对应的像素集合716已被另一图像或视频722替换。图像或视频722可以由用户通过用户界面元素714来选择。

具体地，如图7所示，由用户选择的可视化模式可以包括对背景移除(替换选项)的选择。响应于接收到对该选项的选择，分割估计***224基于分割(例如，分割610)来识别单目图像710中的与单目图像710的背景(例如，像素集合716)对应的像素。为了生成图像720，分割估计***224利用不同的图像或视频722替换单目图像710中的与背景对应的像素集合716。

在一些情况下，由用户选择的可视化模式还可以包括重新着色选项。在这种情况下，除了替换背景的像素之外或作为替换背景的像素的替选，分割估计***224还替换图像中描绘的整个身体的像素。具体地，如图7所示，分割估计***224基于分割(例如，分割610)识别单目图像710中的与用户的整个身体对应的像素集合712。分割估计***224改变诸如与用户的特定身体部位(例如，手臂)对应的像素等像素的集合的一个或更多个部分的颜色或属性。具体地，如图像730所示，分割估计***224利用不同的图像或视频732替换单目图像710中的与背景对应的像素集合716，并且改变与图像中描绘的用户的手臂对应的像素集合的一个或更多个部分734的颜色或属性。在一些情况下，像素集合的部分被改变到的颜色或属性由用户例如通过导航用户界面元素714来选择。

在一些情况下，由用户选择的可视化模式还可以包括身体部位切割选项。在这种情况下，除了替换背景的像素之外或作为替换背景的像素的替选，分割估计***224还替换图像中描述的整个身体的一些部位或部分的像素。例如，分割估计***224基于分割(例如，分割610)识别单目图像710的与用户的整个身体对应的像素集合712。分割估计***224改变诸如与用户的特定身体部位(例如，手臂)对应的像素等像素的集合的一个或更多个部分的颜色或属性。可以基于背景像素来选择用于替换像素集合的部分的像素的颜色或属性。具体地，分割估计***224利用与背景中的像素匹配的像素值替换与图像中描绘的用户的手臂对应的像素的集合的一个或更多个部分734的颜色或属性。以这种方式，该像素集合的一个或更多个部分734在图像中显现为已从用户的整个身体中移除。

在一些情况下，接收到选择要移除的骨骼区域(例如，手臂和腿部区域)的用户输入。响应于该输入，分割估计***224访问骨骼模型，该骨骼模型指定与所选择的骨骼区域对应的骨骼关键点。然后，分割估计***224选择像素集合中的与骨骼关键点对应的部分进行重新着色，以匹配围绕像素集合的背景像素。

在一些情况下，由用户选择的可视化模式还可以包括消失选项。在这种情况下，除了替换背景的像素之外或作为替换背景的像素的替选，分割估计***224还替换或移除图像中描绘的整个身体的像素。例如，分割估计***224基于分割(例如，分割610)识别单目图像710的与用户的整个身体对应的像素集合712。分割估计***224改变像素集合的颜色或属性，以匹配背景图像像素。以这种方式，与用户的整个身体对应的分割610的像素集合在图像中显现为已被移除，从而在修改的图像中仅留下背景。

在一些情况下，由用户选择的可视化模式还可以包括克隆选项。在这种情况下，除了替换背景的像素之外或作为替换背景的像素的替选，分割估计***224还一次或更多次地复制图像中的与分割610对应的部分。然后，复制的部分可以显示在一个或更多个用户指定或自动确定的位置处，例如显示在图像中描绘的用户旁边和/或图像中描绘的用户后面的位置处。具体地，如图8所示，分割估计***224基于分割(例如，分割610)识别单目图像800中的与用户的整个身体对应的像素集合810。如图8中所示，分割估计***224复制单目图像800的像素集合810。分割估计***224将复制的像素集合820添加至单目图像中的其他部分，以与单目图像800中的与整个身体对应的像素集合810相邻或相对地显示。复制的像素集合820可以被添加到图像800任何次数，使得与用户对应的像素集合810的多个实例或副本同时出现在修改的图像800中。

在一些情况下，由用户选择的可视化模式还可以包括遮挡选项。在这种情况下，除了替换背景的像素之外或作为替换背景的像素的替选，分割估计***224还将一个或更多个图形元素添加至图像中描绘的整个身体的像素。具体地，分割估计***224基于分割(例如，分割610)来识别单目图像710中的与用户的整个身体对应的像素集合712。分割估计***224检索图形元素(例如，增强现实翅膀、角或装备，或其他用户选择的图形元素)。分割估计***224基于用户输入或者基于已检索到的图形元素的类型为图形元素选择显示位置。分割估计***224在与用户的整个身体对应的像素集合中识别出与图形元素所关联的身体部位相匹配的一组像素。分割估计***224将所检索的图形元素添加到所识别的该组像素附近或代替所识别的该组像素。例如，分割估计***224将翅膀添加至与整个身体的肩膀相关联的一组像素。

在一些情况下，响应于接收到轮廓选项，分割估计***224访问图像中描绘的整个身体的分割边界620。在这种情况下，分割估计***224可以添加从分割边界620延伸的图形元素。例如，如图9中所示，分割估计***224在图像900中描绘的用户910的分割边界周围添加阴影或发光效果920。这导致图像中描绘的用户910的边缘周围或后面出现发光效果或阴影。具体地，分割估计***224基于分割610的像素集合的边缘来识别用户的整个身体的边界。分割估计***224沿用户的整个身体的边界添加发光图形元素或阴影图形元素。

图10A是根据一些示例的用于生成对图像中描绘的用户的分割的过程1000的流程图。尽管流程图可以将操作描述为顺序过程，但是这些操作中的许多操作可以被并行或同时执行。此外，可以重新布置操作的顺序。过程在其操作完成时终止。过程可以对应于方法、程序等。方法的步骤可以全部或部分地执行，可以结合其他方法中的一些或全部步骤来执行，并且可以由任何数目的不同***或其任何部分(例如，包括在任何***中的处理器)来执行。

在操作1001处，如以上所讨论的那样，客户端设备102接收单目图像，该单目图像包括对用户的整个身体的描绘。例如，分割估计***224可以捕获描绘一个或更多个用户(例如，多个用户)的一个或更多个整个身体的图像。

在操作1002处，如以上所讨论的那样，客户端设备102基于单目图像生成用户的整个身体的分割。作为示例，分割估计***224可以通过对图像应用第一机器学习技术来生成多个整个身体的多个分割。

在操作1003处，如以上所讨论的那样，分割估计***102访问包括在该单目图像之前接收到的多个单目图像的视频馈送。例如，分割估计***224可以将第二机器学习技术应用于描绘多个整个身体的多个先前接收到的图像，以预测对当前接收到的图像的多个整个身体的分割。

在操作1004处，如以上所讨论的那样，客户端设备102使用视频馈送对基于单目图像生成的整个身体的分割进行平滑，以提供经平滑的分割。例如，分割估计***224可以计算基于第一机器学习技术生成的对多个整个身体的分割与由第二机器学习技术生成的预测分割之间的偏差。分割估计***224可以基于偏差来修改由第一机器学习技术生成的分割。

在操作1005处，如以上所讨论的那样，客户端设备102基于经平滑的分割对单目图像应用一个或更多个视觉效果。例如，分割估计***224可以替换描绘用户的整个身体的多个分割的图像的背景。

图10B是根据一些示例的用于生成对图像中描绘的用户的分割的过程1010的流程图。尽管流程图可以将操作描述为顺序过程，但是这些操作中的许多操作可以被并行或同时执行。此外，可以重新布置操作的顺序。过程在其操作完成时终止。过程可以对应于方法、程序等。方法的步骤可以全部或部分地执行，可以结合其他方法中的一些或全部步骤来执行，并且可以由任何数目的不同***或其任何部分(例如，包括在任何***中的处理器)来执行。

在操作1011处，如以上所讨论的那样，客户端设备102接收单目图像，该单目图像包括对用户的整个身体的描绘。

在操作1012处，如以上所讨论的那样，客户端设备102基于单目图像生成对用户的整个身体的分割。例如，分割估计***224可以在单目图像上应用第一机器学习技术和/或第二机器学习技术来分割一个或更多个用户的整个身体。

在操作1013处，如以上所讨论的那样，客户端设备102接收选择可视化模式的输入。

在操作1014处，如以上所讨论的那样，客户端设备102基于分割，对单目图像应用与可视化模式对应的一个或更多个视觉效果。

机器架构

图11是机器1100的图解表示，在该机器1100内可以执行用于使机器1100执行本文所讨论的方法中的任何一种或更多种的指令1108(例如，软件、程序、应用、小程序、APP或其他可执行代码)。例如，指令1108可以使机器1100执行本文中描述的方法中的任何一个或更多个方法。指令1108将通用的未经编程的机器1100转换成被编程为以所描述的方式执行描述和示出的功能的特定机器1100。机器1100可以作为独立设备操作，或者可以耦接(例如，联网)至其他机器。在联网部署中，机器1100可以在服务器客户端网络环境中以服务器机器或客户端机器的性能来操作，或者在对等(或分布式)网络环境中作为对等机器来操作。机器1100可以包括但不限于：服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体***、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家居设备(例如，智能电器)、其他智能设备、web装置、网络路由器、网络交换机、网络桥接器或能够顺序地或以其他方式执行指定要由机器1100采取的动作的指令1108的任何机器。此外，虽然仅示出了单个机器1100，但是术语“机器”还应被认为包括单独地或联合地执行指令1108以执行本文中讨论的任何一种或更多种方法的机器的集合。例如，机器1100可以包括客户端设备102或者形成消息服务器***108的一部分的若干服务器设备中的任何一个。在一些示例中，机器1100还可以包括客户端***和服务器***两者，其中特定方法或算法的某些操作在服务器侧执行，并且所述特定方法或算法的某些操作在客户端侧执行。

机器1100可以包括可以被配置成经由总线1140彼此通信的处理器1102、存储器1104和输入/输出(I/O)部件1138。在示例中，处理器1102(例如，中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另外的处理器或其任何合适的组合)可以包括例如执行指令1108的处理器16016和处理器1110。术语“处理器”旨在包括多核处理器，所述多核处理器可以包括可以同时执行指令的两个或更多个独立的处理器(有时被称为“核”)。尽管图11示出了多个处理器1102，但是机器1100可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如，多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器、或者其任意组合。

存储器1104包括主存储器1112、静态存储器1114以及存储单元1116，其均可由处理器1102经由总线1140访问。主存储器1104、静态存储器1114和存储单元1116存储体现本文所描述的方法或功能中的任何一种或更多种的指令1108。指令1108在其由机器1100执行期间还可以完全地或部分地驻留在主存储器1112内、驻留在静态存储器1114内、驻留在存储单元1116内的机器可读介质1118内、驻留在处理器1102中的至少一个处理器内(例如，在处理器的高速缓存存储器内)或者驻留在其任何合适的组合内。

I/O部件1138可以包括接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量结果等的各种部件。包括在特定机器中的特定I/O部件1138将取决于机器的类型。例如，诸如移动电话的便携式机器可以包括触摸输入设备或其他这样的输入机构，而无头服务器机器将可能不包括这样的触摸输入设备。应当认识到的是，I/O部件1138可以包括图11中未示出的许多其他部件。在各种示例中，I/O部件1138可以包括用户输出部件1124和用户输入部件1126。用户输出部件1124可以包括视觉部件(例如，诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)的显示器)、声学部件(例如，扬声器)、触觉部件(例如，振动马达、阻力机构)、其他信号发生器等。用户输入部件1126可以包括字母数字输入部件(例如，键盘、被配置成接收字母数字输入的触摸屏、光电键盘或其他字母数字输入部件)、基于点的输入部件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指向仪器)、触觉输入部件(例如，物理按钮、提供触摸或触摸姿势的位置和力的触摸屏或其他触觉输入部件)、音频输入部件(例如，麦克风)等。

在其他示例中，I/O部件1138可以包括生物计量部件1128、运动部件1130、环境部件1132、或位置部件1134以及各种其他部件。例如，生物计量部件1128包括用于检测表达(例如，手表达、面部表达、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如，血压、心率、体温、出汗或脑波)、识别人(例如，语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件1130包括加速度传感器部件(例如，加速度计)、重力传感器部件、旋转传感器部件(例如，陀螺仪)。

环境部件1132包括例如一个或更多个摄像装置(具有静止图像/照片和视频能力)、照明传感器部件(例如，光度计)、温度传感器部件(例如，检测环境温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如，气压计)、声学传感器部件(例如，检测背景噪声的一个或更多个麦克风)、接近传感器部件(例如，检测附近对象的红外传感器)、气体传感器(例如，为了安全而检测危险气体的浓度或者测量大气中的污染物的气体检测传感器)，或者可以提供与周围物理环境对应的指示、测量或信号的其他部件。

关于摄像装置，客户端设备102可以具有摄像装置***，该摄像装置***包括例如在客户端设备102的前表面上的前置摄像装置以及在客户端设备102的后表面上的后置摄像装置。前置摄像装置可以例如用于捕获客户端设备102的用户的静止图像和视频(例如，“自拍”)，然后可以利用上述增强数据(例如，过滤器)对该静止图像和视频进行增强。后置摄像装置可以例如用于以更传统的摄像装置模式捕获静止图像和视频，类似地使用增强数据对这些图像进行增强。除了前置摄像装置和后置摄像装置之外，客户端设备102还可以包括用于捕获360°照片和视频的360°摄像装置。

此外，客户端设备102的摄像装置***可以包括双后置摄像装置(例如，主摄像装置以及深度感测摄像装置)，或者甚至在客户端设备102的前后侧包括三重、四重或五重后置摄像装置配置。例如，这些多摄像装置***可以包括广角摄像装置、超广角摄像装置、长焦摄像装置、微距摄像装置和深度传感器。

位置部件1134包括定位传感器部件(例如，GPS接收器部件)、海拔传感器部件(例如，检测可以得到海拔的气压的高度计或气压计)、取向传感器部件(例如，磁力计)等。

可以使用各种各样的技术来实现通信。I/O部件1138还包括通信部件1136，该通信部件1136可操作以经由相应的耦接或连接将机器1100耦接至网络1120或设备1122。例如，通信部件1136可以包括与网络1120对接的网络接口部件或其他合适的设备。在另外的示例中，通信部件1136可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、部件(例如，/>低功耗)、/>部件以及经由其他模态提供通信的其他通信部件。设备1122可以是另一机器或各种***设备中的任何***设备(例如，经由USB耦接的***设备)。

此外，通信部件1136可以检测标识符或包括能够进行操作以检测标识符的部件。例如，通信部件1136可以包括射频识别(RFID)标签阅读器部件、NFC智能标签检测部件、光学阅读器部件(例如，用于检测诸如通用产品代码(UPC)条形码的一维条形码，诸如快速反应(QR)码、Aztec码、数据矩阵、数据符号(Dataglyph)、最大码(MaxiCode)、PDF417、超码(Ultra Code)、UCC RSS-2D条形码的多维条形码和其他光学码的光学传感器)或声学检测部件(例如，用于识别标记的音频信号的麦克风)。此外，可以经由通信部件1116得出各种信息，例如经由因特网协议(IP)地理位置得出的位置、经由信号三角测量得出的位置、经由检测可以指示特定位置的NFC信标信号得出的位置等。

各种存储器(例如，主存储器1112、静态存储器1114以及处理器1102的存储器)以及存储单元1116可以存储由本文中所描述的方法或功能中的任何一种或更多种方法或功能实现或使用的一组或更多组指令和数据结构(例如，软件)。在由处理器1102执行的情况下，这些指令(例如，指令1108)使各种操作实现所公开的示例。

可以经由网络接口设备(例如，通信部件1136中包括的网络接口部件)，使用传输介质并且使用若干公知的传输协议中的任何一种传输协议(例如，超文本传输协议(HTTP))，通过网络1120来发送或接收指令1108。类似地，可以使用传输介质经由与设备1122的耦接(例如，对等耦接)来发送或接收指令1108。

软件架构

图12是示出可以安装在本文中描述的设备中的任何一个或更多个设备上的软件架构1204的框图1200。软件架构1204由硬件支持，该硬件例如是包括处理器1220、存储器1226和I/O部件1238的机器1202。在该示例中，软件架构1204可以被概念化为层的堆栈，其中每个层提供特定功能。软件架构1204包括下述层，例如操作***1212、库1210、框架1208和应用1206。在操作上，应用1206通过软件堆栈来激活API调用1250并且响应于API调用1250而接收消息1252。

操作***1212管理硬件资源并提供公共服务。操作***1212包括例如：核1214、服务1216以及驱动器1222。核1214用作硬件与其他软件层之间的抽象层。例如，核1214提供存储器管理、处理器管理(例如，调度)、部件管理、联网和安全设置等功能。服务1216可以针对其他软件层提供其他公共服务。驱动器1222负责控制底层硬件或与底层硬件对接(interface)。例如，驱动器1222可以包括显示驱动器、摄像装置驱动器、或/>低能耗驱动器、闪存驱动器、串行通信驱动器(例如，USB驱动器)、/>驱动器、音频驱动器、电力管理驱动器等。

库1210提供由应用1206使用的共同低级基础设施。库1210可以包括***库1218(例如，C标准库)，该***库1218提供诸如存储器分配功能、字符串操纵功能、数学功能等的功能。此外，库1210可以包括API库1224，例如媒体库(例如，用于支持各种媒体格式的呈现和操纵的库，所述各种媒体格式例如运动图像专家组-4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG))、图形库(例如，用于在显示器上的图形内容中以二维(2D)和三维(3D)进行呈现的OpenGL框架)、数据库库(例如，提供各种关系数据库功能的SQLite)、web库(例如，提供web浏览功能的WebKit)等。库1210还可以包括各种其他库1228，以向应用1206提供许多其他API。

框架1208提供由应用1206使用的共同高级基础设施。例如，框架1208提供各种图形用户接口(GUI)功能、高级资源管理和高级定位服务。框架1208可以提供可以由应用1206使用的广泛的其他API，其中一些API可以特定于特定操作***或平台。

在示例中，应用1206可以包括家庭应用1236、联系人应用1230、浏览器应用1232、书籍阅读器应用1234、定位应用1242、媒体应用1244、消息应用1246、游戏应用1248和诸如外部应用1240的各种各样的其他应用。应用1206是执行程序中定义的功能的程序。可以采用各种编程语言来创建以各种方式构造的应用1206中的一个或更多个，所述编程语言例如面向对象的编程语言(例如，Objective-C、Java或C++)或过程编程语言(例如，C或汇编语言)。在特定示例中，外部应用1240(例如，由特定平台的供应商之外的实体使用ANDROIDTM或IOSTM软件开发工具包(SDK)开发的应用)可以是在诸如IOSTM、ANDROIDTM、Phone的移动操作***或其他移动操作***上运行的移动软件。在该示例中，外部应用1240可以激活由操作***1212提供的API调用1250以促进本文中描述的功能。

术语表

“载波信号”是指能够存储、编码或携载由机器执行的指令并且包括数字或模拟通信信号的任何无形介质或有助于这样的指令的通信的其他无形介质。可以经由网络接口设备使用传输介质在网络上发送或接收指令。

“客户端设备”是指与通信网络对接以从一个或更多个服务器***或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、桌上型计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、膝上型计算机、多处理器***、基于微处理器的或可编程消费电子产品、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。

通信网络”是指网络的一个或更多个部分，该网络可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、其他类型的网络或者两个或更多个这样的网络的组合。例如，网络或网络的一部分可以包括无线网络或蜂窝网络，并且耦接可以是码分多址(CDMA)连接、全局移动通信***(GSM)连接或其他类型的蜂窝或无线耦接。在该示例中，耦接可以实现各种类型的数据传输技术中的任何数据传输技术，诸如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、增强型数据速率GSM演进(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、***无线(4G)网络、通用移动通信***(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他数据传输技术、其他长距离协议或其他数据传输技术。

“部件”是指具有通过功能或子例程调用、分支点、API或对特定处理或控制功能提供分区或模块化的其他技术定义的边界的逻辑、设备或物理实体。部件可以经由它们的接口与其他部件组合以执行机器处理。部件可以是被设计用于与其他部件一起使用的经封装的功能硬件单元并且可以是通常执行相关功能中的特定功能的程序的一部分。

部件可以构成软件部件(例如，在机器可读介质上实施的代码)或硬件部件。“硬件部件”是能够执行某些操作并且可以以某种物理方式来配置或布置的有形单元。在各种示例实施方式中，可以通过软件(例如，应用或应用部分)将一个或更多个计算机***(例如，独立计算机***、客户端计算机***或服务器计算机***)或者计算机***的一个或更多个硬件部件(例如，处理器或处理器组)配置为进行操作以执行本文中描述的某些操作的硬件部件。

也可以机械地、电子地或其任何合适的组合来实现硬件部件。例如，硬件部件可以包括被永久地配置成执行某些操作的专用电路或逻辑。硬件部件可以是专用处理器，例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件部件还可以包括通过软件被短暂配置成执行某些操作的可编程逻辑或电路***。例如，硬件部件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置，硬件部件就变成被唯一地定制成执行所配置的功能的特定机器(或机器的特定部件)，而不再是通用处理器。应当认识到，可以出于成本和时间考虑来决定是机械地在专用并且永久配置的电路***中实现硬件部件还是在临时配置(例如，通过软件配置)的电路***中实现硬件部件。因此，短语“硬件部件”(或“硬件实现的部件”)应当被理解成包含有形实体，即被物理构造、永久配置(例如，硬连线)或临时配置(例如，编程)成以某种方式操作或者执行本文所描述的某些操作的实体。

考虑硬件部件被临时配置(例如，被编程)的示例，无需在任一时刻对硬件部件中的每一个进行配置或实例化。例如，在硬件部件包括通过软件配置而成为专用处理器的通用处理器的情况下，该通用处理器可以在不同时间处被配置成各自不同的专用处理器(例如，包括不同的硬件部件)。软件相应地将一个或多个特定处理器配置成例如在一个时刻处构成特定硬件部件并且在不同的时刻处构成不同的硬件部件。

硬件部件可以向其他硬件部件提供信息并且从其他硬件部件接收信息。因此，所描述的硬件部件可以被认为是通信地耦接的。在同时存在多个硬件部件的情况下，可以通过在两个或更多个硬件部件之间(例如，通过适当的电路和总线)的信号传输来实现通信。在其中多个硬件部件在不同时间处被配置或被实例化的示例中，可以例如通过将信息存储在多个硬件部件可以访问的存储器结构中并且在该存储器结构中检索信息来实现这样的硬件部件之间的通信。例如，一个硬件部件可以执行操作并且将该操作的输出存储在其通信地耦接至的存储器设备中。然后，另一硬件部件可以在随后的时间处访问该存储器设备以检索所存储的输出并对其进行处理。硬件部件还可以启动与输入设备或输出设备的通信，并且可以对资源(例如，信息的集合)进行操作。

本文所描述的示例方法的各种操作可以至少部分地由临时地配置(例如，通过软件)或永久地配置成执行相关操作的一个或更多个处理器来执行。无论是被临时地配置还是被永久地配置，这样的处理器可以构成进行操作以执行本文中描述的一个或更多个操作或功能的处理器实现的部件。如本文所使用的，“处理器实现的部件”是指使用一个或更多个处理器实现的硬件部件。类似地，在本文中所描述的方法可以至少部分地由处理器实现，其中，特定的一个或多个处理器是硬件的示例。例如，方法的至少一些操作可以由一个或更多个处理器1102或者处理器实现的部件执行。此外，该一个或更多个处理器还可以进行操作以支持“云计算”环境中的相关操作的执行或作为“软件即服务”(SaaS)操作。例如，操作中的至少一些操作可以由一组计算机(作为包括处理器的机器的示例)执行，其中这些操作可经由网络(例如，因特网)并且经由一个或更多个适当的接口(例如，API)来访问。某些操作的执行可以分布在处理器之间，不是仅驻留在单个机器内，而是被跨若干机器部署。在一些示例中，处理器或处理器实现的部件可以位于单个地理位置(例如，在家庭环境、办公室环境或服务器群内)。在其他示例中，处理器或处理器实现的部件可以跨若干地理位置分布。

“计算机可读存储介质”是指机器存储介质和传输介质二者。因此，这些术语包括存储设备/介质和载波/调制数据信号二者。术语“机器可读介质”、“计算机可读介质”和“设备可读介质”意指相同的事物，并且可以在本公开内容中可交换地使用。

“短暂消息”是指在有时间限制的持续时间内可访问的消息。短暂消息可以是文本、图像、视频等。针对短暂消息的访问时间可以由消息发送者设置。可替选地，访问时间可以是默认设置或者由接收者指定的设置。无论设置技术如何，该消息都是暂态的。

“机器存储介质”是指存储可执行指令、例程和数据的单个或多个存储设备和介质(例如，集中式或分布式数据库，以及相关联的缓存和服务器)。因此，该术语应当被视为包括但不限于固态存储器以及光学和磁介质，包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和设备存储介质的具体示例包括：非易失性存储器，包括例如半导体存储器设备，例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA和闪存设备；磁盘，例如内部硬盘和可移除盘；磁光盘；以及CD-ROM和DVD-ROM盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物并且可以在本公开内容中互换地使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质(其中的至少一些被涵盖在术语“信号介质”中)。

“非暂态计算机可读存储介质”是指能够存储、编码或携载由机器执行的指令的有形介质。

“信号介质”是指能够存储、编码或携载由机器执行的指令并且包括数字或模拟通信信号的任何无形介质或者有助于软件或数据的通信的其他无形介质。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”指的是其各个特征中的一个或更多个特征以将信息编码在该信号中的方式来设置或改变的信号。术语“传输介质”和“信号介质”指的是相同的事物，并且可以在本公开内容中互换使用。

在不脱离本公开内容的范围的情况下，可以对所公开的示例进行改变和修改。这些以及其他改变或修改旨在包括在如所附权利要求书中所表达的本公开内容的范围内。

Claims

1.一种方法，包括：

由一个或更多个处理器接收单目图像，所述单目图像包括对用户的整个身体的描绘；

由所述一个或更多个处理器基于所述单目图像来生成对所述用户的整个身体的分割；

访问包括在所述单目图像之前接收到的多个单目图像的视频馈送；

使用所述视频馈送，对基于所述单目图像生成的对所述整个身体的分割进行平滑，以提供经平滑的分割；以及

基于所述经平滑的分割，对所述单目图像应用一个或更多个视觉效果。

2.根据权利要求1所述的方法，其中，所述用户的整个身体包括所述用户的骨骼关节的指定组合，并且其中，所述单目图像包括对包括所述用户的多个用户的多个身体的描绘，所述方法还包括：生成对所述多个用户的所述多个身体的多个分割。

3.根据权利要求1至2中任一项所述的方法，其中，所述单目图像是视频的第一帧，所述方法还包括：

使用第一机器学***滑包括：将所生成的分割与通过所述第一机器学习技术根据所述多个单目图像生成的先前分割进行比较。

4.根据权利要求3所述的方法，其中，所述第一机器学习技术包括第一深度神经网络。

5.根据权利要求1至4中任一项所述的方法，还包括：通过执行包括以下的操作来训练所述第一深度神经网络：

接收训练数据，所述训练数据包括多个训练单目图像和针对所述多个训练单目图像中的每个训练单目图像的真值分割；

将所述第一深度神经网络应用于所述多个训练单目图像中的第一训练单目图像，以估计对所述第一训练单目图像中描绘的给定身体的分割；

计算与所述第一训练单目图像相关联的所述真值分割与所估计的分割之间的偏差；

基于所计算的偏差来更新所述第一深度神经网络的参数；以及

针对所述多个训练单目图像中的每个训练单目图像重复所述应用的步骤、所述计算的步骤和所述更新的步骤。

6.根据权利要求5所述的方法，其中，所述多个训练单目图像包括各个训练单目图像中描绘的一个或更多个身体的真值骨骼关键点，其中，所述第一深度神经网络估计所述第一训练单目图像中描绘的给定身体的骨骼关键点，所述方法还包括：基于所估计的骨骼关键点与所述真值骨骼关键点之间的偏差来更新所述第一深度神经网络的参数。

7.根据权利要求5至6中任一项所述的方法，其中，所述多个训练单目图像包括多个图像分辨率，所述方法还包括基于所述第一深度神经网络来生成多个分割模型，所述多个分割模型中的第一分割模型基于具有所述多个图像分辨率中的第一图像分辨率的训练单目图像来训练，所述多个分割模型中的第二分割模型基于具有所述多个图像分辨率中的第二图像分辨率的训练单目图像来训练。

8.根据权利要求5至7中任一项所述的方法，其中，所述多个训练单目图像包括多个经标记图像和视频数据和多个未经标记的图像和视频数据。

9.根据权利要求5至8中任一项所述的方法，其中，所述多个训练单目图像包括对特定用户的整个身体的描绘、缺少对任何用户的描绘的图像、对多个用户的描绘以及对距图像捕获设备不同距离处的用户的描绘。

10.根据权利要求1至9中任一项所述的方法，其中，对所述分割进行平滑包括：将所述视频馈送应用于第二机器学习技术，以基于对所述多个单目图像中的整个身体的描绘来预测一个或更多个分割。

11.根据权利要求10所述的方法，其中，所述第二机器学***滑包括：将由所述第二深度神经网络提供的所预测的对所述整个身体的一个或更多个分割与所接收到的单目图像中的由第一机器学习技术生成的对所述整个身体的分割进行比较。

12.根据权利要求10至11中任一项所述的方法，还包括：通过执行包括以下的操作来训练所述第二深度神经网络：

接收包括多个训练视频和针对所述多个训练视频中的每个训练视频的真值分割的训练数据；

将所述第二深度神经网络应用于所述多个训练视频中的第一训练视频，以预测所述第一训练视频之后的帧中的所述身体的分割；

计算所预测的对所述身体的分割与所述第一训练视频之后的帧中描绘的所述身体的真值分割之间的偏差；

基于所计算的偏差来更新所述第二深度神经网络的参数；以及

针对所述多个训练视频中的每个训练视频重复所述应用的步骤、所述计算的步骤和所述更新的步骤。

13.根据权利要求1至12中任一项所述的方法，其中，在接收所述单目图像之前的阈值秒接收所述多个单目图像。

14.根据权利要求1至13中任一项所述的方法，还包括：

计算所述用户的整个身体的分割边界。

15.根据权利要求1至14中任一项所述的方法，还包括：

确定用于捕获所述单目图像的客户端设备的一个或更多个设备能力；以及

基于所述一个或更多个设备能力来选择分割模型以生成所述分割。

16.根据权利要求1至15中任一项所述的方法，还包括：

基于与所述经平滑的分割相关联的分割边界，对所述单目图像应用所述一个或更多个视觉效果。

17.根据权利要求1至16中任一项所述的方法，还包括：应用引导滤波器，以提高所述经平滑的分割的以下部分的分割质量，所述部分在所述经平滑的分割的边缘的指定数目的像素内。

18.根据权利要求1至17中任一项所述的方法，其中，对所述单目图像应用所述一个或更多个视觉效果包括：利用不同的背景替换所述单目图像的背景，或者利用不同的视觉元素替换所述单目图像中描绘的所述用户的部分。

19.一种***，包括：

处理器，以及

存储器部件，所述存储器部件上存储有指令，所述指令在由所述处理器执行时，使得所述处理器执行包括以下的操作：

接收单目图像，所述单目图像包括对用户的整个身体的描绘；

基于所述单目图像来生成对所述用户的整个身体的分割；

20.一种非暂态计算机可读存储介质，在所述非暂态计算机可读存储介质上存储有指令，所述指令在由处理器执行时使得所述处理器执行包括以下的操作：

基于所述单目图像来生成对所述用户的整个身体的分割；