CN110796589A

CN110796589A - 点云操作

Info

Publication number: CN110796589A
Application number: CN201910573906.5A
Authority: CN
Inventors: R·米沙夫; T·阿什克纳济; M·波特曼
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2018-07-31
Filing date: 2019-06-28
Publication date: 2020-02-14
Also published as: DE102019119058A1; US10783698B2; US20200043220A1

Abstract

本文描述的实施例提供一种装置，包括：处理器，用于：将点云数据集中包括多个体素的三维(3D)场景分离为3D栅格单元，3D栅格单元中的每个单元包括多个面；执行3D聚类算法，以生成多个3D聚类；为多个单元中的每个单元的每个面定义透明等级；检测3D场景中的多个聚类的单元的表面层；以及从多个聚类删除不处于单元的表面层中的单元。可以描述并且要求其他实施例。

Description

点云操作

相关申请

本申请涉及Jill Boyce于2018年7月31日提交的题为“REDUCED RENDERING OFSIXDEGREE OF FREEDOM VIDEO”的共同受让美国专利申请序列号No.16/050,153，其整个内容通过引用合并于此。

背景技术

六自由度(6DoF)视频是新兴的沉浸式视频用例，其为观看者提供沉浸式媒体体验，其中，观看者控制场景的视点。更简单的三自由度(3DoF)视频(例如，360度或全景视频)允许观看者从固定位置围绕X、Y和Z轴改变(描述为偏航、俯仰和翻滚的)取向。6DoF视频使得观看者能够通过沿着X、Y和Z轴的平移运动改变位置。

可以使用点云表示6DoF视频。然而，点云数据的渲染在计算上是昂贵的，使得难以按高帧率渲染包含大数量的点的点云视频。此外，点云数据速率很大，需要大容量以用于存储或传输。

附图说明

因此，通过参考实施例(其中一些示于附图中)，可以详细地理解本实施例的以上陈述的特征的方式，可以对以上简要概述的本实施例进行更具体地描述。然而，应注意，附图仅示出典型实施例，因此不应视为限制其范围。

图1是根据本文描述的一些实施例的处理***的框图；

图2是根据本文描述的一些实施例的处理器的框图；

图3是根据本文描述的一些实施例的图形处理器的框图；

图4是根据本文描述的一些实施例的图形处理器的图形处理引擎的框图；

图5是根据本文描述的一些实施例的图形处理器核的硬件逻辑的框图；

图6A-图6B示出根据本文描述的一些实施例的在图形处理器核中所采用的包括处理元件阵列的线程执行逻辑；

图7是示出根据本文描述的一些实施例的图形处理器指令格式的框图；

图8是根据本文描述的一些实施例的图形处理器的框图；

图9A-图9B示出根据本文描述的一些实施例的图形处理器命令格式和命令序列；

图10示出根据本文描述的一些实施例的用于数据处理***的示例性图形软件架构；

图11A是示出根据本文描述的一些实施例的IP核开发***的框图

图11B示出根据本文描述的一些实施例的集成电路封装组件的截面侧视图；

图12是示出根据实施例的示例性片上***集成电路的框图；

图13A-图13B是示出根据本文描述的实施例的在SoC内使用的示例性图形处理器的框图；

图14A-图14B是示出根据本文描述的实施例的附加示例性图形处理器逻辑；

图15A示出根据本文描述的实施例的各种形式的沉浸式视频；

图15B示出根据本文描述的一些实施例的用于沉浸式视频的图像投影和纹理平面；

图16示出根据本文描述的实施例的服务器基础架构可以生成沉浸式视频内容并且对其进行编码以用于传输到一个或多个客户端设备的客户端-服务器***；

图17A-图17B示出根据本文描述的一些实施例的用于对3DoF Plus内容进行编码和解码的***；

图18A-图18B示出根据本文描述的一些实施例的用于生成记分牌信息元数据的程序逻辑；

图19A-图19B示出根据本文描述的一些实施例的用于经由点云数据对6DoF内容进行编码和解码的***；

图20示出根据本文描述的实施例的数据处理***；

图21示出根据本文描述的一些实施例的用于点云操作的方法的操作；

图22A-图22E示出根据本文描述的一些实施例的从点云数据导出的场景；

图23示出根据本文描述的一些实施例的用于点云操作的方法的操作；

图24示出根据本文描述的一些实施例的用于点云操作的数据结构；

图25示出根据本文描述的一些实施例的用于点云操作的方法的操作；

图26示出根据本文描述的一些实施例的用于点云操作的方法的操作；

图27示出根据本文描述的一些实施例的用于点云操作的方法的操作；

图28示出根据本文描述的一些实施例的用于点云操作的数据结构；

图29是根据本文描述的一些实施例的包括图形处理器的计算设备的框图。

具体实施方式

出于解释的目的，阐述了大量具体细节，以提供对以下描述的各个实施例的透彻理解。然而，对于本领域技术人员将显而易见的是，可以在没有这些具体细节中的一些细节的情况下实践实施例。在其他实例中，以框图形式示出公知的结构和设备，以避免掩盖基本原理，并且提供对实施例的更透彻理解。尽管参照图形处理器描述了以下实施例中的一些，但是本文描述的技术和教导可以应用于各种类型的电路或半导体设备，包括通用处理设备或图形处理设备。本文对“一个实施例”或“实施例”的引用指示，与实施例结合或关联地描述的特定特征、结构或特性可以包括于这些实施例中的至少一个中。然而，在说明书中各处出现的短语“在一个实施例中”并不一定全部指代同一实施例。

在以下描述和权利要求中，可以使用术语“耦合”和“连接”连同其派生词。应理解，这些术语并非意图彼此同义。“耦合”用于指示彼此可以或可以不直接物理或电接触的两个或更多个要素彼此协作或交互。“连接”用于指示在彼此耦合的两个或更多个要素之间建立通信。

在下面的描述中，图1-图14提供包括或涉及各个实施例的示例性数据处理***和图形处理器逻辑的概述。图15-图25提供各个实施例的具体细节。关于图形处理器描述以下实施例的一些方面，而关于通用处理器(例如，中央处理单元(CPU))描述其他方面。类似的技术和教导可以应用于其他类型的电路或半导体设备，包括但不限于许多集成核处理器、GPU聚类或现场可编程门阵列(FPGA)的一个或多个实例。通常，教导可应用于操纵或处理图像(例如，样本、像素)、顶点数据或几何数据的任何处理器或机器。

***概述

图1是根据实施例的处理***100的框图。在各个实施例中，***100包括一个或多个处理器102和一个或多个图形处理器108，并且可以是单处理器桌面***、多处理器工作站***或具有大数量的处理器102或处理器核107的服务器***。在一个实施例中，***100是合并于用在移动设备、手持设备或嵌入式设备中的片上***(SoC)集成电路内的处理平台。

在一个实施例中，***100可以包括基于服务器的游戏平台、游戏控制台(包括游戏和媒体控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台)，或者合并于其内。在一些实施例中，***100是移动电话、智能电话、平板计算设备或移动互联网设备。处理***100还可以包括可穿戴设备(例如，智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备)，与之耦合，或者集成于其内。在一些实施例中，处理***100是具有一个或多个处理器102和由一个或多个图形处理器108生成的图形界面的电视或机顶盒设备。

在一些实施例中，一个或多个处理器102均包括一个或多个处理器核107，以处理指令，所述指令当被执行时执行用于***和用户软件的操作。在一些实施例中，一个或多个处理器核107中的每一个被配置为处理特定指令集109。在一些实施例中，指令集109可以促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。多个处理器核107均可以处理不同的指令集109，其可以包括用于促进其他指令集的仿真的指令。处理器核107还可以包括其他处理设备(例如，数字信号处理器(DSP))。

在一些实施例中，处理器102包括缓存存储器104。取决于架构，处理器102可以具有单个内部缓存或多级内部缓存。在一些实施例中，在处理器102的各种组件之间共享缓存存储器。在一些实施例中，处理器102还使用外部缓存(例如，三级(L3)缓存或最后一级缓存(LLC))(未示出)，其可以使用已知的缓存一致性技术在处理器核107之间共享。在处理器102中还包括寄存器文件106，其可以包括用于存储不同类型数据的不同类型寄存器(例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。一些寄存器可以是通用寄存器，而其他寄存器可以对于处理器102的设计是专用的。

在一些实施例中，一个或多个处理器102与一个或多个接口总线110耦合，以在处理器102与***100中的其他组件之间传输通信信号(例如，地址信号、数据信号或控制信号)。接口总线110在一个实施例中可以是处理器总线(例如，直接媒体接口(DMI)总线的版本)。然而，处理器总线不限于DMI总线，并且可以包括一个或多个***组件互连总线(例如，PCI、PCI Express)、存储器总线或其他类型的接口总线。在一个实施例中，处理器102包括集成存储器控制器116和平台控制器中枢130。存储器控制器116促进存储器设备与***100的其他组件之间的通信，而平台控制器中枢(PCH)130提供经由本地I/O总线至I/O设备的连接。

存储器设备120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪存设备，相变存储器设备或具有合适的性能以充当进程存储器的一些其他存储器设备。在一个实施例中，存储器设备120可以操作为用于***100的***存储器，以存储数据122和指令121，以便在一个或多个处理器102执行应用或进程时使用。存储器控制器116还与可选的外部图形处理器112耦合，外部图形处理器112可以与处理器102中的一个或多个图形处理器108进行通信，以执行图形操作和媒体操作。在一些实施例中，显示设备111可以连接到处理器102。显示设备111可以是如在移动电子设备或膝上型设备中的内部显示设备或者经由显示接口(例如，DisplayPort等)附接的外部显示设备中的一个或多个。在一个实施例中，显示设备111可以是头戴式显示器(HMD)(例如，用于虚拟现实(VR)应用或增强现实(AR)应用的立体显示设备)。

在一些实施例中，平台控制器中枢130使得***设备能够经由高速I/O总线连接到存储器设备120和处理器102。I/O***设备包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发机126、触摸传感器125、数据存储设备124(例如，硬盘驱动器、闪存等)。数据存储设备124可以经由存储接口(例如，SATA)或经由***总线(例如，***组件互连总线(例如，PCI、PCI Express))连接。触摸传感器125可以包括触摸屏传感器、压力传感器或指纹传感器。无线收发机126可以是Wi-Fi收发机、蓝牙收发机或移动网络收发机(例如，3G、4G或长期演进(LTE)收发机)。固件接口128使得能够进行与***固件的通信，并且可以是例如统一可扩展固件接口(UEFI)。网络控制器134可以使得能够与有线网络进行网络连接。在一些实施例中，高性能网络控制器(未示出)与接口总线110耦合。音频控制器146在一个实施例中是多通道高清晰度音频控制器。在一个实施例中，***100包括可选的遗留I/O控制器140，以用于将遗留(例如，个人***2(PS/2))设备耦合到***。平台控制器中枢130还可以连接到一个或多个通用串行总线(USB)控制器142，其连接输入设备(例如，键盘和鼠标143组合、相机144或其他USB输入设备)。

应理解，所示的***100是示例性的而非限制性的，因为也可以使用不同地配置的其他类型的数据处理***。例如，存储器控制器116和平台控制器中枢130的实例可以集成到分立式外部图形处理器(例如，外部图形处理器112)中。在一个实施例中，平台控制器中枢130和/或存储器控制器160可以处于一个或多个处理器102外部。例如，***100可以包括外部存储器控制器116和平台控制器中枢130，其可以被配置作为与处理器102进行通信的***芯片组内的存储器控制器中枢和***控制器中枢。

图2是具有一个或多个处理器核202A-202N、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。图2中标号(或名称)与本文任何其他附图的要素相同的那些要素可以按与本文其他地方描述的方式类似的任何方式操作或运作，但不限于此。处理器200可以包括多达(含)由虚线框表示的附加核202N的附加核。处理器核202A-202N中的每一个包括一个或多个内部缓存单元204A-204N。在一些实施例中，每个处理器核还可以访问一个或多个共享缓存单元206。

内部缓存单元204A-204N和共享缓存单元206表示处理器200内的缓存存储器层级。缓存存储器层级可以包括每个处理器核内的至少一级指令和数据缓存以及一级或多级共享的中间级缓存(例如，二级(L2)、三级(L3)、四级(L4)或其他级的缓存)，其中，外部存储器之前的最高级缓存被分类为LLC。在一些实施例中，缓存一致性逻辑维持各个缓存单元206与204A-204N之间的一致性。

在一些实施例中，处理器200还可以包括一个或多个总线控制器单元216和***代理核210的集合。一个或多个总线控制器单元216管理一组***总线(例如，一个或多个PCI或PCI Express总线)。***代理核210为各种处理器组件提供管理功能。在一些实施例中，***代理核210包括一个或多个集成存储器控制器214，以管理对各种外部存储器设备(未示出)的访问。

在一些实施例中，处理器核202A-202N中的一个或多个包括对同时多线程的支持。在该实施例中，***代理核210包括用于在多线程处理期间协调和操作核202A-202N的组件。***代理核210可以附加地包括功率控制单元(PCU)，其包括用于调节处理器核202A-202N和图形处理器208的功率状态的逻辑和组件。

在一些实施例中，处理器200附加地包括图形处理器208，以执行图形处理操作。在一些实施例中，图形处理器208与共享缓存单元206的集合和包括一个或多个集成存储器控制器214的***代理核210耦合。在一些实施例中，***代理核210还包括显示控制器211，以将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中，显示控制器211还可以是经由至少一个互连与图形处理器耦合的分离模块，或者可以集成在图形处理器208内。

在一些实施例中，基于环的互连单元212用于耦合处理器200的内部组件。然而，可以使用替选的互连单元(例如，点对点互连、切换式互连或其他技术，包括本领域公知的技术)。在一些实施例中，图形处理器208经由I/O链路213与环形互连212耦合。

示例性I/O链路213表示多种I/O互连中的至少一种，包括促进各种处理器组件与高性能嵌入式存储器模块218(例如，eDRAM模块)之间的通信的封装上I/O互连。在一些实施例中，处理器核202A-202N中的每一个和图形处理器208使用嵌入式存储器模块218作为共享的最后一级缓存。

在一些实施例中，处理器核202A-202N是执行相同指令集架构的同构核。在另一实施例中，处理器核202A-202N在指令集架构(ISA)方面是异构的，其中，处理器核202A-202N中的一个或多个执行第一指令集，而其他核中的至少一个执行第一指令集的子集或不同的指令集。在一个实施例中，处理器核202A-202N在微架构方面是异构的，其中，功耗相对较高的一个或多个核与功耗较低的一个或多个核耦合。此外，处理器200可以实现于一个或多个芯片上，或者实现为具有除了其他组件之外还有所示组件的SoC集成电路。

图3是图形处理器300的框图，其可以是分立式图形处理单元，或者可以是与多个处理核集成的图形处理器。在一些实施例中，图形处理器经由存储器映射的至图形处理器上的寄存器的I/O接口并且用放置到处理器存储器中的命令进行通信。在一些实施例中，图形处理器300包括用于访问存储器的存储器接口314。存储器接口314可以是对本地存储器、一个或多个内部缓存、一个或多个共享外部缓存的接口，和/或对***存储器的接口。

在一些实施例中，图形处理器300还包括显示控制器302，以将显示输出数据驱动到显示设备320。显示控制器302包括用于一个或多个覆盖平面的硬件，以用于显示和合成多层视频或用户界面元素。显示设备320可以是内部或外部显示设备。在一个实施例中，显示设备320是头戴式显示设备(例如，虚拟现实(VR)显示设备或增强现实(AR)显示设备)。在一些实施例中，图形处理器300包括视频编解码器引擎306，以将媒体编码为、解码自一种或多种媒体编码格式(包括但不限于运动图像专家组(MPEG)格式(例如，MPEG-2)、高级视频编码(AVC)格式(例如，H.264/MPEG-4AVC)以及电影电视工程师协会(SMPTE)421M/VC-1和联合图像专家组(JPEG)格式(例如，JPEG和Motion JPEG(MJPEG)格式))，或者在其之间进行转码。

在一些实施例中，图形处理器300包括块图像传送(BLIT)引擎304，以执行包括例如位边界块传送的二维(2D)光栅化器操作。然而，在一个实施例中，使用图形处理引擎(GPE)310的一个或多个组件执行2D图形操作。在一些实施例中，GPE 310是用于执行包括三维(3D)图形操作和媒体操作的图形操作的计算引擎。

在一些实施例中，GPE 310包括3D管线312，以用于执行3D操作(例如，使用对3D基元形状(例如，矩形、三角形等)作用的处理功能渲染三维图像和场景)。3D管线312包括可编程功能元件和固定功能元件，其执行元件内的各种任务和/或对3D/媒体子***315产生执行线程。虽然3D管线312可以用于执行媒体操作，但是GPE 310的实施例还包括媒体管线316，其具体地用于执行媒体操作(例如，视频后处理和图像增强)。

在一些实施例中，媒体管线316包括固定功能或可编程逻辑单元，以代替或代表视频编解码器引擎306执行一个或多个专用媒体操作(例如，视频解码加速、视频解交错和视频编码加速)。在一些实施例中，媒体管线316附加地包括线程产生单元，以产生线程以用于在3D/媒体子***315上执行。所产生的线程对3D/媒体子***315中所包括的一个或多个图形执行单元上的媒体操作执行计算。

在一些实施例中，3D/媒体子***315包括用于执行由3D管线312和媒体管线316产生的线程的逻辑。在一个实施例中，管线将线程执行请求发送到3D/媒体子***315，其包括线程分派逻辑，以用于仲裁和分派对可用的线程执行资源的各种请求。执行资源包括图形执行单元阵列，以处理3D线程和媒体线程。在一些实施例中，3D/媒体子***315包括用于线程指令和数据的一个或多个内部缓存。在一些实施例中，子***还包括共享存储器(包括寄存器和可寻址存储器)，以在线程之间共享数据并存储输出数据。

图形处理引擎

图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中，图形处理引擎(GPE)410是图3所示的GPE 310的版本。图4中标号(或名称)与本文任何其他附图的要素相同的要素可以按与本文其他地方描述的方式类似的任何方式操作或运作，但不限于此。例如，示出图3的3D管线312和媒体管线316。媒体管线316在GPE 410的一些实施例中是可选的，并且可以不明确地包括于GPE 410内。例如，并且在至少一个实施例中，单独的媒体和/或图像处理器耦合到GPE 410。

在一些实施例中，GPE 410耦合于或包括命令流送器403，其向3D管线312和/或媒体管线316提供命令流。在一些实施例中，命令流送器403与存储器(其可以是***存储器，或者内部缓存存储器和共享缓存存储器中的一个或多个)耦合。在一些实施例中，命令流送器403从存储器接收命令，并且将命令发送到3D管线312和/或媒体管线316。命令是从存储用于3D管线312和媒体管线316的命令的环形缓冲区获取的指令(directive)。在一个实施例中，环形缓冲区可以附加地包括批命令缓冲区，其存储多个命令的批次。用于3D管线312的命令还可以包括对存储在存储器中的数据(例如但不限于用于3D管线312的顶点和几何数据和/或用于媒体管线316的图像数据和存储器对象)的引用。3D管线312媒体管线316通过经由各个管线内的逻辑执行操作，或者通过将一个或多个执行线程分派到图形核阵列414来处理命令和数据。在一个实施例中，图形核阵列414包括一块或多块图形核(例如，图形核415A、图形核415B)，每个块包括一个或多个图形核。每个图形核包括一组图形执行资源，其包括用于执行图形和计算操作的通用和图形专用执行逻辑、以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。

在各个实施例中，3D管线312包括固定功能和可编程逻辑，以通过处理指令并将执行线程分派到图形核阵列414来处理一个或多个着色器程序(例如，顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其他着色器程序)。图形核阵列414提供统一的执行资源块，以便在处理这些着色器程序中使用。图形核阵列414的图形核415A-414B内的多用途执行逻辑(例如，执行单元)包括对各种3D API着色器语言的支持，并且可以执行与多个着色器关联的多个同时执行线程。

在一些实施例中，图形核阵列414还包括用于执行媒体功能(例如，视频和/或图像处理)的执行逻辑。在一个实施例中，执行单元附加地包括可编程以执行除了图形处理操作之外的并行通用计算操作的通用逻辑。通用逻辑可以与图1的处理器核107或如图2中的核202A-202N内的通用逻辑并行地或结合地执行处理操作。

由图形核阵列414上执行的线程所生成的输出数据可以将数据输出到统一返回缓冲区(URB)418中的存储器。URB 418可以存储用于多个线程的数据。在一些实施例中，URB418可以用于在图形核阵列414上执行的不同线程之间发送数据。在一些实施例中，URB 418可以附加地用于图形核阵列上的线程与共享功能逻辑420内的固定功能逻辑之间的同步。

在一些实施例中，图形核阵列414是可扩展的，使得阵列包括可变数量的图形核，每个图形核基于GPE 410的目标功率和性能等级具有可变数量的执行单元。在一个实施例中，执行资源是动态可扩展的，使得可以根据需要启用或禁用执行资源。

图形核阵列414与共享功能逻辑420耦合，共享功能逻辑420包括在图形核阵列中的图形核之间共享的多个资源。共享功能逻辑420内的共享功能是向图形核阵列414提供专用补充功能的硬件逻辑单元。在各个实施例中，共享功能逻辑420包括但不限于采样器421、数学单元422和线程间通信(ITC)423逻辑。此外，一些实施例在共享功能逻辑420内实现一个或多个缓存425。

在对给定专用功能的需求不足以包括于图形核阵列414内的情况下，实现共享功能。相反，该专用功能的单个实例化被实现为共享功能逻辑420中的单独实体，并且在图形核阵列414内的执行资源之间共享。在图形核阵列414之间共享并包括于图形核阵列414内的精确功能集随着实施例而变化。在一些实施例中，共享功能逻辑420内的被图形核阵列414广泛使用的特定共享功能可以包括于图形核阵列414内的共享功能逻辑416内。在各个实施例中，图形核阵列414内的共享功能逻辑416可以包括共享功能逻辑420内的一些或所有逻辑。在一个实施例中，可以在图形核阵列414的共享功能逻辑416内复制共享功能逻辑420内的所有逻辑元件。在一个实施例中，共享功能逻辑420被排除，以支持图形核阵列414内的共享功能逻辑416。

图5是根据本文描述的一些实施例的图形处理器核500的硬件逻辑的框图。图5中标号(或名称)与本文任何其他附图的要素相同的要素可以按与本文其他地方描述的方式类似的任何方式操作或运作，但不限于此。所示的图形处理器核500在一些实施例中被包括于图4的图形核阵列414内。图形处理器核500(有时称为核片)可以是模块化图形处理器内的一个或多个图形核。图形处理器核500是一个图形核片的示例，并且如本文所述的图形处理器基于目标功率和性能包络可以包括多个图形核片。每个图形核500可以包括与多个子核501A-501F(也称为子片)耦合的固定功能块530，子核包括通用和固定功能逻辑的模块化块。

在一些实施例中，固定功能块530包括几何/固定功能管线536，其可以例如在较低性能和/或较低功率图形处理器实现方式中由图形处理器500中的所有子核共享。在各个实施例中，几何/固定功能管线536包括3D固定功能管线(例如，如图3和图4中的3D管线312)、视频前端单元、线程产生器和线程分派器以及管理统一返回缓冲区(例如，图4的统一返回缓冲区418)的统一返回缓冲区管理器。

在一个实施例中，固定功能块530还包括图形SoC接口537、图形微控制器538和媒体管线539。图形SoC接口537提供图形核500与片上***集成电路内的其他处理器核之间的接口。图形微控制器538是可编程子处理器，其可配置为管理图形处理器500的各种功能，包括线程分派、调度和抢占。媒体管线539(例如，图3和图4的媒体管线316)包括用于促进多媒体数据(包括图像和视频数据)的解码、编码、预处理和/或后处理的逻辑。媒体管线539经由对子核501-501F内的计算或采样逻辑的请求来实现媒体操作。

在一个实施例中，SoC接口537使得图形核500能够与通用应用处理器核(例如，CPU)和/或SoC内的其他组件(包括存储器层级元件(例如，共享最后一级缓存存储器、***RAM和/或嵌入式片上或封装上DRAM))进行通信。SoC接口537还可以使得能够进行与SoC内的固定功能设备(例如，相机成像管线)的通信，并且使得能够使用和/或实现可以在图形核500与SoC内的CPU之间共享的全局存储器原子。SoC接口537还可以实现用于图形核500的电源管理控制，并且使得图形核500的时钟域与SoC内的其他时钟域之间的接口成为可能。在一个实施例中，SoC接口537使得能够从被配置为向图形处理器内的一个或多个图形核中的每一个提供命令和指令的命令流送器和全局线程分派器接收命令缓冲。命令和指令可以在将要执行媒体操作时被分派到媒体管线539，或者在将要执行图形处理操作时被分派到几何和固定功能管线(例如，几何和固定功能管线536、几何和固定功能管线514)。

图形微控制器538可以被配置为执行用于图形核500的各种调度和管理任务。在一个实施例中，图形微控制器538可以在子核501A-501F内的执行单元(EU)阵列502A-502F、504A-504F内的各个图形并行引擎上执行图形和/或计算工作负荷调度。在该调度模型中，在包括图形核500在内的SoC的CPU核上执行的主机软件可以将工作负荷提交给多个图形处理器门铃(doorbell)之一，这在适当的图形引擎上调用调度操作。调度操作包括：确定接下来要运行哪个工作负荷；将工作负荷提交给命令流送器；抢占引擎上运行的现有工作负荷；监控工作负荷的进度；以及当完成工作负荷时通知主机软件。在一个实施例中，图形微控制器538还可以促进图形核500的低功率或空闲状态，从而为图形核500提供了以下能力：跨低功率状态转换保存和恢复图形核500内的寄存器，而与***上的操作***和/或图形驱动程序软件无关。

图形核500可以具有比所示的子核501A-501F多或少的子核，多至N个模块化子核。对于每组N个子核，图形核500还可以包括共享功能逻辑510、共享和/或缓存存储器512、几何/固定功能管线514以及用于加速各种图形和计算处理操作的附加固定功能逻辑516。共享功能逻辑510可以包括与图4的共享功能逻辑420关联的逻辑单元(例如，采样器、数学单元和/或线程间通信逻辑)，其可以由图形核500内的每N个子核共享。共享和/或缓存存储器512可以是用于图形核500内的N个子核501A-501F的集合的最后一级缓存，并且还可以充当可由多个子核访问的共享存储器。几何/固定功能管线514而非几何/固定功能管线536可以包括于固定功能块530内，并且可以包括相同或类似的逻辑单元。

在一个实施例中，图形核500包括附加固定功能逻辑516，其可以包括由图形核500使用的各种固定功能加速逻辑。在一个实施例中，附加固定功能逻辑516包括在仅位置着色中使用的附加几何管线。在仅位置着色中，存在两种几何管线：几何/固定功能管线516、536内的全几何管线；以及裁剪管线，其为可以包括于附加固定功能逻辑516内的附加几何管线。在一个实施例中，裁剪管线是全几何管线的削减版本。全管线和裁剪管线可以执行同一应用的不同实例，每个实例具有单独的上下文。仅位置着色可以隐藏对已丢弃三角形的长剔除运行，从而使得着色在一些情况下能够更早地完成。例如，并且在一个实施例中，附加固定功能逻辑516内的裁剪管线逻辑可以与主应用并行地执行位置着色器，并且通常比全管线更快地生成关键结果，因为裁剪管线仅对顶点的位置属性进行获取并着色，而不对帧缓冲区执行像素的光栅化和渲染。裁剪管线可以使用所生成的关键结果来计算所有三角形的可视性信息，而无论是否裁剪了这些三角形。全管线(其在该实例中可以称为回放管线)可以采用可视性信息来跳过被裁剪的三角形，以仅着色最终传递到光栅化阶段的可视三角形。

在一个实施例中，附加固定功能逻辑516还可以包括机器学习加速逻辑(例如，固定功能矩阵乘法逻辑，以用于包括对机器学习训练或推理进行优化的实现方式)。

在每个图形子核501A-501F内包括一组执行资源，其可以用于响应于图形管线、媒体管线或着色器程序进行的请求而执行图形、媒体和计算操作。图形子核501A-501F包括多个EU阵列502A-502F、504A-504F、线程分派和线程间通信(TD/IC)逻辑503A-503F、3D(例如，纹理)采样器505A-505F，媒体采样器506A-506F、着色器处理器507A-507F和共享本地存储器(SLM)508A-508F。EU阵列502A-502F、504A-504F均包括多个执行单元，其为能够在图形、媒体或计算操作的服务中执行浮点和整数/定点逻辑操作(包括图形、媒体或计算着色器程序)的通用图形处理单元。TD/IC逻辑503A-503F为子核内的执行单元执行本地线程分派和线程控制操作，并且促进在子核的执行单元上执行的线程之间的通信。3D采样器505A-505F可以将纹理或其他3D图形有关数据读取到存储器中。3D采样器可以基于所配置的采样状态和与给定纹理关联的纹理格式来不同地读取纹理数据。媒体采样器506A-506F可以基于与媒体数据关联的类型和格式来执行类似的读取操作。在一个实施例中，每个图形子核501A-501F可以替代地包括统一3D和媒体采样器。在子核501A-501F中的每一个内的执行单元上执行的线程可以使用每个子核内的共享本地存储器508A-508F，以使得在线程组内执行的线程能够使用片上存储器的公共池执行。

执行单元

图6A-图6B示出根据本文描述的实施例的线程执行逻辑600，其包括图形处理器核中采用的处理元件阵列。图6A-图6B中标号(或名称)与本文任何其他附图的要素相同的要素可以按与本文其他地方描述的方式类似的任何方式操作或运作，但不限于此。图6A示出线程执行逻辑600的概述，其可以包括图5的每个子核501A-501F所示的硬件逻辑的变型。图6B示出执行单元的示例性内部细节。

如图6A所示，在一些实施例中，线程执行逻辑600包括着色器处理器602、线程分派器604、指令缓存606、包括多个执行单元608A-608N的可扩展执行单元阵列、采样器610、数据缓存612和数据端口614。在一个实施例中，可扩展执行单元阵列可以通过基于工作负荷的计算要求启用或禁用一个或多个执行单元(例如，执行单元608A、608B、608C、608D至608N-1和608N中的任何一个)来动态地扩展。在一个实施例中，所包括的组件经由链接到每一个组件的互连构造而互连。在一些实施例中，线程执行逻辑600包括经过指令缓存606、数据端口614、采样器610和执行单元608A-608N中的一个或多个至存储器(例如，***存储器或缓存存储器)的一个或多个连接。在一些实施例中，每个执行单元(例如，608A)是能够在为每个线程并行处理多个数据元素的同时执行多个同时硬件线程的单独可编程通用计算单元。在各个实施例中，执行单元608A-608N的阵列可扩展以包括任何数量的单独执行单元。

在一些实施例中，执行单元608A-608N主要用于执行着色器程序。着色器处理器602可以处理各种着色器程序，并且经由线程分派器604分派与着色器程序关联的执行线程。在一个实施例中，线程分派器包括用于仲裁来自图形和媒体管线的线程发起请求并且在执行单元608A-608N中的一个或多个执行单元上实例化所请求的线程的逻辑。例如，几何管线可以将顶点着色器、曲面细分着色器或几何着色器分派到线程执行逻辑以用于处理。在一些实施例中，线程分派器604还可以处理来自执行着色器程序的运行时线程产生请求。

在一些实施例中，执行单元608A-608N支持包括对许多标准3D图形着色器指令的原生支持的指令集，使得以最少的转换执行来自图形库(例如，Direct 3D和OpenGL)的着色器程序。执行单元支持顶点和几何处理(例如，顶点程序、几何程序、顶点着色器)、像素处理(例如，像素着色器、片段着色器)和通用处理(例如，计算和媒体着色器)。每个执行单元608A-608N能够多发单指令多数据(SIMD)执行，并且多线程化操作使得在面对更高时延存储器访问时高效的执行环境成为可能。每个执行单元内的每个硬件线程具有专用高带宽寄存器文件和关联的独立线程状态。对于能够进行整数、单精度和双精度浮点运算、SIMD分支能力、逻辑运算、超越运算和其他杂项运算的管线，执行是每时钟多发的。在等待来自存储器或共享功能之一的数据时，执行单元608A-608N内的依赖性逻辑使等待线程休眠，直到已经返回了所请求的数据。在等待线程正在休眠的同时，硬件资源可以被贡献以处理其他线程。例如，在与顶点着色器操作关联的延迟期间，执行单元可以执行用于像素着色器、片段着色器或其他类型的着色器程序(包括不同的顶点着色器)的操作。

执行单元608A-608N中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或用于指令的通道的数量。执行通道是用于指令内的数据元素存取、屏蔽和流控制的执行的逻辑单元。通道的数量可以独立于用于特定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量。在一些实施例中，执行单元608A-608N支持整数和浮点数据类型。

执行单元指令集包括SIMD指令。各种数据元素可以作为封装的数据类型存储在寄存器中，并且执行单元将基于元素的数据大小处理各种元素。例如，当对256位宽向量进行操作时，向量的256位被存储在寄存器中，并且执行单元对向量操作为四个单独的64位封装的数据元素(四字(QW)大小数据元素)、八个单独的32位封装的数据元素(双字(DW)大小数据元素)、十六个单独的16位封装的数据元素(字(W)大小数据元素)或三十二个单独的8位数据元素(字节(B)大小数据元素)。然而，不同的向量宽度和寄存器大小是可能的。

在一个实施例中，一个或多个执行单元可以组合成融合的执行单元609A-609N，其具有对于融合的EU共用的线程控制逻辑(607A-607N)。多个EU可以融合成EU组。融合的EU组中的每个EU可以被配置为执行单独的SIMD硬件线程。融合的EU组中的EU的数量可以根据实施例而变化。此外，可以每EU执行各种SIMD宽度，包括但不限于SIMD8、SIMD16和SIMD32。每个融合的图形执行单元609A-609N包括至少两个执行单元。例如，融合的执行单元609A包括第一EU 608A、第二EU 608B和对第一EU 608A和第二EU 608B共用的线程控制逻辑607A。线程控制逻辑607A控制在融合的图形执行单元609A上执行的线程，从而允许融合的执行单元609A-609N内的每个EU使用公共指令指针寄存器来执行。

在线程执行逻辑600中包括一个或多个内部指令缓存(例如，606)，以缓存用于执行单元的线程指令。在一些实施例中，包括一个或多个数据缓存(例如，612)，以在线程执行期间缓存线程数据。在一些实施例中，包括采样器610，以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在一些实施例中，采样器610包括专用纹理或媒体采样功能，以在采样处理期间处理纹理或媒体数据，然后将采样数据提供给执行单元。

在执行期间，图形和媒体管线经由线程产生和分派逻辑将线程发起请求发送到线程执行逻辑600。一旦一组几何对象已经被处理并且光栅化为像素数据，就调用着色器处理器602内的像素处理器逻辑(例如，像素着色器逻辑、片段着色器逻辑等)以进一步计算输出信息并使结果写入输出表面(例如，颜色缓冲区、深度缓冲区、模板缓冲区等)。在一些实施例中，像素着色器或片段着色器计算要在光栅化对象上进行插值的各种顶点属性的值。在一些实施例中，着色器处理器602内的像素处理器逻辑然后执行应用编程接口(API)-提供的像素或片段着色器程序。为了执行着色器程序，着色器处理器602经由线程分派器604将线程分派到执行单元(例如，608A)。在一些实施例中，着色器处理器602使用采样器610中的纹理采样逻辑来访问存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术运算计算每个几何片段的像素颜色数据，或者丢弃一个或多个像素以免进一步处理。

在一些实施例中，数据端口614为线程执行逻辑600提供存储器存取机制，以将处理后的数据输出到存储器，以用于在图形处理器输出管线上进一步处理。在一些实施例中，数据端口614包括或耦合到一个或多个缓存存储器(例如，数据缓存612)，以缓存数据，以用于经由数据端口的存储器存取。

如图6B所示，图形执行单元608可以包括指令获取单元637、通用寄存器文件阵列(GRF)624、架构寄存器文件阵列(ARF)626、线程仲裁器622、发送单元630、分支单元632、一组SIMD浮点单元(FPU)634，以及在一个实施例中还包括一组专用整数SIMD ALU635。GRF624和ARF 626包括与在图形执行单元608中可能是活动的每个同时硬件线程关联的通用寄存器文件和架构寄存器文件的集合。在一个实施例中，每线程架构状态保存在ARF 626中，而在线程执行期间使用的数据存储在GRF 624中。每个线程的执行状态，包括每个线程的指令指针，可以保存在ARF 626中的线程特定寄存器中。

在一个实施例中，图形执行单元608具有作为同时多线程(SMT)和细粒度交错多线程(IMT)的组合的架构。该架构具有能够在设计时基于同时线程的目标数量和每执行单元的寄存器的数量进行精细调节的模块化配置，其中，执行单元资源被划分在用于执行多个同时线程的逻辑上。

在一个实施例中，图形执行单元608可以并发多个指令，多个指令可以各自是不同的指令。图形执行单元608的线程仲裁器622可以将指令分派到发送单元630、分支单元642或SIMD FPU 634之一，以用于执行。每个执行线程可以访问GRF 624内的128个通用寄存器，其中，每个寄存器可以存储32个字节，可作为32位数据元素的SIMD8元素向量访问。在一个实施例中，每个执行单元线程可以访问GRF624内的4千字节，但实施例不限于此，并且在其他实施例中可以提供更多或更少的寄存器资源。在一个实施例中，多达七个线程可以同时执行，但每执行单元的线程数量也可以根据实施例而变化。在七个线程可以访问4千字节的实施例中，GRF 624可以存储总共28千字节。灵活的寻址模式可以允许寄存器一起被寻址，以有效地构建更宽的寄存器或表示跨越式矩形块数据结构。

在一个实施例中，经由消息传递发送单元630执行的“发送”指令来分派存储器操作、采样器操作和其他较长时延***通信。在一个实施例中，分支指令被分派到专用分支单元632，以促进SIMD发散和最终收敛。

在一个实施例中，图形执行单元608包括一个或多个SIMD浮点单元(FPU)634，以执行浮点运算。在一个实施例中，FPU 634还支持整数计算。在一个实施例中，FPU 634可以SIMD执行多达M数量的32位浮点(或整数)运算，或SIMD执行多达2M的16位整数或16位浮点运算。在一个实施例中，至少一个FPU提供扩展的数学能力以支持高吞吐量超越数学函数和双精度64位浮点。在一些实施例中，还存在一组8位整数SIMD ALU 635，并且其可以被专门优化以执行与机器学习计算关联的操作。

在一个实施例中，可以在图形子核成组(例如，子片)中实例化图形执行单元608的多个实例的阵列。对于可扩展性，产品架构师可以选取每子核成组的执行单元的准确数量。在一个实施例中，执行单元608可以在多个执行通道上执行指令。在另一实施例中，在图形执行单元608上执行的每个线程在不同的通道上执行。

图7是示出根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中，图形处理器执行单元支持具有多种格式的指令的指令集。实线框示出通常包括于执行单元指令中的组件，而虚线包括可选的或仅包括于指令子集中的组件。在一些实施例中，所描述和示出的指令格式700是宏指令，因为它们是提供给执行单元的指令，与一旦指令被处理就从指令解码得到的微操作不同。

在一些实施例中，图形处理器执行单元原生地支持128位指令格式710的指令。基于所选择的指令、指令选项和操作数的数量，64位压缩指令格式730可供用于一些指令。原生128位指令格式710提供对所有指令选项的访问，而一些选项和操作在64位格式730中是受限的。64位格式730中可用的原生指令因实施例而变化。在一些实施例中，部分地使用索引字段713中的一组索引值来压缩指令。执行单元硬件基于索引值引用一组压缩表，并且使用压缩表输出以重构128位指令格式710的原生指令。

对于每种格式，指令操作码712定义执行单元要执行的操作。执行单元在每个操作数的多个数据元素上并行地执行每个指令。例如，响应于加法指令，执行单元在表示纹理元素或图片元素的每个颜色通道上执行同时加法操作。按默认，执行单元在操作数的所有数据通道上执行每个指令。在一些实施例中，指令控制字段714使得能够对特定执行选项(例如，通道选择(例如，预测)和数据通道顺序(例如，混合))进行控制。对于128位指令格式710的指令，exec-size字段716限制将并行执行的数据通道的数量。在一些实施例中，exec-size字段716对于64位紧凑指令格式730是不可用的。

一些执行单元指令具有多达三个操作数，其包括两个源操作数src0720、src1 722和一个目的操作数718。在一些实施例中，执行单元支持双目的操作数指令，其中，目的操作数之一是隐式的。数据操控指令可以具有第三源操作数(例如，SRC2 724)，其中，指令操作码712确定源操作数的数量。指令的最后源操作数可以是与指令一起传递的立即(例如，硬编码)值。

在一些实施例中，128位指令格式710包括指明例如使用直接寄存器寻址模式还是间接寄存器寻址模式的存取/地址模式字段726。当使用直接寄存器寻址模式时，一个或多个操作数的寄存器地址由指令中的位直接提供。

在一些实施例中，128位指令格式710包括指明用于指令的地址模式和/或存取模式的存取/地址模式字段726。在一个实施例中，存取模式用于定义指令的数据存取对齐。一些实施例支持包括16字节对齐的存取模式和1字节对齐的存取模式在内的存取模式，其中，存取模式的字节对齐确定指令操作数的存取对齐。例如，当处于第一模式时，指令可以对于源操作数和目的操作数使用字节对齐的寻址，并且当处于第二模式时，指令可以对于所有源操作数和目的操作数使用16字节对齐的寻址。

在一个实施例中，存取/地址模式字段726的地址模式部分确定该指令要使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时，可以基于指令中的地址寄存器值和地址立即字段来计算一个或多个操作数的寄存器地址。

在一些实施例中，基于操作码712位字段对指令进行成组，以简化操作码解码740。对于8位操作码，位4、5和6允许执行单元确定操作码的类型。所示的精确操作码成组仅是示例。在一些实施例中，移动和逻辑操作码组742包括数据移动和逻辑指令(例如，移动(mov)、比较(cmp))。在一些实施例中，移动和逻辑组742共享五个最高有效位(MSB)，其中，移动(mov)指令是0000xxxxb的形式，并且逻辑指令是0001xxxxb的形式。流控制指令组744(例如，调用、跳转(jmp))包括0010xxxxb的形式(例如，0x20)的指令。杂项指令组746包括指令的混合，包括0011xxxxb的形式(例如，0x30)的同步指令(例如，等待、发送)。并行数学指令组748包括0100xxxxb的形式(例如，0x40)的分量式算术指令(例如，加、乘(mul))。并行数学组748在数据通道上并行地执行算术运算。向量数学组750包括0101xxxxb的形式(例如，0x50)的算术指令(例如，dp4)。向量数学组对向量操作数执行算术(例如，点积计算)。

图形管线

图8是图形处理器800的另一实施例的框图。图8中标号(或名称)与本文任何其他附图的要素相同的要素可以按与本文其他地方描述的类似的任何方式操作或运作，但不限于此。

在一些实施例中，图形处理器800包括几何管线820、媒体管线830、显示引擎840、线程执行逻辑850和渲染输出管线870。在一些实施例中，图形处理器800是包括一个或多个通用处理核的多核处理***内的图形处理器。图形处理器通过对一个或多个控制寄存器(未示出)的寄存器写入来控制，或者通过经由环形互连802发出到图形处理器800的命令来控制。在一些实施例中，环形互连802将图形处理器800耦合到其他处理组件(例如，其他图形处理器或通用处理器)。来自环形互连802的命令由命令流送器803解释，命令流送器803向几何管线820或媒体管线830的各组件提供指令。

在一些实施例中，命令流送器803引导顶点获取器805的操作，其从存储器读取顶点数据并执行由命令流送器803提供的顶点处理命令。在一些实施例中，顶点获取器805将顶点数据提供给顶点着色器807，顶点着色器807对每个顶点执行坐标空间变换和照明操作。在一些实施例中，顶点获取器805和顶点着色器807通过经由线程分派器831将执行线程分派到执行单元852A-852B来执行顶点处理指令。

在一些实施例中，执行单元852A-852B是具有用于执行图形和媒体操作的指令集的向量处理器阵列。在一些实施例中，执行单元852A-852B具有附接的L1缓存851，其对于每个阵列是特定的或者在阵列之间共享。缓存可以被配置为数据缓存、指令缓存或被分区以在不同分区中包含数据和指令的单个缓存。

在一些实施例中，几何管线820包括曲面细分组件，以执行3D对象的硬件加速曲面细分。在一些实施例中，可编程外壳着色器811配置曲面细分操作。可编程域着色器817提供对曲面细分输出的后端评估。曲面细分器813在外壳着色器811的引导下进行操作，并且包含专用逻辑，以基于被提供作为对几何管线820的输入的粗几何模型生成一组详细几何对象。在一些实施例中，如果不使用曲面细分，则可以旁路曲面细分组件(例如，外壳着色器811、曲面细分器813和域着色器817)。

在一些实施例中，全部的几何对象可以经由被分派到执行单元852A-852B的一个或多个线程由几何着色器819来处理，或者可以直接进入裁剪器(clipper)829。在一些实施例中，几何着色器可以对整个几何对象而不是图形管线的前级中的顶点或顶点片块进行操作。如果禁用曲面细分，则几何着色器819接收来自顶点着色器807的输入。在一些实施例中，几何着色器819可由几何着色器程序编程，以在曲面细分单元被禁用时执行几何曲面细分。

在光栅化之前，裁剪器829可以处理顶点数据。裁剪器829可以是固定功能裁剪器或具有裁剪和几何着色器功能的可编程裁剪器。在一些实施例中，渲染输出管线870中的光栅化器和深度测试组件873分派像素着色器以将几何对象转换为每像素表示。在一些实施例中，像素着色器逻辑被包括于线程执行逻辑850中。在一些实施例中，应用可以旁路光栅化器和深度测试组件873，并且经由流输出单元823访问未光栅化的顶点数据。

图形处理器800具有互连总线、互连构造或允许处理器的主要组件之间的数据和消息传递的一些其他互连机构。在一些实施例中，执行单元852A-852B和关联的逻辑单元(例如，L1缓存851、采样器854、纹理缓存858等)经由数据端口856互连，以执行存储器存取并且与处理器的渲染输出管线组件进行通信。在一些实施例中，采样器854、缓存851、858和执行单元852A-852B均具有单独的存储器存取路径。在一个实施例中，纹理缓存858还可以被配置为采样器缓存。

在一些实施例中，渲染输出管线870包含光栅化器和深度测试组件873，其将基于顶点的对象转换为关联的基于像素的表示。在一些实施例中，光栅化器逻辑包括用于执行固定功能三角形和线形光栅化的加窗器/掩蔽器单元。关联的渲染缓存878和深度缓存879在一些实施例中也是可用的。像素操作组件877对数据执行基于像素的操作，但在一些实例中，与2D操作关联的像素操作(例如，在混合情况下的位块图像传送)由2D引擎841执行，或者在显示时由显示控制器843使用覆盖显示平面代替。在一些实施例中，共享L3缓存875对于所有图形组件是可用的，从而允许在不使用主***存储器的情况下共享数据。

在一些实施例中，图形处理器媒体管线830包括媒体引擎837和视频前端834。在一些实施例中，视频前端834从命令流送器803接收管线命令。在一些实施例中，媒体管线830包括单独的命令流送器。在一些实施例中，视频前端834在将命令发送到媒体引擎837之前处理媒体命令。在一些实施例中，媒体引擎837包括线程产生功能，以产生用于经由线程分派器831分派到线程执行逻辑850的线程。

在一些实施例中，图形处理器800包括显示引擎840。在一些实施例中，显示引擎840处于处理器800外部并且经由环形互连802或者一些其他互连总线或构造与图形处理器耦合。在一些实施例中，显示引擎840包括2D引擎841和显示控制器843。在一些实施例中，显示引擎840包含能够独立于3D管线进行操作的专用逻辑。在一些实施例中，显示控制器843与显示设备(未示出)耦合，该显示设备可以是如膝上型计算机中的***集成显示设备或经由显示设备连接器附接的外部显示设备。

在一些实施例中，几何管线820和媒体管线830可配置为基于多个图形和媒体编程接口执行操作，并且不特定于任何一个应用编程接口(API)。在一些实施例中，用于图形处理器的驱动程序软件将特定于特定图形或媒体库的API调用转换为能够由图形处理器处理的命令。在一些实施例中，为开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形和计算API(全都来自Khronos Group)提供支持。在一些实施例中，还可以为MicrosoftCorporation的Direct3D库提供支持。在一些实施例中，可以支持这些库的组合。还可以为开源计算机视觉库(OpenCV)提供支持。如果可以从未来API的管线到图形处理器的管线进行映射，则还将支持具有兼容3D管线的未来API。

图形管线编程

图9A是示出根据一些实施例的图形处理器命令格式900的框图。图9B是示出根据实施例的图形处理器命令序列910的框图。图9A中的实线框示出通常包括于图形命令中的组件，而虚线包括可选的或仅包括于图形命令的子集中的组件。图9A的示例性图形处理器命令格式900包括用于识别客户端902的数据字段、命令操作码(操作码)904和用于该命令的数据906。在一些命令中还包括子操作码905和命令大小908。

在一些实施例中，客户端902指明处理命令数据的图形设备的客户端单元。在一些实施例中，图形处理器命令解析器检查每个命令的客户端字段以调节命令的进一步处理，并且将命令数据路由到适当的客户端单元。在一些实施例中，图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元和媒体单元。每个客户端单元具有处理命令的对应处理管线。一旦客户端单元接收到命令，客户端单元就读取操作码904和(如果存在的话)子操作码905，以确定要执行的操作。客户端单元使用数据字段906中的信息执行命令。对于一些命令，预期显式命令大小908指明命令的大小。在一些实施例中，命令解析器基于命令操作码自动地确定至少一些命令的大小。在一些实施例中，命令经由双字的倍数对齐。

图9B中的流程图示出示例性图形处理器命令序列910。在一些实施例中，以图形处理器的实施例为特征的数据处理***的软件或固件使用所示的命令序列的版本来设置、执行和终止一组图形操作。仅出于示例的目的示出并描述采样命令序列，因为实施例不限于这些特定命令或该命令序列。此外，命令可以作为命令序列中的批命令而发出，使得图形处理器将至少部分地并发处理命令的序列。

在一些实施例中，图形处理器命令序列910可以开始于管线清理(flush)命令912，以使任何活动图形管线完成用于管线的当前未决命令。在一些实施例中，3D管线922和媒体管线924不并发操作。执行管线清理，以使活动的图形管线完成任何未决命令。响应于管线清理，用于图形处理器的命令解析器将暂停命令处理，直到活动的绘图引擎完成未决操作并且有关的读取缓存失效。可选地，渲染缓存中标记为“脏”的任何数据可以被清理到存储器。在一些实施例中，对于管线同步或在将图形处理器置于低功率状态之前，可以使用管线清理命令912。

在一些实施例中，当命令序列要求图形处理器显式地在管线之间切换时，使用管线选择命令913。在一些实施例中，在发出管线命令之前，在执行上下文内仅需要一次管线选择命令913，除非上下文要为两个管线发出命令。在一些实施例中，在经由管线选择命令913进行管线切换前一刻，需要管线清理命令912。

在一些实施例中，管线控制命令914配置用于操作的图形管线，并且用于对3D管线922和媒体管线924进行编程。在一些实施例中，管线控制命令914配置活动管线的管线状态。在一个实施例中，管线控制命令914用于管线同步并且在处理批命令之前清除来自活动管线内的一个或多个缓存存储器的数据。

在一些实施例中，返回缓冲区状态命令916用于为各个管线配置一组返回缓冲区以写入数据。一些管线操作需要分配、选择或配置操作在处理期间将中间数据写入的一个或多个返回缓冲区。在一些实施例中，图形处理器还使用一个或多个返回缓冲区来存储输出数据并执行跨线程通信。在一些实施例中，返回缓冲区状态916包括选择要用于一组管线操作的返回缓冲区的大小和数量。

命令序列中的其余命令基于用于操作的活动管线而不同。基于管线确定(920)，命令序列被调整为：3D管线922开始于3D管线状态930或媒体管线924开始于媒体管线状态940。

用于配置3D管线状态930的命令包括用于顶点缓冲区状态、顶点元素状态、恒定色彩状态、深度缓冲区状态和在处理3D图元命令之前要配置的其他状态变量的3D状态设置命令。至少部分地基于使用中的特定3D API来确定这些命令的值。在一些实施例中，如果特定管线元素将不被使用，则3D管线状态930命令还能够选择性地禁用或旁路那些元素。

在一些实施例中，3D图元932命令用于提交要由3D管线处理的3D图元。经由3D图元932命令传递到图形处理器的命令和关联的参数被转发到图形管线中的顶点获取功能。顶点获取功能使用3D图元932命令数据来生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲区中。在一些实施例中，3D图元932命令用于经由顶点着色器对3D图元执行顶点操作。为了处理顶点着色器，3D管线922将着色器执行线程分派到图形处理器执行单元。

在一些实施例中，经由执行934命令或事件触发3D管线922。在一些实施例中，寄存器写入触发命令执行。在一些实施例中，经由命令序列中的“go”或“kick”命令触发执行。在一个实施例中，使用管线同步命令触发命令执行，以清理整个图形管线的命令序列。3D管线将执行用于3D图元的几何处理。一旦操作完成，得到的几何对象就被光栅化，并且像素引擎对得到的像素进行染色。对于那些操作，还可以包括用于控制像素着色和像素后端操作的附加命令。

在一些实施例中，当执行媒体操作时，图形处理器命令序列910遵循媒体管线924路径。通常，用于媒体管线924的特定用途和编程方式取决于要执行的媒体或计算操作。特定媒体解码操作可以在媒体解码期间卸载到媒体管线。在一些实施例中，还可以旁路媒体管线，并且可以使用一个或多个通用处理核提供的资源全部或部分地执行媒体解码。在一个实施例中，媒体管线还包括用于通用图形处理器单元(GPGPU)操作的元素，其中，图形处理器用于使用与图形图元的渲染并非显式地有关的计算着色器程序执行SIMD向量操作。

在一些实施例中，以与3D管线922类似的方式配置媒体管线924。用于配置媒体管线状态940的一组命令被分派或放置到命令队列中，在媒体对象命令942之前。在一些实施例中，用于媒体管线状态940的命令包括用于配置将用于处理媒体对象的媒体管线元素的数据。这包括用于在媒体管线内配置视频解码和视频编码逻辑的数据(例如，编码或解码格式)。在一些实施例中，用于媒体管线状态940的命令还支持使用对包含一批状态设置的“间接”状态元素的一个或多个指针。

在一些实施例中，媒体对象命令942提供对用于媒体管线进行的处理的媒体对象的指针。媒体对象包括包含要处理的视频数据的存储器缓冲区。在一些实施例中，在发出媒体对象命令942之前，所有媒体管线状态必须是有效的。一旦配置了管线状态并且将媒体对象命令942排队，就经由执行命令944或等效的执行事件(例如，寄存器写入)触发媒体管线924。来自媒体管线924的输出可以然后通过3D管线922或媒体管线924提供的操作进行后处理。在一些实施例中，以与媒体操作类似的方式配置和执行GPGPU操作。

图形软件架构

图10示出根据一些实施例的数据处理***1000的示例性图形软件架构。在一些实施例中，软件架构包括3D图形应用1010、操作***1020和至少一个处理器1030。在一些实施例中，处理器1030包括图形处理器1032和一个或多个通用处理器核1034。图形应用1010和操作***1020均在数据处理***的***存储器1050中执行。

在一些实施例中，3D图形应用1010包含包括着色器指令1012的一个或多个着色器程序。着色器语言指令可以是高级着色器语言(例如，高级着色器语言(HLSL)或OpenGL着色器语言(GLSL))。该应用还包括适合于通用处理器核1034执行的机器语言的可执行指令1014。该应用还包括由顶点数据定义的图形对象1016。

在一些实施例中，操作***1020是来自Microsoft Corporation的操作***、类似私有UNIX的操作***、或使用Linux内核的变型的类似开源UNIX的操作***。操作***1020可以支持图形API 1022(例如，Direct3D API、OpenGL API或Vulkan API)。当Direct3D API处于使用中时，操作***1020使用前端着色器编译器1024来将HLSL的任何着色器指令1012编译成更低级着色器语言。编译可以是即时(JIT)编译，或者应用可以执行着色器预编译。在一些实施例中，在3D图形应用1010的编译期间将高级着色器编译成低级着色器。在一些实施例中，以中间形式(例如，Vulkan API使用的标准便携式中间表示(SPIR)的版本)提供着色器指令1012。

在一些实施例中，用户模式图形驱动程序1026包含后端着色器编译器1027，以将着色器指令1012转换为硬件特定表示。当OpenGL API处于使用中时，GLSL高级语言的着色器指令1012被传递到用户模式图形驱动程序1026以用于编译。在一些实施例中，用户模式图形驱动程序1026使用操作***内核模式功能1028来与内核模式图形驱动程序1029进行通信。在一些实施例中，内核模式图形驱动程序1029与图形处理器1032进行通信，以分派命令和指令。

IP核实现方式

可以通过机器可读介质上存储的表示和/或定义集成电路(例如，处理器)内的逻辑的代表性代码来实现至少一个实施例的一个或多个方面。例如，机器可读介质可以包括表示处理器内的各种逻辑的指令。当由机器读取时，指令可以使机器制造逻辑以执行本文描述的技术。这种表示(称为“IP核”)是集成电路的可重复使用的逻辑单元，其可以存储在有形机器可读介质上作为描述集成电路的结构的硬件模型。可以将硬件模型提供给各种消费者或制造设施，其将硬件模型加载在制造集成电路的构造机器上。可以构造集成电路，使得电路执行与本文描述的任何实施例关联地描述的操作。

图11A是示出根据实施例的可以用于制造集成电路以执行操作的IP核开发***1100的框图。IP核开发***1100可以用于生成模块化的、可重复使用的设计，其可以合并到更大的设计中或用于构建整个集成电路(例如，SOC集成电路)。设计设施1130可以用高级编程语言(例如，C/C++)生成IP核设计的软件仿真1110。软件仿真1110可以用于使用仿真模型1112来设计、测试和验证IP核的行为。仿真模型1112可以包括功能仿真、行为仿真和/或时序仿真。然后可以从仿真模型1112生成或合成寄存器传输级(RTL)设计1115。RTL设计1115是对硬件寄存器之间的数字信号流进行建模的集成电路(包括使用所建模的数字信号执行的关联逻辑)的行为的抽象。除了RTL设计1115之外，还可以生成、设计或合成逻辑级或晶体管级的更低级设计。因此，初始设计和仿真的特定细节可以变化。

RTL设计1115或等同物可以由设计设施进一步合成为硬件模型1120，其可以处于硬件描述语言(HDL)或物理设计数据的一些其他表示。可以进一步仿真或测试HDL以验证IP核设计。可以使用非易失性存储器1140(例如，硬盘、闪存或任何非易失性存储介质)存储IP核设计，以用于提交到第3方构造设施1165。替代地，可以通过有线连接1150或无线连接1160(例如，经由互联网)发送IP核设计。然后，构造设施1165可以构造至少部分地基于IP核设计的集成电路。构造的集成电路可以被配置为执行根据本文描述的至少一个实施例的操作。

图11B示出根据本文描述的一些实施例的集成电路封装组件1170的截面侧视图。集成电路封装组件1170示出如本文所述的一个或多个处理器或加速器设备的实现方式。封装组件1170包括连接到基板1180的多个硬件逻辑单元1172、1174。逻辑1172、1174可以至少部分地实现于可配置逻辑或固定功能逻辑硬件中，并且可以包括处理器核、图形处理器或本文描述的其他加速器设备中的任何一个的一个或多个部分。每个逻辑单元1172、1174可以实现于半导体管芯内，并且经由互连结构1173与基板1180耦合。互连结构1173可以被配置为在逻辑1172、1174与基板1180之间路由电信号，并且可以包括互连(例如但不限于凸点或支柱)。在一些实施例中，互连结构1173可以被配置为路由电信号(例如，与逻辑1172、1174的操作关联的输入/输出(I/O)信号和/或电源信号或地信号)。在一些实施例中，基板1180是基于环氧树脂的层压基板。在其他实施例中，封装组件1170可以包括其他合适类型的基板。封装组件1170可以经由封装互连1183连接到其他电气设备。封装互连1183可以耦合到基板1180的表面，以将电信号路由到其他电气设备(例如，主板、其他芯片组或多芯片模块)。

在一些实施例中，逻辑单元1172、1174与桥1182电耦合，桥1182被配置为在逻辑1172、1174之间路由电信号。桥1182可以是提供用于电信号的路线的密集互连结构。桥1182可以包括由玻璃或合适的半导体材料构成的桥基板。可以在桥基板上形成电路由特征，以在逻辑1172、1174之间提供芯片到芯片连接。

尽管示出两个逻辑单元1172、1174和桥1182，但本文描述的实施例可以在一个或多个管芯上包括更多或更少的逻辑单元。一个或多个管芯可以通过零个或更多个桥连接，因为当逻辑被包括于单个管芯上时可以排除桥1182。替代地，多个管芯或逻辑单元可以通过一个或多个桥连接。此外，多个逻辑单元、管芯和桥可以按其他可能的配置(包括三维配置)连接在一起。

示例性片上***集成电路

图12-图14示出根据本文描述的各个实施例的可以使用一个或多个IP核构造的示例性集成电路和关联的图形处理器。除了所示的内容之外，可以包括其他逻辑和电路，包括附加图形处理器/核、***接口控制器或通用处理器核。

图12是示出根据实施例的可以使用一个或多个IP核构造的示例性片上***集成电路1200的框图。示例性集成电路1200包括一个或多个应用处理器1205(例如，CPU)、至少一个图形处理器1210，并且可以附加地包括图像处理器1215和/或视频处理器1220，其中的任何一个可以是来自相同或多个不同设计设施的模块化IP核。集成电路1200包括***设备或总线逻辑，包括USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I²S/I²C控制器1240。此外，集成电路可以包括耦合到高清晰度多媒体接口(HDMI)控制器1250和移动工业处理器接口(MIPI)显示接口1255中的一个或多个的显示设备1245。存储可以由包括闪存和闪存控制器的闪存子***1260提供。可以经由存储器控制器1265提供存储器接口，以用于访问SDRAM或SRAM存储器设备。一些集成电路附加地包括嵌入式安全引擎1270。

图13A-图13B是示出根据本文描述的实施例的在SoC内使用的示例性图形处理器的框图。图13A示出根据实施例的可以使用一个或多个IP核构造的片上***集成电路的示例性图形处理器1310。图13B示出根据实施例的可以使用一个或多个IP核构造的片上***集成电路的附加示例性图形处理器1340。图13A的图形处理器1310是低功耗图形处理器核的示例。图13B的图形处理器1340是更高性能图形处理器核的示例。图形处理器1310、1340中的每一个可以是图12的图形处理器1210的变型。

如图13A所示，图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315A-1315N(例如，1315A、1315B、1315C、1315D至1315N-1和1315N)。图形处理器1310可以经由单独的逻辑执行不同的着色器程序，使得顶点处理器1305得以优化，以执行用于顶点着色器程序的操作，而一个或多个片段处理器1315A-1315N执行用于片段或像素着色器程序的片段(例如，像素)着色操作。顶点处理器1305执行3D图形管线的顶点处理级并且生成图元和顶点数据。片段处理器1315A-1315N使用由顶点处理器1305生成的图元和顶点数据来产生在显示设备上显示的帧缓冲区。在一个实施例中，片段处理器1315A-1315N被优化以执行如OpenGL API中提供的片段着色器程序，其可以用于执行与如Direct 3D API中提供的像素着色器程序类似的操作。

图形处理器1310附加地包括一个或多个存储器管理单元(MMU)1320A-1320B、缓存1325A-1325B和电路互连1330A-1330B。一个或多个MMU 1320A-1320B为图形处理器1310(包括为顶点处理器1305和/或片段处理器1315A-1315N)提供虚拟到物理地址映射，其除了存储在一个或多个缓存1325A-1325B中的顶点或图像/纹理数据之外还可以引用存储在存储器中的顶点或图像/纹理数据。在一个实施例中，一个或多个MMU 1320A-1320B可以与***内的其他MMU(包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220关联的一个或多个MMU)同步，使得每个处理器1205-1220可以参与共享或统一的虚拟存储器***。根据实施例，一个或多个电路互连1330A-1330B使得图形处理器1310能够经由SoC的内部总线或经由直接连接与SoC内的其他IP核进行接口。

如图13B所示，图形处理器1340包括图13A的图形处理器1310的一个或多个MMU1320A-1320B、缓存1325A-1325B和电路互连1330A-1330B。图形处理器1340包括一个或多个着色器核1355A-1355N(例如，1455A、1355B、1355C、1355D、1355E、1355F至1355N-1和1355N)，其提供统一的着色器核架构，在其中，单核或类型或核可以执行所有类型的可编程着色器代码，包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核的确切数量可以在实施例和实现方式之间变化。此外，图形处理器1340包括核间任务管理器1345，其充当线程分派器以将执行线程分派到一个或多个着色器内核1355A-1355N和平铺单元1358，以加速用于基于平铺块的渲染的平铺操作，在其中，用于场景的渲染操作在图像空间中细分(例如，以利用场景内的局部空间相干性或优化内部缓存的使用)。

图14A-图14B示出根据本文描述的实施例的附加示例性图形处理器逻辑。图14A示出图形核1400，其可以被包括于图12的图形处理器1210内，并且可以是如图13B中的统一着色器核1355A-1355N。图14B示出适合于部署在多芯片模块上的高度并行的通用图形处理单元1430。

如图14A所示，图形核1400包括共享指令缓存1402、纹理单元1418和缓存/共享存储器1420，它们对于图形核1400内的执行资源是共用的。图形核1400可以包括用于每个核的多个分片1401A-1401N或分区，并且图形处理器可以包括图形核1400的多个实例。分片1401A-1401N可以包括支持逻辑，其包括本地指令缓存1404A-1404N、线程调度器1406A-1406N、线程分派器1408A-1408N和一组寄存器1410A。为了执行逻辑操作，分片1401A-1401N可以包括一组附加功能单元(AFU1412A-1412N)、浮点单元(FPU 1414A-1414N)、整数算术逻辑单元(ALU1416-1416N)、地址计算单元(ACU 1413A-1413N)、双精度浮点单元(DPFPU1415A-1415N)和矩阵处理单元(MPU 1417A-1417N)。

一些计算单元以特定精度操作。例如，FPU 1414A-1414N可以执行单精度(32位)和半精度(16位)浮点运算，而DPFPU 1415A-1415N执行双精度(64位)浮点运算。ALU 1416A-1416N可以按8位、16位和32位精度执行可变精度整数运算，并且可以被配置用于混合精度运算。MPU 1417A-1417N还可以配置用于混合精度矩阵运算，包括半精度浮点运算和8位整数运算。MPU 1417-1417N可以执行各种矩阵运算以加速机器学习应用框架，包括使得对加速的通用矩阵到矩阵乘法(GEMM)的支持成为可能。AFU 1412A-1412N可以执行浮点或整数单元不支持的附加逻辑运算，包括三角运算(例如，正弦、余弦等)。

如图14B所示，通用处理单元(GPGPU)1430可以被配置为使得高度并行的计算操作能够由图形处理单元的阵列执行。此外，GPGPU 1430可以直接链接到GPGPU的其他实例，以生成多GPU集群，以提升用于特定深度神经网络的训练速度。GPGPU 1430包括主机接口1432，以使得与主机处理器的连接成为可能。在一个实施例中，主机接口1432是PCIExpress接口。然而，主机接口也可以是供应商特定的通信接口或通信构造。GPGPU 1430从主机处理器接收命令并且使用全局调度器1434来将与那些命令关联的执行线程分发到一组计算集群1436A-1436H。计算集群1436A-1436H共享缓存存储器1438。缓存存储器1438可以充当用于计算集群1436A-1436H内的缓存存储器的更高层缓存。

GPGPU 1430包括经由一组存储器控制器1442A-1442B与计算集群1436A-1436H耦合的存储器1434A-1434B。在各个实施例中，存储器1434A-1434B可以包括各种类型的存储器设备，包括动态随机存取存储器(DRAM)或图形随机存取存储器(例如，同步图形随机存取存储器(SGRAM)，包括图形双倍数据率(GDDR)存储器)。

在一个实施例中，计算集群1436A-1436H均包括一组图形核(例如，图14A的图形核1400)，其可以包括多种类型的整数和浮点逻辑单元，它们可以按一系列精度(包括适合于机器学习计算的精度)执行计算操作。例如，并且在一个实施例中，计算集群1436A-1436H中的每一个中的浮点单元的至少一个子集可以被配置为执行16位或32位浮点运算，而浮点单元的不同子集可以被配置为执行64位浮点运算。

GPGPU 1430的多个实例可以被配置为操作为计算集群。计算集群用于同步和数据交换的通信机制因实施例而异。在一个实施例中，GPGPU 1430的多个实例通过主机接口1432进行通信。在一个实施例中，GPGPU 1430包括I/O中枢1439，其将GPGPU 1430与GPU链路1440耦合，GPU链路1440使得至GPGPU的其他实例的直接连接成为可能。在一个实施例中，GPU链路1440耦合到专用GPU到GPU桥，其使得能够进行GPGPU 1430的多个实例之间的通信和同步。在一个实施例中，GPU链路1440与高速互连耦合，以对其他GPGPU或并行处理器发送和接收数据。在一个实施例中，GPGPU 1430的多个实例位于分离的数据处理***中，并且经由可经由主机接口1432访问的网络设备进行通信。在一个实施例中，除了主机接口1432之外或作为对其的替代，GPU链路1440还可以被配置为使得至主机处理器的连接成为可能。

虽然GPGPU 1430的所示配置可以被配置为训练神经网络，但一个实施例提供可以被配置用于部署在高性能或低功率推理平台内的GPGPU 1430的替选配置。在推理配置中，GPGPU 1430相对于训练配置包括更少的计算集群1436A-1436H。此外，与存储器1434A-1434B关联的存储器技术可以在推理配置与训练配置之间不同，其中，更高带宽存储器技术致力于训练配置。在一个实施例中，GPGPU 1430的推理配置可以支持推理特定指令。例如，推理配置可以提供对一个或多个8位整数点积指令的支持，这些指令在推理操作期间常用于所部署的神经网络。

图15A示出多种形式的沉浸式视频。取决于对观看者可用的自由度，可以以多种形式呈现沉浸式视频。自由度指代对象能够在3D空间中移动的不同方向的数量。示例形式包括3DoF、3DoF Plus和6DoF。6DoF视频可以包括全6DoF、全向6DoF和加窗6DoF。可以经由包括关于位置和取向进行跟踪的头戴式显示器观看沉浸式视频。

在3DoF视频(例如，360度视频)中，观看者可以改变取向(例如，偏航、俯仰、翻滚)而非位置。在3DoF Plus视频中，观看者可以改变取向并且对位置的改变进行小的改变。

在6DoF视频中，观看者可以改变取向并且改变位置。更受限形式的6DoF视频也是可用的。加窗6DoF允许观看者改变取向和位置，但观看者被约束到有限的视图区域。全向6DoF使得观看者能够在虚拟场景中采取多个步骤。

图15B示出用于沉浸式视频的图像投影和纹理平面。可以使用来自多个相机的数据生成视频内容的3D视图。可以为视频内容确定投影平面。可以从视频内容导出多个纹理平面，纹理平面可以应用于预先生成的或基于从视频数据导出的点云而生成的3D模型。

图16示出服务器基础架构可以生成沉浸式视频内容并且对其进行编码以用于传输到一个或多个客户端设备的客户端-服务器***。客户端设备然后可以解压缩并渲染沉浸式视频内容。可以从光学相机和深度传感器生成沉浸式视频内容。并行计算资源可以将视频和深度数据分解为点云和/或纹理三角形。预先生成的场景的3D模型也可以提供纹理化三角形数据。点云和/或纹理化三角形可以被压缩，以用于传输到一个或多个客户端设备，其可以在本地渲染内容。

图17A-图17B示出用于对3DoF Plus内容进行编码和解码的***。

如图17A所示，可以使用多个相机来捕获基本视图和附加视图的视频数据。每个相机可以提供视频数据和深度数据，其中，视频数据的每个帧可以被转换为纹理。可以对所提供的数据执行重新投影和遮挡检测，然后可以由片块形成模块形成为片块。然后，片块封装单元封装各个片块。可以连同封装的片块数据和基本视频视图一起对用于封装的片块的元数据进行编码。

如图17B所示，可以接收视频数据的多个流并且对其进行解码。多个视频流包括基本视频的流，以及包含附加视图的封装的数据的流。还接收编码的元数据。对多个视频流和元数据进行解码。然后，解码的元数据用于对解码的附加视图进行解封。基本视图和附加视图可以用于执行视图生成，其中，基本视图和附加视图由客户端重构。解码的视频可以作为纹理和深度数据提供给中间视图渲染器，其可以用于渲染头戴式显示器的中间视图。头戴式显示器位置信息作为反馈提供给中间视图渲染器，中间视图渲染器可以渲染更新的视图，以用于经由头戴式显示器显示。

图18A-图18B示出用于使用纹理化几何数据对6DoF内容进行编码和解码的***。图18A示出6DoF纹理化几何编码***。图18B示出6DoF纹理化几何解码***。6DoF纹理化几何编码和解码可以用于使得视频数据作为纹理应用于几何数据的6DoF沉浸式视频的变体成为可能，从而允许基于头戴式显示器的位置和取向来渲染新的中间视图。

如图18A所示，多个视频相机记录的数据可以与3D模型组合，特别是对于静态对象。可以基于也包括深度数据的捕获的视频数据来执行重新投影和遮挡检测，并且可以对包括基本视频流(视频0)的所有视频流进行片块分解。

如所示，视频纹理和深度数据、分解的片块数据和封装的片块数据被提供给几何图像生成器。视频纹理和深度数据连同封装的片块数据一起被提供给纹理图像生成器。封装的片块数据连同视频纹理和深度数据一起被提供给属性图像生成器。然后，几何数据、纹理数据和属性数据被提供给视频压缩器。

除了提供给视频压缩器的数据之外，还可以基于封装的片块数据生成占据图(occupancy map)。可以基于与分解的片块数据组合的视频纹理和深度数据生成辅助片块信息。占据图数据和辅助片块信息也可以被压缩。然后，视频压缩器数据连同压缩的占据图数据和辅助片块信息一起复用为比特流。然后，比特流可以被提供给客户端设备，以用于解压和浏览。

图18B示出可以用于使用图18A的编码***对6DoF内容进行解码的6DoF纹理化几何解码。压缩的比特流被接收，并且解复用为多个视频解码流、占据图和辅助片块信息。对多个视频流和占据图数据进行解封。然后，辅助片块信息用于对未封装的数据执行遮挡填充。在遮挡填充之后，可以将文本和深度数据重构为独立的流。这些独立的流可以被提供给中间视图渲染，其可以渲染视图以用于在头戴式显示器上显示。

图19A-图19B示出用于经由点云数据对6DoF内容进行编码和解码的***。图19A示出6DoF点云编码***。图19B示出6DoF点云解码***。

如图19A所示，点云数据的输入帧可以被分解为片块数据。可以按与图18A中的视频纹理和深度数据类似的方式对点云数据和分解的片块数据进行编码。然后，编码的信息可以被复用为压缩的比特流，以提供给客户端以用于观看。

图19B所示的***可以对图19A的***输出的压缩的比特流进行解码。如图19B所示，压缩的比特可以被解复用为多个视频流、占据图数据和辅助片块信息。然后可以执行几何重构、平滑和纹理重构，以重构提供给图19A的6DoF点云编码***的点云数据。

数据处理***

图20示出根据本文描述的实施例的数据处理***。图20的数据处理***2000是具有处理器2002、统一存储器2010和GPGPU 2020的异构处理***。处理器2002和GPGPU 2020可以是如本文所述的处理器和GPGPU/并行处理器中的任何一个。统一存储器2010表示可以由处理器2002和GPGPU 2020访问的统一地址空间。统一存储器包括***存储器2012以及GPGPU存储器2018。在一些实施例中，GPGPU存储器2018包括GPGPU 2020内的GPGPU本地存储器2028，并且还可以包括***存储器2012中的一些或全部。例如，存储在***存储器2012中的编译代码2014B也可以被映射到GPGPU存储器2018，以用于GPGPU 2020访问。在一个实施例中，***存储器2012中的运行时库2016可以促进编译代码2014B的编译和/或执行。处理器2002可以执行存储在***存储器2012中的用于编译器2015的指令。编译器2015可以将源代码2014A编译为编译代码2014B，以用于处理器2002和/或GPGPU 2020执行。在一个实施例中，编译器2015是或可以包括着色器编译器，以编译专门用于GPGPU 2020执行的着色器程序。

GPGPU 2020包括多个计算块2024A-2024N，其包括本文描述的执行逻辑的一个或多个实例。GPGPU 2020还包括一组寄存器2025、缓存存储器2027以及可以用作计算块2024A-2024N的共享资源的功率和性能模块2026。在一个实施例中，寄存器2025包括直接和间接可存取寄存器，其中，间接可存取寄存器可以被优化，以用于矩阵计算操作中。功率和性能模块2026可以被配置为调整计算块2024A-2024N的功率输送和时钟频率，以在重工作负荷下为计算块2024A-2024N内的门空闲组件供电。GPGPU 2020包括GPGPU本地存储器2028，其为与GPGPU 2020共享图形卡或多芯片模块的物理存储器模块。

在一个实施例中，GPGPU 2020包括硬件逻辑，其包括体素表示单元2021、压缩单元2022和一致性单元2023。在下面更详细地描述体素表示单元2021、压缩单元2022和一致性单元2023实现的操作。

使用基于3D几何的法线向量计算的点云抽取

用于计算法线向量的一些现有技术需要用于构造点云的图像的相机布局的先验知识。然而，这种信息并非总是可用的。此外，与从几何直接计算相比，使用相机视图是缓慢的处理。

点云常常是来自多个图像的自动场景重构的结果。归因于非理想图像或相互相机校准，这种重构可能具有显著噪声和伪影。一种类型的噪声是“封装”在对象的表面内部的点。这些点将对任何视图的对象的外观没有贡献。在一些示例中，点云可以包含高达20％的这些封装的点。另一类型的噪声是与通用点云对象形状不一致的点。

本文描述的是新颖的基于三维(3D)几何的法线计算技术的示例，用于识别对象表面和法线向量，并且因此在该表面内部抽取点。(在三角法之后)对“点的云”中的点产生法线向量的一个普遍问题在于，不能准确地选取法线向量的方向。本文描述的技术仅使用场景的3D几何(即，点云数据)自动地选取法线向量的正确方向。这使得该技术能够抽取掉处于对象内部的高达20％的点云点，而没有质量的物质损失。

在一些示例中，用于使用基于3D几何的法线向量计算实现点云抽取的技术可以由图20中描绘的体素表示单元2021来实现，并且将参照图21和图22A-图22E进行描述。在图形处理中，并且特别是在开发用于高效地并且以高质量渲染点云数据集的技术中，这些技术可以找到实用性。

参照图21，在操作2110，3D点云数据集中的场景分离为3D栅格单元，其中，单元是可以包含或不包含3D点(体素)的单个3D单位栅格。在一些示例中，栅格可以是几乎各向同性的栅格，其可以使用用于定义输出单元大小与点云的密度之间的比率的参数来定义。替代地，可以从输入数据直接计算单元的最优大小。图22A示出从对象不具有所计算的法线向量的点云数据导出的3D场景2200。

在操作2115，产生3D聚类。在一些示例中，聚类可以被定义为非空单元的连接分量，替代地，可以通过标记处理(例如，K均值聚类算法，其迭代地对数据进行排序以基于位置坐标数据、颜色数据或其他特征数据所识别的特征中的相似性将空间中的每个数据点(即，体素)分配到K个组之一)执行聚类。K均值聚类算法识别K个聚类的质心，并且为每个聚类生成标记。聚类的每个质心是定义得到的组的特征值的集合。可选地，可以移除有噪聚类。在一些示例中，如果聚类的大小小于最小对象大小，则聚类可以认为是有噪的。图22B描绘聚类算法(例如，K均值算法)已经定义了包含于边界框内的聚类2210的3D场景2200。

在操作2120，定义单元面的透明等级(图22C)。在一些示例中，单元面透明等级定义可以基于单元中的点云数据的点的密度。在一些示例中，单元面可以被分配范围从用于透明单元面的0到用于不透明单元面的5的六个透明等级之一。为了确定透明等级，首先通过所有非空单元计算聚类的平均密度(MD)。然后将等级定义为：level_0＝0，level_1＝MD/4，level_2＝MD/3，level_3＝MD/2，level_4＝3*MD/4，level_5＝MD。根据从该面到聚类中心的单元的相加密度，将单元的每个面分配给所定义的透明等级之一。

在操作2125，检测用于单元的表面层，并且移除有噪体素。在一些示例中，如果单元的所有六个面是不透明的(即，单元的每个面的透明等级等于5)，则单元可以被定义为“内部”。这些内部单元的点对于任何视图的对象的外观没有贡献，并且因此可以移除单元，而在图像质量上没有损失。所有其他(非内部)单元属于皮肤层。

在操作2130，可以计算法线向量。在一些示例中，使用3或6个相邻体素为皮肤层的每个体素计算法线向量(这是用于法线计算的标准技术)。法线向量方向没有被定义，或者更精确地说，定义多达2个相反的方向。在一个示例中，可以根据具有最小透明等级的最近的面选择最终法线方向。在一些情况下，来自单元的六个面的两个或更多个面可以具有相同的最小透明等级。在此情况下，计算从当前体素到所有那些面的欧几里德距离，并且最近的欧几里德距离决定法线的最终方向。图22D描绘具有PCL库生成的法线向量的输入场景。对象2210的黑色表示法线向量指向错误方向(即，指向对象内部)而非指向对象外部的点。图22E示出具有如本文所述生成的法线向量的相同场景2200。法单向量指向错误方向的单元明显更少。

使用3D聚类的点云自适应无损编码

当前以例如不容易提供数据压缩的多边形文件格式(PLY)、点云数据格式(PCD)、ASCII和二进制格式的格式存储点云数据。如果云中的点的数量是N，则对于点云中的每个点，应保留以下27字节的信息：

许多点云数据集包括数量为N的数据点，其可以从数十万变化到高达数百万的3D数据点。对这种量的数据(27字节*N)的操纵(例如，读取、通过网络发送或保存)是繁重并且在计算方面是费力的。

为了解决该问题和其他问题，本文描述一种新颖的具有进一步有损压缩的可能性的用于云点数据的压缩的无损格式。在一些示例中，可以通过图20中描绘的压缩单元2022实现并且将参照图23-图24描述用于使用3D聚类实现云点自适应编码的技术。在图形处理中，并且特别是在开发用于压缩点云数据的技术中，这些技术可以找到实用性。

参照图23-图24，在操作2310，将3D点云数据集中的场景分离为3D栅格单元。在一些示例中，栅格可以是几乎各向同性的栅格，其可以使用来自3D点云数据集的场景的参数来定义。

在操作2315，执行聚类算法，以产生分离的3D聚类。在一些示例中，标记处理(例如，K均值聚类算法，其迭代地对数据进行排序以基于位置坐标数据、颜色数据或其他特征数据所识别的特征中的相似性将空间中的每个数据点分配到K个组之一)。K均值聚类算法识别K个聚类的质心，并且为每个聚类生成标记。聚类的每个质心是定义得到的组的特征值的集合。因此，点云数据被排序为由聚类j中的数量Mj单元构成的分离的3D聚类(通常，每对象一个聚类)。

在操作2320，对数据层级进行结构化。在一个示例中，点云数据可以被结构化为现在包含聚类的点云数据表示的3D空间的层级表示，并且聚类包含单元。参照图24，可以用新的格式表示点云数据集，新的格式包括每点云一个通用头2410，其包括描述关于点云数据集中的点的总数量和聚类的数量等的信息的信息。

点云数据集中的K个聚类中的每一个可以包括聚类头2415。因此，通用头可以逻辑上链接到数量为K的聚类头2415A至2415K。每个聚类头包括描述聚类中单元的数量和聚类的左上角的位置等的信息。

聚类中的M个单元中的每一个可以包括单元头2420。因此，每个聚类头2415A至2415N可以逻辑上链接到数量为M的单元头2420A至2420M。每个单元头包括描述单元中的点(即，体素)的数量、聚类中的单元的相对位置等的信息。

单元中的N个体素中的每一个可以包括描述与单元位置的坐标差异、颜色差异等的体素数据。因此，每个单元头2420可以是逻辑上链接到数量为N的体素数据集。

在一些示例中，单元大小是可调节的，并且取决于如上所述的点云的特性。单元的推荐大小范围从几十到几百个在3D空间中定位得相对靠近的体素。因此，在操作2325，可以将差分编码算法应用于每个单元内的体素数据。在一些示例中，可以对一个或多个体素完全地进行编码(即，具有完整的(x,y,z)位置坐标和完整的(r,g,b)颜色属性)，同时可以对其余体素进行差分编码，以表达体素数据(例如，位置、颜色等)的差异，该操作比对绝对3D位置和颜色数据进行编码使用更少的比特。可以注意到，编码参数(即，每个体素编码所需的比特的数量等)对于不同的单元和不同的聚类是不同的，并且可以取决于体素分布。因此，可以计算单元体素的边界框并将其保存为其(对单元位置的)相对位置，并且用于对体素位置的差异进行编码。在此，编码所需的比特长度与边界框的最大边成比例。因此，如果在一些单元中，体素聚集为某小的体积，则我们需要更少的比特，并且最大比特长度被限于单元的边。对于颜色，可以确定min(r,g,b),并且将其用于分离地对每个通道的差异进行编码。

可以通过从场景的3D几何的性质恢复法线向量来获得进一步的压缩。因此，在操作2330，定义单元面的透明等级。在一些示例中，单元面透明等级定义可以基于单元中的点云数据的点密度。在一些示例中，单元面可以被分配范围从用于透明单元面的0上至用于不透明单元面的5的六个透明等级之一。

在操作2335，检测单元的表面层，并且移除有噪体素。在一些示例中，如果单元的所有六个面是不透明的(即，单元的每个面的透明等级等于5)，则单元可以被定义为“内部”。这些内部单元的点对任何视图的对象的外观没有贡献，并且因此可以移除该单元，而在图像质量上没有损失。所有其他(非内部)单元属于皮肤层。

在操作2340，可以计算法线向量。在一些示例中，使用3或6个欧几里德邻近体为皮肤层的所有点计算法线向量，并且根据具有最小透明等级的最近的面选取法线向量方向。

从点云数据集排除法线向量可以产生大约1.8(27字节/15字节)的压缩比率。位置和颜色数据的差分编码可以产生1.5-2.0之间的附加压缩比率。此外，在不损失图像质量的情况下，可以移除高达20％的内部点。因此，用于无损格式的最终压缩比率应处于大约3.2-4.3之间。此外，可以使用霍夫曼或算术编码算法压缩最终文件，这样可以增加最终压缩比率。

使用3D聚类的点云自适应有损编码

在一些示例中，压缩单元2022可以单独地或与参照图23-图24描述的无损编码技术组合地实现自适应有损编码技术。为了解决该问题和其他问题，本文描述一种新颖的具有进一步有损压缩的可能性的用于云点数据的压缩的无损格式。在一些示例中，可以通过图20中描绘的压缩单元2022实现并且将参照图25描述用于使用3D聚类实现云点自适应编码的技术。在图形处理中，并且特别是在开发用于压缩点云数据的技术中，这些技术可以找到实用性。

宽泛地说，可以通过使用自适应精度等级实现有损压缩，以存储为单元中的体素确定的差分编码数据，如参照图23所描述的那样。

参照图25，在操作2510，为数据定义一个或多个自适应精度等级。例如，如果需要K比特以存储图23中描述的无损编码方案中生成的差分数据，则可以实现一个或多个自适应等级，以降低用于保存数据的精度。因此，等级1可以降低精度达1比特(即，保留K-1个最高比特)，等级2可以降低精度达2比特(即，保留K-2最高比特)等。

在操作2515，选择第一单元，并且在操作2520，为单元选择自适应精度等级。在一些示例中，(用于坐标编码的)低精度等级可以用于并非皮肤层的一部分的单元。此外，聚类具有高度均匀的颜色，于是较低精度可以用在聚类的任何部分中。

在操作2525，使用在操作2520选择的自适应精度等级对单元的差分数据进行编码。在一些示例中，将保留差分数据的最高有效位。在操作2530，编码的差分数据比特长度被存储在单元的头中。

如果在操作2535，不存在更多要编码的单元，则操作结束。相反，如果在操作2535，存在更多的单元，则控制传递到操作2540，并且选择下一单元，而且控制传递回到操作2520。因此，参照图24，操作2520至2540定义可以按不同的精度等级自适应地对单元2420A至2420M中的体素数据2425A至2425N进行编码以实现差分数据的压缩所依据的循环。本领域技术人员将认识到，可以类似地对单元头数据、聚类头数据和通用头数据进行编码，以进一步压缩数据。

在一些示例中，映射单元的中心(代替或除了单元的左上角之外)的位置以用于单元头数据和体素数据中的有损压缩可能是有利的。这种选择是优选的，因为归因于坐标精度的降低，解码的坐标的差异将向下取整，并且因此在单元原点周围凝聚。在此情况下选择中心将保持云点数据正确地分布。

此外，可以应用用于色彩以及用于坐标的类似jpeg的压缩(即，应用离散余弦变换(DCT)、量化和游长编码(RLE)-而非霍夫曼编码)。对于坐标或/和颜色差异编码的情况，可以调整jpeg算法。这种调整可以包括针对我们的情况和量化表优化等调整DCT及其维度。此外，在最后阶段将对所有编码数据应用霍夫曼、LZW(Lempel-Ziv-Welch)或算术编码。

在解压缩之后，一些伪影可能显现在恢复的数据上。为了抑制这些伪影，可以使用若干不同的方法。例如，可以通过对颜色进行类似解块的滤波来处理单元边界上的颜色的不连续性。归因于坐标的精度降低，值的量化已经发生。为了解决该问题，可以应用补偿机制。例如，可以估计所应用的方法产生的最大可能的精度误差，可以增加该误差值的一半上的坐标的值。

云点序列一致性

在现有方法中，用于视频序列的每个帧的点云的重构独立地发生。得到的点云具有不同数量的点，并且在相继帧中的同一3D对象的点的位置之间不存在任何对应性。

这种类型的序列的压缩是低效的，因为它受限于每个帧的分离的压缩。对于MPEG类型压缩(其仅对帧的部分(I帧)完全地进行编码，并且对大多数的帧部分地(仅按差异(B帧))进行编码)，需要不同帧中的点云之间的一致性。

本文描述的是用于当一致性对整个视频序列上的每个聚类暗示相同数量的体素时，确定有噪点云的一致性的技术。该技术可以用于确定序列中每个体素的有限平移(即，跟踪每个体素)。

在一些示例中，可以通过图20中描绘的一致性单元2023实现并且将参照图26描述用于实现点云一致性的技术。在图形处理中，并且特别是在开发用于对点云数据进行编码的技术中，这些技术可以找到实用性。

初始地，考虑云点(CP)序列CP(t)，其中，t是时间，并且目标是定义如何将给定序列的每个CP变换为相干状态。该处理可以开始于以上参照点云抽取描述的降噪方法。为了方便和清楚，将不重复整个处理的描述。简而言之，将3D场景分离为各向同性单元的3D栅格，并且聚类处理(例如，K均值聚类算法)实现为将相邻的非空单元连接到更大的3D聚类。对于每个单元，定义基于每单元的点的密度的从0(透明)上至5(不透明)的面的六种可能的透明等级。如果单元的所有六个面是不透明的(每个面的透明等级等于5)，则单元是“内部”的，并且可以被抽取掉。所有其他(非内部)单元属于皮肤层。通常，皮肤层的径向厚度不受限于1个单元大小，而可以等于几个单元。

参照图26，用于实现点云一致性的技术可以包括降噪阶段和体素匹配阶段。降噪可以对于每个聚类分开地进行，并且可以考虑所有重要数据点位于皮肤层中的事实。

在降噪阶段中，在操作2610，从点云数据移除有噪单元。在一些示例中，如果体素密度低于阈值，则聚类可以看作是有噪的。因此，在操作2610，对于包含极低数量的体素但很大可能它们是有噪体素的单元，应从聚类移除这些体素。例如，如果单元具有多于单元中的阈值数量的体素，则单元可以看作是有效的(即，不是有噪的)。在一些示例中，阈值可以被设定在与聚类的平均密度成比例的等级。在其他示例中，阈值可以是预定义参数(例如，T＝5)。从点云数据移除单元中不满足阈值体素密度的体素。

在操作2610，通过使得点云数据的皮肤层的径向厚度最小化来对其进行归一化。在一些示例中，皮肤层被减小到一个单元的理想厚度。可以确定皮肤层“中心表面”，并且可以朝向该中心表面中的单元移动***体素。因此，皮肤层中的体素密度将增加，并且其径向厚度将最小化。

在操作2620，可以应用一个或多个平滑滤波器以进一步使得聚类可视性规则化。例如，如果距“中心表面”相对远的一些离群值保留，则应处理它们。如果在平滑之后仍然存在中心表面外的单个点，则可以(可选地)移除它们。

操作2610至2620可以独立地应用于序列中的每个CP，以对不同的CP进行降噪。

在操作2625，在相继帧中识别对应聚类(即，相同聚类)。在一些示例中，可以使用聚类的一个或多个描述符和其距离测量值。与相继云“最近”的描述符定义相同聚类。

在相继帧中识别相同聚类之后，可以实现体素匹配阶段。在操作2630，对于两个相继(即，第k和第(k+1))个CP中的相同聚类，选择位于3D栅格的相同垂直(Y)等级处的所有单元。在一些示例中，可以包括位于相邻等级(即，+/-1个等级)处的单元。在操作2635，通过选择具有阈值限度内的颜色值的体素来选择用于匹配的多个候选体素。例如，可以将来自第k个CP的所选择的单元的每个体素的颜色与第(k+1)个CP的所选择的单元的每个体素的颜色进行比较。为了选择多个候选，体素的颜色值的差值小于阈值的体素被选择。这可以表示为：Abs(clrk,l,i–clrk+1,l,i)<Tc，其中，l是聚类索引，i为颜色分量，Tc为阈值。归因于可能的旋转、反射等，该阈值允许不同CP中的相同体素的颜色的变化。

在操作2640，选择来自颜色差异中具有最小欧几里德距离的一组候选体素中的体素。这可以表示为选择具有min{Euclidian distance[Vk,l,i,Vk+1,l,i]}的体素。

可以对于相继帧中的所有体素重复操作2630至2640，以在相继帧中定位匹配体素。在处理所有体素之后，可能仍然留有在相继CP中没有对应性的某数量的体素。可以移除这些体素(操作2645)。替代地，可以将这些体素保存在列表中，以尝试在随后CP中寻找匹配体素。如果匹配体素位于随后CP中，则可以在所有CP中重构体素。

因此，图26中描绘的操作生成用于帧的视频序列的云点的相干序列，其准备用于高效MPEG类型压缩。

使用3D聚类的云点视频序列自适应编码

在一些示例中，参照图26描述的点云一致性操作可以受益于修改以补偿这样的事实：在由于场景中的对象的数量随着时间改变，因此点云数据中的聚类的数量也随着时间动态地改变的意义上，视频序列中的场景是动态的。类似地，聚类的大小随时间动态改变。

可以通过图20中描绘的一致性单元2023实现并且将参照图27-图28描述用于解决该问题和其他问题的技术。在图形处理中，并且特别是在开发用于对点云数据进行编码的技术中，这些技术可以找到实用性。

参照图27，在操作2710，视频序列被划分为多个单调相干子序列(即，每个聚类在帧内是可跟踪的子序列)。当遇到一个或多个先前跟踪的聚类无法被定位或引入新的聚类的新的帧时，该帧于是开始新的子序列。

在操作2715，子序列的每个第一帧被定义为关键帧(即，MPEG标准中的I帧)。在操作2720，对I帧独立地进行编码。可以使用如上所述的无损编码或有损编码对I帧进行编码。

在操作2725，子序列中的其余帧被定义为B帧，其在操作2730被差分编码，即，被编码以保存用于同一可跟踪体素的数据的差异。

在操作2735，可以分开地为每个体素数据分量存储(并且在解码模式时恢复)每个体素的视频序列数据。这将生成六个分离的数据数组：用于坐标的三个A(dxi)和用于颜色的三个A(dci)，其中，i＝{0,1,2}。可以分开地使用如上所述的有损或无损方法对每个Ai数组进行编码。

在一些示例中，数据可以被存储在数据层级中。在一个示例中，点云视频序列数据可以被结构化为点云数据表示的3D视频序列空间的层级表示，其现在包含聚类，并且聚类包含单元。参照图28，可以用新的格式表示点云视频序列数据集，新的格式包括每点视频序列一个通用头2810，其包含通用信息，通用信息包括描述视频序列中的视频子序列的数量等的信息。

视频序列中的子序列中的每一个可以包括子序列头2815。因此，通用头可以逻辑上链接到数量为K的聚类头2815A至2815K。每个子序列头包括描述子序列中的帧的数量、帧中的聚类的数量、关键帧数据长度等的信息。

子序列中的M个关键帧中的每一个可以包括关键帧数据块2820A至2028M。每个关键帧数据块2820A至2820M可以逻辑上链接到数量为N的帧头2825A至2825N。每个帧头2825A至2825N可以逻辑上链接到帧数据2830A至2830N。

因为相继帧中的相同体素的坐标和颜色具有接近的值，并且因此它们之间的差异很小，无需很多比特来存储，所以可以实现高压缩比率。在一些示例中，可以应用基于无损字典的压缩器。此外，预期差异自身是均匀的，并且因此可以在此以高效率使用许多现有的压缩方法。

图29是根据实施例的包括图形处理器2904的计算设备2900的框图。计算设备2900可以是如本文所述的计算设备(例如，图1中的数据处理***100)。计算设备2900也可以是或包括于通信设备(例如，机顶盒(例如，基于互联网的有线电视机顶盒等)、基于全球位置***(GPS)的设备等)内。计算设备2900也可以是或包括于移动计算设备(例如，蜂窝电话、智能电话、个人数字助理(PDA)、平板计算机、膝上型计算机、电子阅读器、智能电视、电视平台、可穿戴设备(例如，眼镜、手表、手镯、智能卡、珠宝、服装物品等)、媒体播放器等)内。例如，在一个实施例中，计算设备2900包括采用在单个芯片上集成计算设备2900的各种硬件和/或软件组件的集成电路(“IC”)(例如，片上***(“SoC”或“SOC”))的移动计算设备。

计算设备2900包括图形处理器2904。图形处理器2904表示本文描述的任何图形处理器。图形处理器包括一个或多个图形引擎、图形处理器核以及如本文所述的其他图形执行资源。可以通过包括但不限于执行单元、着色器引擎、分段处理器、顶点处理器、流送多处理器、图形处理器聚类或适合于处理图形和图像资源的计算资源的任何集合的形式呈现这些图形执行资源。

在一个实施例中，图形处理器2904包括缓存2914，其可以是单个缓存或划分为缓存存储器的多个分段，包括但不限于任何数量的L1、L2、L3或L4缓存、渲染缓存、深度缓存、采样器缓存和/或着色器单元缓存。在一个实施例中，图形处理器2904包括调度器2924，其可以是图16的调度器单元1622的变体或本文描述的其他调度器逻辑。除了包括用于执行如本文所述的图形处理和通用指令执行的硬件逻辑的GPGPU引擎2944之外，图形处理器2904还可以附加地包括命令流送器2926、线程调度器2934和屏障/同步逻辑2936。

如所示，在一个实施例中，并且除了图形处理器2904之外，计算设备2900还可以包括任何数量和类型的硬件组件和/或软件组件，包括但不限于应用处理器2906、存储器2908和输入/输出(I/O)源2910。应用处理器2906可以与硬件图形管线进行交互、如参照图3所示，以共享图形管线功能。处理后的数据被存储在硬件图形管线的缓冲区中，并且状态信息被存储在存储器2908中。所得数据可以被传送到显示器控制器，以用于经由显示设备(例如，图3的显示设备323)输出。显示设备可以是各种类型的(例如，阴极射线管(CRT)、薄膜晶体管(TFT)、液晶显示器(LCD)、有机发光二极管(OLED)阵列等)，并且可以被配置为经由图形用户界面向用户显示信息。

应用处理器2906可以包括一个或多个处理器(例如，图1的处理器102)，并且可以是至少部分地用于执行计算设备2900的操作***(OS)2902的中央处理单元(CPU)。OS 2902可以充当计算机设备2900的硬件和/或物理资源与一个或多个用户之间的接口。OS 2902可以包括图形驱动器逻辑2922(例如，图10的用户模式图形驱动器1026和/或内核模式图形驱动器1029)。

预期在一些实施例中，图形处理器2904可以作为应用处理器2906的一部分(例如，物理CPU封装的一部分)而存在，在此情况下，虽然存储器2908的至少一部分可以专用于图形处理器2904，但应用处理器2906和图形处理器2904可以共享存储器2908的至少一部分，或者图形处理器2904可以具有存储器的单独存储。存储器2908可以包括预先分配的缓冲区区域(例如，帧缓冲区)；然而，本领域普通技术人员应该理解，实施例不限于此，并且可以使用下部图形管线可访问的任何存储器。存储器2908可以包括各种形式的随机存取存储器(RAM)(例如，SDRAM、SRAM等)，其包括使用图形处理器2904来渲染桌面或3D图形场景的应用。存储器控制器可以用于访问存储器2908中的数据并且将数据转发到图形处理器2904，以用于图形管线处理。可以使得存储器2908对计算设备2900内的其他组件是可用的。例如，从计算设备2900的各种I/O源2910接收的任何数据(例如，输入图形数据)，在软件程序或应用的实现方式中，在一个或多个处理器(例如，应用处理器2906)对其进行操作之前，可以临时排队到存储器2908中。类似地，软件程序确定应通过计算***接口之一从计算设备2900发送到外部实体或存储到内部存储元件中的数据，在其被发送或存储之前，常常临时排队在存储器2908中。

I/O源可以包括例如触摸屏、触摸面板、触摸板、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器、网络设备等的设备。此外，I/O源2910可以包括为了将数据传送去往和/或来自计算设备2900(例如，网络适配器)或为了计算设备2900内的大规模非易失性存储(例如，硬盘驱动器)而实现的一个或多个I/O设备。用户输入设备，包括字母数字和其他键，可以用于将信息和命令选择传递到图形处理器2904。另一类型的用户输入设备是光标控件(例如，鼠标、轨迹球、触摸屏、触摸板或光标方向键)，以将方向信息和命令选择传递到GPU并且控制显示设备上的光标移动。可以采用计算机设备2900的相机和麦克风阵列来观测手势，记录音频和视频，以及接收和发送视觉和音频命令。

被配置作为网络接口的I/O源2910提供对网络(例如，LAN、广域网(WAN)、城域网(MAN)、个域网(PAN)、蓝牙、云网络、蜂窝或移动网络(例如，第3代(3G)、第4代(4G)等)、内联网、互联网等)的接入。网络接口可以包括例如具有一个或多个天线的无线网络接口。网络接口还可以包括例如有线网络接口，以经由网络缆线(其可以是例如以太网缆线、同轴缆线、光纤缆线、串行缆线或并行缆线)与远端设备进行通信。

网络接口可以例如通过符合IEEE 802.11标准提供对LAN的接入，和/或无线网络接口可以例如通过符合蓝牙标准提供对个域网的接入。还可以支持其他无线网络接口和/或协议，包括标准的先前版本和后续版本。除了或代替经由无线LAN标准的通信之外，网络接口可以使用例如时分多址(TDMA)协议、全球移动通信***(GSM)协议，码分多址(CDMA)协议和/或任何其他类型的无线通信协议提供无线通信。

应理解，对于特定实现方式，比上述示例更少或更多配备的***可以是优选的。因此，计算设备2900的配置可以取决于多种因素(例如，价格约束、性能要求、技术改进或其他情况)随着实现方式而变化。示例包括(但不限于)移动设备、个人数字助理、移动计算设备、智能电话、蜂窝电话、手机、单向寻呼机、双向寻呼机、传信设备、计算机、个人计算机(PC)、台式计算机、膝上型计算机、笔记本计算机、手持计算机、平板计算机、服务器、服务器阵列或服务器群、web服务器、网络服务器、互联网服务器、工作站、迷你计算机、大型计算机、超级计算机、网络电器、web电器、分布式计算***、多处理器***、基于处理器的***、消费者电子产品、可编程消费者电子产品、电视、数字电视、机顶盒、无线接入点、基站、订户站、移动订户中心、无线网络控制器、路由器、集线器、网关、网桥、交换机、机器或其组合。

实施例可以实现为以下的任何一个或组合：使用主板互连的一个或多个微芯片或集成电路、硬连线逻辑、由存储器设备存储并且由微处理器执行的软件、固件、专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)。术语“逻辑”可以包括例如软件或硬件和/或软件和硬件的组合。

实施例可以例如提供为计算机程序产品，其可以包括一个或多个机器可读介质，其上存储有机器可执行指令，指令当由一个或多个机器(例如，计算机、计算机的网络或其他电子设备)执行时可以使一个或多个机器根据本文描述的实施例执行操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(致密盘-只读存储器)和磁性光盘、ROM、RAM、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存或适合于存储机器可执行指令的其他类型的介质/机器可读介质。

此外，实施例可以下载为计算机程序产品，其中，程序可以经由通信链路(例如，调制解调器和/或网络连接)通过载波或其他传播介质中所体现和/或由其调制的一个或多个数据信号从远端计算机(例如，服务器)传送到请求计算机(例如，客户端)。

以下条款和/或示例属于其具体实施例或示例。可以在一个或多个实施例中的任何地方使用示例中的细节。不同实施例或示例的各种特征可以与所包括的一些特征以及排除的其他特征不同地组合，以适合各种不同的应用。示例可以包括例如以下的主题：方法；用于执行方法的动作的模块；至少一种机器可读介质，包括指令，指令当由机器执行时使机器执行方法的动作；或根据本文描述的实施例和示例的装置或***。各种组件可以是用于执行所描述的操作或功能的模块。

示例1是一种方法，包括：将点云数据集中包括多个体素的三维(3D)场景分离为3D栅格单元，所述3D栅格单元中的每个单元包括多个面；执行3D聚类算法，以生成多个3D聚类；为所述多个单元中的每个单元的每个面定义透明等级；检测所述3D场景中的多个聚类的单元的表面层；以及从所述多个聚类删除不处于所述单元的表面层中的单元。

示例2可以包括如示例1所述的主题，还包括：删除所述3D场景中的一个或多个有噪体素。

示例3可以包括如示例1-2中任一项所述的主题，还包括：针对所述3D场景中的多个聚类，计算所述单元的表面层中的相应多个体素的多个法线向量。

示例4可以包括如示例1-3中任一项所述的主题，还包括：对所述3D场景的数据层级进行结构化，所述数据层级包括：通用头，包括关于所述点云数据集的信息；多个聚类头，逻辑上链接到所述通用头，所述多个聚类头中的每个聚类头包括描述所述聚类中的多个单元的信息；用于所述多个聚类的多个单元头，每个单元头包括描述所述单元中的体素的数量和所述单元的坐标数据的信息，所述多个单元头逻辑上链接到所述多个聚类头。

示例5可以包括如示例1-4中任一项所述的主题，还包括：将差分编码算法应用于单元内的体素数据，以生成该单元中的体素数据的至少一部分的差分编码数据。

示例6可以包括如示例1-5中任一项所述的主题，还包括：定义多个数据精度等级；以及按所述多个精度等级内选定的精度等级对所述差分编码数据进行编码。

示例7是一种非瞬时性机器可读介质，存储有指令，所述指令当由一个或多个处理器执行时使所述一个或多个处理器执行包括以下的操作：将点云数据集中包括多个体素的三维(3D)场景分离为3D栅格单元，所述3D栅格单元中的每个单元包括多个面；执行3D聚类算法，以生成多个3D聚类；为所述多个单元中的每个单元的每个面定义透明等级；检测所述3D场景中的多个聚类的单元的表面层；以及从所述多个聚类删除不处于所述单元的表面层中的单元。

示例8可以包括如示例7所述的主题，所述操作附加地包括：删除所述3D场景中的一个或多个有噪体素。

示例9可以包括如示例7-8中任一项所述的主题，所述操作附加地包括：针对所述3D场景中的多个聚类，计算所述单元的表面层中的相应多个体素的多个法线向量。

示例10可以包括如示例7-9中任一项所述的主题，所述操作附加地包括：对所述3D场景的数据层级进行结构化，所述数据层级包括：通用头，包括关于所述点云数据集的信息；多个聚类头，逻辑上链接到所述通用头，所述多个聚类头中的每个聚类头包括描述所述聚类中的多个单元的信息；用于所述多个聚类的多个单元头，每个单元头包括描述所述单元中的体素的数量和所述单元的坐标数据的信息，所述多个单元头逻辑上链接到所述多个聚类头。

示例11可以包括如示例7-10中任一项所述的主题，所述操作附加地包括：将差分编码算法应用于单元内的体素数据，以生成该单元中的体素数据的至少一部分的差分编码数据。

示例12可以包括如示例7-11中任一项所述的主题，所述操作附加地包括：定义多个数据精度等级；以及按所述多个精度等级内选定的精度等级对所述差分编码数据进行编码。

示例13是一种装置，包括：处理器，用于：将点云数据集中包括多个体素的三维(3D)场景分离为3D栅格单元，所述3D栅格单元中的每个单元包括多个面；执行3D聚类算法，以生成多个3D聚类；为所述多个单元中的每个单元的每个面定义透明等级；检测所述3D场景中的多个聚类的单元的表面层；以及从所述多个聚类删除不处于所述单元的表面层中的单元；和存储器，以通信方式耦合到所述处理器。

示例14可以包括如示例13所述的主题，所述处理器用于：删除所述3D场景中的一个或多个有噪体素。

示例15可以包括如示例13-14中任一项所述的主题，所述处理器用于：针对所述3D场景中的多个聚类，计算所述单元的表面层中的相应多个体素的多个法线向量。

示例16可以包括如示例13-15中任一项所述的主题，所述处理器用于：对所述3D场景的数据层级进行结构化，所述数据层级包括：通用头，包括关于所述点云数据集的信息；多个聚类头，逻辑上链接到所述通用头，所述多个聚类头中的每个聚类头包括描述所述聚类中的多个单元的信息；用于所述多个聚类的多个单元头，每个单元头包括描述所述单元中的体素的数量和所述单元的坐标数据的信息，所述多个单元头逻辑上链接到所述多个聚类头。

示例17可以包括如示例13-16中任一项所述的主题，所述处理器用于：定义多个数据精度等级；以及按所述多个精度等级内选定的精度等级对所述差分编码数据进行编码。

示例18可以包括如示例13-17中任一项所述的主题，所述处理器用于：将差分编码算法应用于单元内的体素数据，以生成所述单元中的体素数据的至少一部分的差分编码数据。

示例19是一种方法，包括：对云点(CP)视频序列中的点云数据集进行降噪；识别所述CP序列的相继帧中的体素数据点的对应聚类；识别所述CP序列的相继帧中的对应聚类中的一个或多个匹配体素数据点；以及从所述点云数据集移除相继帧中没有匹配体素的体素。

示例20可以包括如示例19所述的主题，还包括：将所述点云视频序列划分为一系列相干子序列；以及将差分编码算法应用于所述子序列内的体素数据，以生成所述子序列中的体素数据的至少一部分的差分编码数据。

示例21可以包括如示例19-20中任一项所述的主题，还包括：对所述体素数据的数据层级进行结构化，所述数据层级包括：通用头，包括关于所述视频序列中的点云数据集和所述视频序列中的子序列的数量的信息；多个子序列头，逻辑上链接到所述通用头，所述多个子序列头中的每个子序列头包括描述所述子序列中的关键帧数据的信息；以及用于多个帧的多个帧头，每个帧头逻辑上链接到所述关键帧数据。

示例22是一种非瞬时性机器可读介质，存储有指令，所述指令当由一个或多个处理器执行时使所述一个或多个处理器执行包括以下的操作：对云点(CP)视频序列中的点云数据集进行降噪；识别所述CP序列的相继帧中的体素数据点的对应聚类；识别所述CP序列的相继帧中的对应聚类中的一个或多个匹配体素数据点；以及从所述点云数据集移除相继帧中没有匹配体素的体素。

示例23可以包括如示例22所述的主题，所述操作附加地包括：将所述点云视频序列划分为一系列相干子序列；以及将差分编码算法应用于所述子序列内的体素数据，以生成所述子序列中的体素数据的至少一部分的差分编码数据。

示例24可以包括如示例22-23中任一项所述的主题，所述操作附加地包括：对所述体素数据的数据层级进行结构化，所述数据层级包括：通用头，包括关于所述视频序列中的点云数据集和所述视频序列中的子序列的数量的信息；多个子序列头，逻辑上链接到所述通用头，所述多个子序列头中的每个子序列头包括描述所述子序列中的关键帧数据的信息；以及用于多个帧的多个帧头，每个帧头逻辑上链接到所述关键帧数据。

示例25是一种装置，包括：处理器，用于：对云点(CP)视频序列中的点云数据集合进行降噪；识别所述CP序列的相继帧中的体素数据点的对应聚类；识别所述CP序列的相继帧中的对应聚类中的一个或多个匹配体素数据点；以及从所述点云数据集移除相继帧中没有匹配体素的体素。

示例26可以包括如示例25所述的主题，所述处理器用于：将所述点云视频序列划分为一系列相干子序列；以及将差分编码算法应用于所述子序列内的体素数据，以生成所述子序列中的体素数据的至少一部分的差分编码数据。

示例27可以包括如示例25-26中任一项所述的主题，所述处理器用于：对所述体素数据的数据层级进行结构化，所述数据层级包括：通用头，包括关于所述视频序列中的点云数据集和所述视频序列中的子序列的数量的信息；多个子序列头，逻辑上链接到所述通用头，所述多个子序列头中的每个子序列头包括描述所述子序列中的关键帧数据的信息；以及用于多个帧的多个帧头，每个帧头逻辑上链接到所述关键帧数据。

本领域技术人员根据前面的描述应理解，可以通过各种形式来实现实施例的广泛技术。因此，虽然已经结合实施例的特定示例描述了实施例，但实施例的真实范围并非受限于此，因为在研究附图、说明书和所附权利要求后，其它修改对于本领域技术人员将变得显而易见。

Claims

1.一种方法，包括：

将点云数据集中包括多个体素的三维(3D)场景分离为3D栅格单元，所述3D栅格单元中的每个单元包括多个面；

执行3D聚类算法，以生成多个3D聚类；

为所述多个单元中的每个单元的每个面定义透明等级；

检测所述3D场景中的所述多个聚类的单元的表面层；以及

从所述多个聚类删除不处于所述单元的表面层中的单元。

2.如权利要求1所述的方法，还包括：

删除所述3D场景中的一个或多个有噪体素。

3.如权利要求1所述的方法，还包括：

针对所述3D场景中的所述多个聚类，计算所述单元的表面层中的相应多个体素的多个法线向量。

4.如权利要求1所述的方法，还包括：

对所述3D场景的数据层级进行结构化，所述数据层级包括：

通用头，包括关于所述点云数据集的信息；

多个聚类头，逻辑上链接到所述通用头，所述多个聚类头中的每个聚类头包括描述所述聚类中的多个单元的信息；

用于所述多个聚类的多个单元头，每个单元头包括描述该单元中的体素的数量和该单元的坐标数据的信息，所述多个单元头逻辑上链接到所述多个聚类头。

5.如权利要求4所述的方法，还包括：

将差分编码算法应用于单元内的体素数据，以生成该单元中的体素数据的至少一部分的差分编码数据。

6.如权利要求5所述的方法，还包括：

定义多个数据精度等级；以及

按所述多个精度等级内选定的精度等级对所述差分编码数据进行编码。

7.一种装置，包括：

处理器，用于：

执行3D聚类算法，以生成多个3D聚类；

为所述多个单元中的每个单元的每个面定义透明等级；

检测所述3D场景中的所述多个聚类的单元的表面层；以及

从所述多个聚类删除不处于所述单元的表面层中的单元；和

存储器，以通信方式耦合到所述处理器。

8.如权利要求7所述的装置，所述处理器用于：

删除所述3D场景中的一个或多个有噪体素。

9.如权利要求7所述的装置，所述处理器用于：

10.如权利要求9所述的装置，所述处理器用于：

对所述3D场景的数据层级进行结构化，所述数据层级包括：

通用头，包括关于所述点云数据集的信息；

11.如权利要求10所述的装置，所述处理器用于：

12.如权利要求11所述的装置，所述处理器用于：

定义多个数据精度等级；以及

13.一种方法，包括：

对云点(CP)视频序列中的点云数据集进行降噪；

识别所述CP序列的相继帧中的体素数据点的对应聚类；

识别所述CP序列的相继帧中的对应聚类中的一个或多个匹配体素数据点；以及

从所述点云数据集移除相继帧中没有匹配体素的体素。

14.如权利要求13所述的方法，还包括：

将所述点云视频序列划分为一系列相干子序列；以及

将差分编码算法应用于所述子序列内的体素数据，以生成所述子序列中的体素数据的至少一部分的差分编码数据。

15.如权利要求14所述的方法，还包括：

对所述体素数据的数据层级进行结构化，所述数据层级包括：

通用头，包括关于所述视频序列中的点云数据集和所述视频序列中的子序列的数量的信息；

多个子序列头，逻辑上链接到所述通用头，所述多个子序列头中的每个子序列头包括描述所述子序列中的关键帧数据的信息；和

用于多个帧的多个帧头，每个帧头逻辑上链接到所述关键帧数据。

16.一种装置，包括：

处理器，用于：

对云点(CP)视频序列中的点云数据集进行降噪；

识别所述CP序列的相继帧中的体素数据点的对应聚类；

从所述点云数据集移除相继帧中没有匹配体素的体素；和

存储器，以通信方式耦合到所述处理器。

17.如权利要求16所述的装置，所述处理器用于：

将所述点云视频序列划分为一系列相干子序列；

18.如权利要求17所述的装置，所述处理器用于：

通用头，包括关于所述视频序列中的点云数据集和视频序列中的子序列的数量的信息；