CN108171644A

CN108171644A - 一种基于gcn架构显卡的二维图形加速方法

Info

Publication number: CN108171644A
Application number: CN201711400655.8A
Authority: CN
Inventors: 刘意虎; 周磊; 张铎; 王勇军; 张冬松; 孙立明; 焦元诗; 魏立峰; 孔金珠; 吴庆波
Original assignee: Tianjin Kylin Information Technology Co Ltd
Current assignee: Tianjin Kylin Information Technology Co Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-06-15

Abstract

一种基于GCN架构显卡的二维图形加速方法，基于X窗口***下的通用图形加速框架EXA以及GCN架构显卡的特性，通过实现EXA加速框架下的主要加速操作来实现GCN架构显卡的二维图形加速方法。本发明的有益效果是：通过快速建立渲染环节，对GCN架构显卡进行状态编程和着色器编程，并利用顶点资源、纹理资源、常量资源来完成EXA加速框架下的二维加速方法；避免了Glamor加速方式中的加速方法需要首先调用EGL初始化图形渲染环境，然后在调用OpenGL中API接口切换上下文进程到三维图形渲染中的繁琐过程的弊端，整个加速接口的实现在时间复杂度以及稳定性和内存消耗方面也得到了很大的改善，极大的提升了二维图形加速性能。

Description

一种基于GCN架构显卡的二维图形加速方法

技术领域

本发明属于图像处理技术领域，具体地说，涉及一种基于GCN架构显卡的二维图形加速方法。

背景技术

GCN(Graphics Core Next)是AMD公司开发的一系列微体系结构以及指令集的代号。GCN架构的第一个产品于2011年推出，至今AMD GCN架构系列已经进行了五次迭代。在R600架构显卡之前，AMD/ATI显卡中有专用的区域拷贝加速硬件单元，驱动程序可以直接控制此硬件单元，进行相应的二维加速操作。R600架构及之后的显卡中移除了二维加速硬件单元，所有的二维加速操作由三维单元实现。与之前的显卡相比，GCN架构显卡并行处理能力高，架构利用率和指令吞吐率大。

在Linux图形堆栈中，支持显卡二维加速的加速方式主要有两种：Glamor加速方式和EXA加速方式。其中，EXA加速方式主要包含区域拷贝、区域填充、图像混合三个方法。目前在Linux开源图形软件栈中，如图1所示，GCN架构显卡采用Glamor来实现二维加速，没有实现二维加速的EXA框架，而由于Glamor加速方式不能完全发挥GCN显卡性能，导致二维图形渲染性能不佳。因此，为提高GCN架构显卡的二维图形性能，实现GCN架构显卡的EXA二维加速方法是非常有必要的。

现有的GCN架构显卡使用Glamor实现二维加速，这种加速方式是利用EGL接口，将X窗口***的渲染转换为OpenGL操作，利用操作***中任何现有的三维引擎，通过调用OpenGL驱动程序的API接口来实现二维加速。这样当应用场景需要执行一个二维操作时，就必须来回的切换上下文进程才能完成，也因此对***整体资源带来极大的消耗，导致GCN架构显卡的二维加速操作性能低下。

而现有的EXA加速方式中的二维加速操作方法主要针对非GCN架构显卡硬件特性而实现的，主要包含三部分：三维渲染引擎的初始化、着色器程序的配置、图形资源的配置(顶点资源、纹理资源、常量资源)。这种实现方式不需要来回切换上下文进程，与Glamor加速方式相比，对***整体资源的消耗会更少，性能会更高。据悉，还没有针对GCN架构显卡中EXA加速方式的二维加速方法实现。

中国发明专利(申请号CN201210380598.2)提供了一种基于嵌入式加速核心的独立显卡架构，包括加速部件、互连总线和传输部件。显示控制器用于将显示存储器中像素数据输出至显示装置；图形处理器用于对图形类任务进行加速；视频加速器用于对视频和图像数据进行编解码操作。虽然该发明通过设计基于嵌入式加速核心构建功能完整的独立显卡，满足了PC机和服务器等领域对显示与多媒体处理能力需求，但是并没有涉及到本发明所考虑的GCN架构显卡的二维图形加速问题。

中国发明专利(申请号CN201310549819.9)提供了一种使用硬件加速实现浏览器渲染的方法和浏览器，安装该浏览器的终端的显卡具有图形处理器GPU硬件加速功能，其中使用硬件加速实现浏览器渲染的方法包括以下步骤：根据显卡的信息在预设的硬件加速映射表中查找显卡对应的硬件加速映射数据项；从对应的硬件加速映射数据项中确定出显卡支持硬件加速的网页元素类型；按照确定出的网页元素类型对浏览器页面的渲染进行GPU硬件加速。虽然该发明提高了GPU硬件加速在网页渲染的可用性，避免了因硬件加速导致出现浏览器蓝屏或崩溃的现象，但是并没有涉及到本发明所考虑的GCN架构显卡的二维图形加速问题。

中国发明专利(申请号CN201410205303.7)提供了一种基于飞腾处理器的X图形***并行加速方法，实施步骤如下：通过X服务器主线程执行输入输出设备初始化，建立输入事件处理子***线程，分别监听X客户端程序请求和管理显卡、处理显示输出请求、输入设备事件；通过X服务器主线程响应X客户端程序请求；通过X服务器主线程创建用于处理管理显卡及处理显示输出的显卡管理绘图子***线程；通过显卡管理绘图子***线程来执行管理显卡及处理显示输出请求；通过输入事件处理子***线程取出输入设备事件响应输入设备事件。虽然该发明能够利用飞腾处理器多核多线程的优势来提升飞腾处理器的X图形***性能，具有硬件资源利用率高、用户体验流畅、图形处理性能高的优点，但是并没有涉及到本发明所考虑的GCN架构显卡的二维图形加速问题。

中国发明专利(申请号CN201510981689.5)公开了一种加速实现浏览器渲染的方法及浏览器，安装该浏览器的设备的显卡具有GPU硬件加速功能，所述方法包括：在所述显卡开启GPU硬件加速功能时，获取预设时间段内与所述GPU硬件加速功能相关的每一进程的运行状态信息；获取所述运行状态信息的权重值，将所述权重值与预设的进程运行表中该设备对应的进程权重值进行比较；根据比较结果，确定是否关闭所述GPU硬件加速功能。虽然该发明可实现提高GPU硬件加速在网页渲染的可用性，避免了因硬件加速导致出现浏览器蓝屏或崩溃的问题，但是没有涉及到本发明所考虑到操作***级别的二维图形加速问题。

中国发明专利(申请号CN03142366.3)提供了一种加速图形数据的方法和装置，可以降低图形数据处理的计算复杂度。其中，加速二维图形数据的方法包括：接收与被处理图形窗口的宽度相关的信息；从存储图形窗口的像素数据的存储器读出像素数据；接收与两个像素数据域相关的信息，这两个像素数据域是根据图形窗口的宽度信息从存储器区域划分的，一个像素数据域用突发模式处理，另一个像素数据域以字节为单位处理；对划分出的各像素数据域分别执行预定的图形处理。虽然该发明针对Windows操作***下非GCN架构显卡提出了一种二维图形数据加速方法，但是并没有考虑到本发明所针对的GCN架构显卡下Linux操作***的二维图形加速问题。

中国发明专利(申请号CN201410653610.1)公开了一种国产自主嵌入式计算机***及其显卡驱动方法，包括龙芯2F中央处理单元和SM722显示芯片，SM722显示芯片通过PCI总线与龙芯2F相连。其显卡驱动方法包括对支持SM712的固件层驱动修改和操作***内核层驱动修改，实现了龙芯搭载原本并不支持MIPS框架和PCI总线的SM722显示芯片，从而具备更强的性能。该发明可以提升龙芯2F处理器产品的人机交互性能及图形显控性能，但是并没有考虑到本发明所针对的飞腾处理器平台下GCN架构显卡的二维图形加速问题。

发明内容

有鉴于此，本发明为了解决现有技术存在的缺陷和不足，提供了一种基于GCN架构显卡的二维图形加速方法，能够实现GCN架构显卡基于EXA加速框架的二维图形加速，提升二维图形加速性能。

为了解决上述技术问题，本发明公开了一种基于GCN架构显卡的二维图形加速方法，并采用以下技术方案来实现。

一种基于GCN架构显卡的二维图形加速方法，步骤包括：

S1、从应用场景中获取当前加速操作的参数；

S2、通过设置显卡的通用三维图形渲染寄存器，初始化所述显卡的三维渲染引擎；

S3、设置剪裁区域，设置存放所述显卡的三维渲染结果的内存地址；

S4、构建顶点着色器的源文件和/或片段着色器的源文件，并将所述的两种源文件编译成可执行文件进行存放；

S5、设置所述可执行文件运行时的参数；

S6、启动所述三维渲染引擎，执行二维加速操作；

S7、发送同步指令，确保所述二维加速操作完成。

进一步的，所述加速操作包含区域填充、区域拷贝和/或图像混合。

进一步的，所述设置裁剪区域具体为将所述S1中获取的接口参数中指定的宽度和高度写入裁剪寄存器；并将所述当前加速操作的对象信息写入颜色缓冲寄存器。

进一步的，当所述加速操作的对象为区域填充时，将目的填充区域的内存地址写入所述颜色缓冲寄存器；当加速操作的对象为区域拷贝时，将目的拷贝区域的内存地址写入所述颜色缓冲寄存器；当所述加速操作的对象为图像混合时，将背景图像的内存地址写入所述颜色缓冲寄存器，用于设置存放所述显卡三维渲染结果的内存地址，并将图像混合操作类型参数写入混合寄存器，控制所述加速操作的实现效果。

进一步的，所述S4具体为调用着色器管理模块，使用OpenGL着色语言构建所述顶点着色器源文件和/或片段着色器源文件。

更进一步的，所述顶点着色器用于完成顶点、纹理坐标和/或向量的平移、缩放以及旋转操作；所述片段着色器用于将所述顶点链接起来形成像素，完成三维图形的光栅化、像素的光照和/或纹理贴图的操作。

进一步的，所述S5具体为调用资源描述符模块为所述可执行文件设置运行时的参数。

进一步的，所述S6具体为发送渲染指令，根据设置好的所述运行时的参数，执行所述顶点着色器的可执行文件和所述片段着色器的可执行文件，启动所述三维渲染引擎，执行所述二维加速操作。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-9任一所述升级方法的步骤。

一种基于GCN架构显卡的二维图形加速装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1-9任一所述二维图形加速方法的步骤。

与现有技术相比，本发明可以获得包括以下技术效果：

1、实现了GCN架构显卡基于EXA加速框架的二维加速方法，利用GCN架构显卡特性，通过快速建立渲染环节，对GCN架构显卡进行状态编程和着色器编程，并利用顶点资源、纹理资源、常量资源来完成EXA加速框架下的二维加速方法；

2、避免了Glamor加速方式中的加速方法需要首先调用EGL初始化图形渲染环境，然后在调用OpenGL中API接口切换上下文进程到三维图形渲染中的繁琐过程的弊端，整个加速接口的实现在时间复杂度以及稳定性和内存消耗方面也得到了很大的改善，极大的提升了二维图形加速性能。

当然，实施本发明的任一产品必不一定需要同时达到以上所述的所有技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是现有的GCN架构显卡二维图形加速方法的结构示意图。

图2是本发明一个实施例的二维图形加速方法功能结构图。

图3是本发明一个实施例的二维图形加速方法的流程图。

具体实施方式

以下将配合附图及实施例来详细说明本发明的实施方式，藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

一种基于GCN架构显卡的二维图形加速方法，该方法是一种基于X窗口***下的通用图形加速框架EXA以及GCN架构显卡的特性，通过实现EXA加速框架下的主要加速操作来实现GCN架构显卡的二维图形加速方法。

本发明中所述的基于GCN架构显卡的二维图形加速方法的功能结构，如图2所示，主要分为EXA加速框架初始化、加速接口实现层和硬件底层接口实现层。

(1)在EXA加速框架初始化层中，主要完成EXA加速框架的接口回调函数注册、初始化接口的运行环境以及初始化加速接口实现层的各个模块。初始化运行环境的接口主要包括区域填充、区域拷贝、图像混合三个接口。初始化的加速接口实现层的各个模块包括显存管理、着色器管理、资源描述符管理等模块。

(2)加速接口实现层不仅包含区域填充、区域拷贝以及图像混合三个接口的具体实现，还包含显存管理模块、着色器管理模块、资源描述符管理模块。

区域填充是指使用单一颜色对指定的矩形区域进行填充操作，区域拷贝是指将源区域的像素内容拷贝到目的区域中，图像混合是将前景图像与背景图像按照指定的结合类型，生成具有部分或全部透明度效果图像的过程。这里的透明度信息以0和1之间的值存储在图像Alpha通道中，值为0表示像素是透明的，值为1表示像素是不透明的。

显存管理模块负责对显存进行管理，包含虚拟地址(Va)管理、Cache机制实现。

着色器管理模块负责构建每个接口(区域填充、区域拷贝、图像混合)的着色器二进制文件，负责着色器相关资源的设置。

资源描述符管理模块负责设置每个接口的着色器二进制文件运行参数。

(3)硬件底层接口实现层包含缓冲区(BufferObject)接口、图像表面接口、命令流提交接口。

一种基于GCN架构显卡的二维图形加速方法，如图3所示，具体步骤包括：

S301、从应用场景中获取当前加速操作的参数。

加速操作主要包含区域填充、区域拷贝、图像混合三种操作，每种加速操作在EXA加速框架中对应着一个加速接口。由于每一个加速操作的功能不同，加速接口的参数也就不一样。区域填充接口的参数包括填充区域的高度和宽度、颜色、对角坐标以及其在内存中的地址；区域拷贝接口的参数包括源拷贝区域的点坐标以及其在内存中的地址、目的拷贝区域的点坐标以及其在内存中的地址、源拷贝区域的宽度和高度，而点坐标是指拷贝区域左上角的点坐标；图像混合接口的参数包括前景图像在内存中的地址、遮掩图像在内存中的地址、背景图像在内存中的地址，每个图像参与混合操作的区域(由各自左上角坐标和共用的高宽指定)，可选的前景图像和遮掩图像的坐标转换矩阵，同时还需要混合操作类型，以实现不同的混合效果。

S302、通过设置来自GCN硬件显卡的通用三维图形渲染寄存器，初始化显卡的三维渲染引擎。

S303、设置剪裁区域，设置存放显卡三维渲染结果的内存地址。

将S301中的当前接口参数中指定的宽度和高度写入裁剪(CLIP)寄存器，用于设置裁剪区域；并将当前加速操作对象信息写入颜色缓冲寄存器。

当加速操作为区域填充时，将目的填充区域的内存地址写入颜色缓冲(COLORBUFFER)寄存器；当加速操作为区域拷贝时，将目的拷贝区域的内存地址写入颜色缓冲(COLORBUFFER)寄存器；当加速操作为图像混合时，将背景图像的内存地址写入颜色缓冲(COLORBUFFER)寄存器，用于设置存放显卡三维渲染结果的内存地址；当加速操作为图像混合时，还需要将混合操作类型参数写入混合(BLEND)寄存器，控制加速操作的最终实现效果。

S304、调用加速接口实现层中的着色器管理模块，分别构建顶点着色器源文件和片段着色器源文件，编译后存放于显存；

由于GCN架构显卡具有可编程管线(Progrmming Pipeline)的特性，所以可以使用OpenGL着色语言根据当前操作分别构建顶点着色器源文件和片段着色器源文件；再将这两个源文件分别编译成二进制可执行文件，并将其存放到显存中，用于控制显卡的渲染过程，进行加速操作；

顶点着色器的代码主要负责完成顶点、纹理坐标、向量的平移、缩放和旋转操作，片段着色器的代码则主要负责将顶点链接起来形成像素，完成三维图形的光栅化以及像素的光照、纹理贴图等操作。

S305、为显存中的二进制可执行文件设置运行时的参数；

调用加速接口实现层中的资源描述符模块为显存中的二进制可执行文件设置运行时参数，这些运行时的参数主要包括S301中填充区域的对角坐标和需要填充的颜色以及填充区域的内存地址，源拷贝区域的点坐标和内存地址、目的拷贝区域的点坐标，前景图像的点坐标和内存地址，遮掩图像的点坐标和内存地址，背景图像的点坐标，前景图像和遮掩图像的坐标转换矩阵。

S306、启动三维渲染引擎，执行二维加速操作；

发送渲染指令，根据S305中设置好的运行时参数，显卡执行顶点着色器二进制可执行文件和片段着色器二进制可执行文件，启动三维渲染引擎，执行二维加速操作。

S307、发送同步指令，确保加速操作完成。

GCN(Graphics Core Next)是AMD开发的，用于替换TeraScale微架构/指令集的一系列微体系结构以及指令集的代号。GCN架构也用于AMD加速处理单元(APU)的图形部分，比如PlayStation 4和Xbox One使用的APU中。GCN架构改变了AMD自R600以来一直坚持的VLIW打包吞吐模式。VLIW(超长指令字)是将很多条指令连在一起，建成一个超长指令，让GPU的运算单元可以一次启动连续执行，省去了很多调度指令、等待周期，从而提升运算效率，单线程执行密度很高。与之前的显卡相比，GCN架构的硬件着色器核心完全重新设计，使用非VLIW的无条件指令集架构，从存储器而不是寄存器读取所有资源描述符。

EXA：X窗口***下的一种图形加速框架，从KAA(the KDriveAccelerationArchitecture)移植而来。EXA是通用的加速框架，被多种DDX图形驱动使用。

着色器(Shader)是开发人员写的短小的自定义程序，他们是在图形卡的GPU(Graphic Processor Unit图形处理单元)上执行的，代替了固定的渲染管线的一部分，使渲染管线中不同层次具有可编程性。着色器主要包含顶点着色器(Vertex Shader)和片断着色器(Fragment Shader)，有时还会有几何着色器(Geometry Shader)等。顶点着色器主要负责完成顶点、纹理坐标、向量的平移、缩放和旋转操作。片段着色器主要负责将顶点链接起来形成像素，完成三维图形的光栅化以及像素的光照、纹理贴图等操作。在OpenGL规范中，使用GLSL(OpenGL Shading Language OpenGL着色语言)编写着色器。GLSL使用C语言作为基础高阶着色语言，避免了使用汇编语言或硬件规格语言的复杂性。

区域填充：指的是使用单一颜色对指定的矩形区域进行填充操作，作为基本的加速操作，它可以完成对点、线、线段的加速操作。

区域拷贝：是指将源区域的像素内容拷贝到目的区域中。

图像混合：计算机图形学中，根据图像的透明度信息，将前景图像与背景图像按照指定的结合类型，生成具有部分或全部透明度效果图像的过程。透明度信息以0和1之间的值存储在图像Alpha通道中，值为0表示像素是透明的，值为1表示像素是不透明的。在X窗口***中，增加了一个只包含Alpha通道信息的遮掩图像，用于实现多边形的渲染。

本发明的有益效果是：

以上对本发明实施例所提供的一种基于GCN架构显卡的二维图形加速方法，进行了详细介绍。以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

如在说明书及权利要求当中使用了某些词汇来指称特定组件或模块。本领域技术人员应可理解，不同机构可能会用不同名词来称呼同一个组件或模块。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件或模块在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”、“包括”为开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明本发明的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者***中还存在另外的相同要素。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明创造构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于GCN架构显卡的二维图形加速方法，步骤包括：

S1、从应用场景中获取当前加速操作的参数；

S5、设置所述可执行文件运行时的参数；

S6、启动所述三维渲染引擎，执行二维加速操作；

S7、发送同步指令，确保所述二维加速操作完成。

2.根据权利要求1所述基于GCN架构显卡的二维图形加速方法，其特征在于：所述加速操作包含区域填充、区域拷贝和/或图像混合。

3.根据权利要求1所述基于GCN架构显卡的二维图形加速方法，其特征在于：所述设置裁剪区域具体为将所述S1中获取的接口参数中指定的宽度和高度写入裁剪寄存器；并将所述当前加速操作的对象信息写入颜色缓冲寄存器。

4.根据权利要求3所述基于GCN架构显卡的二维图形加速方法，其特征在于：当所述加速操作的对象为区域填充时，将目的填充区域的内存地址写入所述颜色缓冲寄存器；当加速操作的对象为区域拷贝时，将目的拷贝区域的内存地址写入所述颜色缓冲寄存器；当所述加速操作的对象为图像混合时，将背景图像的内存地址写入所述颜色缓冲寄存器，用于设置存放所述显卡三维渲染结果的内存地址，并将图像混合操作类型参数写入混合寄存器，控制所述加速操作的实现效果。

5.根据权利要求4所述基于GCN架构显卡的二维图形加速方法，其特征在于：所述S4具体为调用着色器管理模块，使用OpenGL着色语言构建所述顶点着色器源文件和/或片段着色器源文件。

6.根据权利要求5所述基于GCN架构显卡的二维图形加速方法，其特征在于：所述顶点着色器用于完成顶点、纹理坐标和/或向量的平移、缩放以及旋转操作；所述片段着色器用于将所述顶点链接起来形成像素，完成三维图形的光栅化、像素的光照和/或纹理贴图的操作。

7.根据权利要求1所述基于GCN架构显卡的二维图形加速方法，其特征在于：所述S5具体为调用资源描述符模块为所述可执行文件设置运行时的参数。

8.根据权利要求1所述基于GCN架构显卡的二维图形加速方法，其特征在于：所述S6具体为发送渲染指令，根据设置好的所述运行时的参数，执行所述顶点着色器的可执行文件和所述片段着色器的可执行文件，启动所述三维渲染引擎，执行所述二维加速操作。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-9任一所述升级方法的步骤。

10.一种基于GCN架构显卡的二维图形加速装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1-9任一所述二维图形加速方法的步骤。