CN106227594A

CN106227594A - 一种基于分屏的多核cpu帧缓存显示优化方法

Info

Publication number: CN106227594A
Application number: CN201610544180.9A
Authority: CN
Inventors: 高珑; 戴华东; 阳国贵; 任怡; 汪黎; 董攀; 张毅
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2016-07-11
Filing date: 2016-07-11
Publication date: 2016-12-14

Abstract

本发明涉及一种在Linux操作***下，针对Xorg图形服务器在帧缓存设备上的多核CPU显示优化技术。该技术建立了基于二维划分的分屏方法，并为每一个子屏幕绑定一个子线程。所有的图形绘制操作将打包成任务，加入各个子线程的就绪队列中，由各自所在子屏幕绑定的子线程完成绘制。本发明可以使Xorg图形绘制任务并行完成，提高图形绘制的效率。任务队列采用双向条件等待设计，任务队列为空时子线程将处于等待状态，任务队列超过设定上限时主线程将协助过载子线程完成溢出任务，实现负载均衡。

Description

一种基于分屏的多核CPU帧缓存显示优化方法

技术领域

本发明涉及图形显示技术，尤其是涉及一种在Linux操作***下，针对Xorg图形服务器在帧缓存设备上的多核CPU显示优化技术。

背景技术

Xorg图形服务器起源于上世纪80年代初，是Unix/Linux***上最基本的图形交互***，Xorg图形服务器采用Client/Server设计思想，本身是一个运行于用户态的***服务进程，主要处理图形界面下用户的输入和输出，并根据用户程序的请求在显示屏幕上绘制各种基本图形，例如矩形、圆型、椭圆等基本操作。

帧缓存设备是Xorg图形显示设备的一种抽象，允许应用程序通过一种抽象和统一的接口访问图形显示设备，这样软件就不必了解底层硬件的细节。帧缓存设备通常对应内存或者GPU上显存的一部分存储空间，这部分空间内放置的数据恰好对应屏幕上显示的一帧图像，向帧缓存设备写入数据就会立即显示在屏幕上面。由于帧缓存设备使用简单高效，所以在嵌入式领域被广泛使用。但对帧缓存设备的操作一般仅由CPU发起和完成，重负载情况下会大量占用CPU时间。

一方面，对帧缓存设备的操作一般仅由CPU发起和完成，由于帧缓存设备接口简单统一，对于图形显示设备的硬件要求低，因而被广泛应用在嵌入式领域。同时，由于很多现代CPU指令集中也逐步加入了支持多媒体和图形图像处理的SIMD指令，例如Intel指令集中的MMX指令和SSE指令，AMD指令集中的3DNow！指令，ARM指令集中的NEON指令等，使得很多现代CPU在图形图像处理方面也有长足进步。另外，由于业界的GPU大厂商如Nvidia、AMD、ARM等都不完全开放GPU驱动源码和硬件接口协议，导致Linux桌面上的GPU驱动发展相对滞后。这样在某些场景中，Xorg在帧缓存设备上的性能甚至超过Xorg在开源GPU驱动上的性能。

另一方面，随着微电子技术的快速发展，由于功耗急剧增加、微体系结构的复杂度难以控制、量子物理效应，以及程序中指令级并行性的有限性等原因，单核微处理器已经很难持续依靠提高频率和开发指令级并行性(ILP，Instruction Level Parallelism)来继续提高性能了。目前微处理器的发展趋势以片上多核(CMP)为代表，即在同一块芯片上集成多个相对较为简单的核心，依靠多核协同工作提高性能。例如目前Intel的Skylake架构至强Xeon处理器最多支持28核。Intel代号Knights Landing的新一代Xeon Phi处理器，具备惊人的76个X86核心。即使在手机芯片领域，联发科都要推出10核心的Helio X20了。而提高多核CPU的性能，主要依靠开发线程级并行(TLP，Thread Level Parallelism)。即在多核之间同时并行处理数千条以上规模的指令序列，才能有效弥补核间通讯与同步的开销。要充分发挥多核CPU的性能，必须对现有的单线程应用程序进行并行化改造。

目前包括嵌入式CPU和手机上使用的CPU，绝大多数CPU都采用多核CPU设计，即每个CPU都具备2-8个核心，可以各自相对独立的工作。但现在的Xorg图形服务器没有采用多线程的设计思想，仍旧只能在单一CPU核心上工作。当使用帧缓存设备用于显示图形时，可能造成某一CPU核心负载过重，而其他CPU核心相对空闲的情况发生。这将大大降低多核CPU的利用效率，也无法发挥出多核CPU全部核心的性能，导致Xorg图形服务器效率低下。

发明内容

本发明提出了一种在Linux操作***下，通过多线程优化的方法，解决Xorg图形服务器的帧缓存设备在多核CPU上绘制图形时，仅使用CPU中的某一个核心而不能发挥CPU全部核心性能的问题，可以显著提高Xorg图形服务器帧缓存设备的性能。

本发明的技术方案是：

一种基于分屏的多核CPU帧缓存显示优化方法，其特征在于，将Xorg图形服务器的屏幕分别沿X轴均分成m份，再沿Y轴均分成n份，共将整个屏幕分成m*n个子屏幕，为每一个子屏幕创建并绑定一个子线程；再由主线程将图形绘制参数打包成任务，并根据图形中心所在的子屏幕，交给相应绑定的子线程绘制。

具体的，对所述的任务建立了带有互斥锁的子线程私有任务队列，主线程将图形绘制任务加入到相应的子线程的私有任务队列中，子线程从其私有任务队列中依次取出图形绘制任务并根据任务参数完成绘制。

具体的，所述主线程和所述子线程间通过互斥锁和双向条件变量实现多线程间的任务弹出和加入功能，当任务队列中没有任务时，所有请求从任务队列中弹出任务的子线程将等待，当有至少一个任务加入任务队列时，所有等待弹出任务的子线程将被全部唤醒并将至少有一个子线程获得一个队列头部的任务；当队列缓冲区满的时候，所有请求向队列中加入任务的子线程将等待,当有至少一个任务被弹出任务队列时，所有等待加入任务的子线程将被全部唤醒并将至少有一个子线程可以向队列尾部加入至少一个任务。

具体的，所述子线程具备就绪和运行两个私有队列。

具体的，所述主线程和所述子线程之间的负载均衡，当某子线程的任务队列长度超过设定值后，主线程将从超过设定值的子线程的任务队列中弹出一定数量的任务，并由主线程将这些任务完成。

本发明具有以下技术效果：

在Linux操作***上，Xorg的帧缓存设备在多核CPU(假定N核心)上绘制基本图形，可以获得比较接近于N倍的性能提高。性能的提高可以使用x11perf–rect100标准性能测试工具进行以矩形填充为代表的测试。在一台商用DELL OPTIPLEX 3010台式机(4核心，4G内存，操作***采用Ubuntu 14.10，内核为3.16.0)上测试，x11perf–rect100在帧缓存设备上获得的加速比最大为2.43。

附图说明

图1为Xorg图形服务器主事件循环示意图；

图2为帧缓存设备和GPU硬件加速示意图,(a)为帧缓存设备(b)为GPU硬件加速；

图3为分屏算法示意图；

图4为任务队列示意图；

图5为主线程算法流程图；

图6为子线程算法流程图；

图7为Process处理函数流程图。

具体实施方式

首先，本发明在算法上，将Xorg图形服务器的屏幕按照X轴和Y轴均分为相等面积的若干子屏幕，为每一个子屏幕创建并绑定一个子线程。各种图形绘制任务，如填充矩形、填充椭圆等，根据其所在的子屏幕分配给绑定的子线程，并由该子线程负责绘制。这样多个子线程同时工作，就可以成倍加速帧缓存设备的绘制性能。

其次，本发明设计了用于生产、分配和消费任务的任务队列。1)根据单生产者多消费者模型，建立了带有互斥锁的子线程私有任务队列，主线程将图形绘制任务加入到相应的子线程的私有任务队列中，子线程从其私有任务队列中依次取出图形绘制任务并根据任务参数完成绘制。2)主子线程间通过互斥锁和双向条件变量实现多线程间的任务弹出和加入功能。当任务队列中没有任务时，所有请求从任务队列中弹出任务的子线程将等待，当有至少一个任务加入任务队列时，所有等待弹出任务的子线程将被全部唤醒并将至少有一个子线程获得一个队列头部的任务。类似的，当队列缓冲区满的时候，所有请求向队列中加入任务的子线程将等待,当有至少一个任务被弹出任务队列时，所有等待加入任务的子线程将被全部唤醒并将至少有一个子线程可以向队列尾部加入至少一个任务。3)每个子线程具备就绪和运行两个私有队列。当主线程独占某个子线程A的就绪队列并向就绪队列中添加产品时，子线程A仍然可以独占自身的运行队列来消费产品，而不会和生产者主线程产生互斥竞争。

最后，本发明还实现了主子线程之间的负载均衡。当某个子线程的任务队列将满时，主线程将帮助该子线程分担一部分绘制任务，即从该子线程的任务队列头部中弹出部分任务，并由主线程完成这些任务，以便实现主子线程之间的负载均衡，避免某个线程因为负载过重而导致无法及时完成任务。

下面结合附图，对本发明进行进一步的说明。

图1为Xorg图形服务器主事件循环示意图，Xorg图形服务器中最主要的部分是一个名为Dispatch的无限循环，称为主事件循环。其伪算法可以简要描述如图1所示。首先，在步骤①中Xorg睡眠等待鼠标键盘等输入事件的唤醒。然后，Xorg把输入转化为事件，并发给客户端程序。步骤②中Xorg等待客户端发出的请求，最后在步骤③中Xorg根据客户端的请求完成服务。整个循环周而复始，直到Xorg被异常条件终止。可以看到，目前Xorg对于用户输入、事件处理、响应用户请求等的处理依然采用串行处理方式，在多核CPU上也只能按照单线程方式串行执行，如果上一个主事件循环中的客户端请求还没有处理完，Xorg就无法及时处理用户在下一个循环中的交互输入并做出响应。在CPU单核性能较弱或者***重负载的情况下，这种Xorg的交互体验变差的情况就更加严重。如果在军事指挥控制等领域出现将可能导致不可预见的后果。

图2为帧缓存设备和GPU硬件加速示意图，帧缓存设备是图形显示设备的一种抽象，允许应用程序通过一种抽象和统一的接口访问图形显示设备，这样软件就不必了解底层硬件的细节。帧缓存设备是从Linux内核2.2版本开始引入的，通常对应内存或者GPU上显存的一部分存储空间，如图2(a)中阴影部分所示。这部分空间内放置的数据恰好对应屏幕上显示的一帧图像，向帧缓存设备写入数据就会立即显示在屏幕上面。对帧缓存设备的操作一般仅由CPU发起和完成，重负载情况下会大量占用CPU时间。与CPU操作帧缓存设备相对应，在GPU硬件加速模式下，CPU则仅将GPU指令和数据在内存设置好，随后就通知GPU自动从内存中取GPU指令和数据，GPU将自动完成剩余的图形绘制，CPU不再需要参与，如图2(b)所示。

图3为分屏方法示意图，在本发明中，将帧缓存设备上的每一个可绘制对象对应的矩形窗口按照x轴和y轴分别均分成S_x和S_y份，这样整个窗口就被均分成互不相交的S_x·S_y个子屏幕，每一个子屏幕用D_k<i,j>来表示，其中i和j分别代表x轴和y轴上从1开始顺序编号的均分区间，其中k＝S_x(j-1)+i，可以容易的知道k的范围1≤k≤S_x·S_y。为每一个子屏幕D_k创建并绑定一个子线程T_k，将所有属于D_k的矩形交给T_k完成。

图4为任务队列示意图，矩形绘制操作由主线程打包成任务，再由主线程根据分屏规则，将矩形加入其所在的子屏幕所绑定的子线程的私有等待任务队列Q_k中。子线程每次从Q_k中弹出不超过M个任务,加入到自己的私有运行队列q_k中。如果Q_k的长度超过规定长度N时，超过的部分就是溢出任务，将加入到主线程的运行队列q₀中，并由主线程负责完成，以便实现负载均衡。

图5为主线程算法流程图，每次调用主线程进行矩形绘制的操作，都将矩形绘制参数打包成任务，并由主线程计算该任务属于的子屏幕和子线程，并将任务加入相应子线程的就绪队列Q_k。如果发现Q_k的长度超过设定值N，则将超过N的溢出任务，加入到主线程自己的运行队列q₀中，并由主线程自己负责处理完成，处理完后等待下一个矩形绘制操作。

图6为子线程算法流程图，子线程等待自己的私有就绪队列，如果没有任务,则子线程进入睡眠等待状态。当主线程向队列中加入任务后，相应的子线程则被唤醒，从自己的就绪队列Q_k中弹出最多M个任务放入自己的运行队列q₀中，并处理完q₀中的所有任务。然后重新检测就绪队列，如果存在任务则重复上述过程，如果没有任务则进入睡眠等待状态。

图7为Process处理函数流程图，该函数处理给定任务队列中的所有任务，按照任务中的参数完成任务绘制,直到全部任务完成为止。

Claims

1.一种基于分屏的多核CPU帧缓存显示优化方法，其特征在于，将Xorg图形服务器的屏幕分别沿X轴均分成m份，再沿Y轴均分成n份，共将整个屏幕分成m*n个子屏幕，为每一个子屏幕创建并绑定一个子线程；再由主线程将图形绘制参数打包成任务，并根据图形中心所在的子屏幕，交给相应绑定的子线程绘制。

2.如权利要求1所述的一种基于分屏的多核CPU帧缓存显示优化方法，其特征在于，对所述任务建立了带有互斥锁的子线程私有任务队列，主线程将图形绘制任务加入到相应的子线程的私有任务队列中，子线程从其私有任务队列中依次取出图形绘制任务并根据任务参数完成绘制。

3.如权利要求2所述的一种基于分屏的多核CPU帧缓存显示优化方法，其特征在于，所述主线程和所述子线程间通过互斥锁和双向条件变量实现多线程间的任务弹出和加入功能，

当任务队列中没有任务时，所有请求从任务队列中弹出任务的子线程将等待，当有至少一个任务加入任务队列时，所有等待弹出任务的子线程将被全部唤醒并将至少有一个子线程获得一个队列头部的任务；

当队列缓冲区满的时候，所有请求向队列中加入任务的子线程将等待,当有至少一个任务被弹出任务队列时，所有等待加入任务的子线程将被全部唤醒并将至少有一个子线程可以向队列尾部加入至少一个任务。

4.如权利要求3所述的一种基于分屏的多核CPU帧缓存显示优化方法，其特征在于，所述子线程具备就绪和运行两个私有队列。

5.如权利要求4所述的一种基于分屏的多核CPU帧缓存显示优化方法，其特征在于，所述主线程和所述子线程之间的负载均衡，当子线程的任务队列长度超过设定值后，主线程将从超过设定值的子线程的任务队列中弹出一定数量的任务，并由主线程将这些任务完成。