WO2011147073A1

WO2011147073A1 - 分布式文件***中的数据处理方法和装置

Info

Publication number: WO2011147073A1
Application number: PCT/CN2010/073161
Authority: WO
Inventors: 夏舰波; 彭杰; 张波
Original assignee: 中兴通讯股份有限公司
Priority date: 2010-05-24
Filing date: 2010-05-24
Publication date: 2011-12-01

Description

分布式文件***中的数据处理方法和装置技术领域

本发明涉及数据处理技术，具体涉及一种分布式文件***中的数据处理方法和装置。背景技术

分布式文件***广泛应用于 IPTV、流媒体服务器等业务场合。主要业务是提供用户对媒体文件的点播服务；因此在这样的文件***中，读接口的调用会非常频繁。在调用读接口进行读操作时，需要调用者提供存储数据的緩冲区，并将读取的数据拷贝到调用者提供的緩冲区中。而大量的内存拷贝操作会占用很多 CPU资源，进而显著提高 CPU利用率；由于分布式文件***的各个模块和媒体服务程序都需要较多的 CPU资源才能运行，因此当 CPU利用率较高时，分布式文件***的稳定性会明显降低。发明内容

本发明的主要目的在于提供一种分布式文件***中的数据处理方法和装置，以降低分布式文件***中的 CPU利用率。

为了达到上述的目的，本发明的技术方案是这样实现的：

一种分布式文件***中的数据处理方法，该方法包括：

在分布式文件***中为应用程序分配緩存，所述应用程序使用分布式文件***所分配的緩存，进行数据处理。

为应用程序在分布式文件***中设置緩存分配接口；

所述在分布式文件***中为应用程序分配緩存的过程包括：

属于应用程序的应用程序进程对分布式文件***中的緩存分配接口进行调用；

緩存分配接口根据应用程序进程的调用，在可用于应用程序进程的緩存块区域分配緩存块。

所述緩存分配接口进一步将緩存的分配结果返回给应用程序进程。所述应用程序使用分布式文件***所分配的緩存，进行数据处理的过程包括：

属于应用程序的应用程序进程对分布式文件***中的读操作接口进行调用，读操作接口根据所述调用提交读请求到分布式文件***中的文件访问代理进程，由文件访问代理进程根据收到的读请求接收数据，并存储于为应用程序进程所分配的所述緩存块中。

提交所述读请求之前，该方法进一步包括：

所述读操作接口判断应用程序是否使用了所分配的所述緩存块的地址，如果使用，则读操作接口直接提交所述读请求，并在该读请求中携带所分配的緩存块地址；否则，读操作接口在分布式文件***中主动为所述应用程序进程分配新的緩存块，之后再提交所述读请求并在该读请求中携带所分配的緩存块地址。

该方法进一步包括：

针对完成读操作的緩存块，所述应用程序进程调用分布式文件***中预设的緩存释放接口，释放分布式文件***中的相应緩存块。

一种分布式文件***中的数据处理装置，该装置包括緩存分配接口、读操作接口、文件访问代理进程；其中，

所述緩存分配接口，用于实现在分布式文件***中为应用程序进行的緩存分配；

所述读操作接口，用于根据应用程序的控制触发所述文件访问代理进程；所述文件访问代理进程，用于根据所述读操作接口的触发，使用分布式文件***中为应用程序所分配的所述緩存进行数据处理。

所述緩存分配接口预先设置于分布式文件***的动态链接库中，进行緩存分配后所实现的緩存块设置于分布式文件***的共享内存中。

该装置进一步包括緩存释放接口，用于根据所述应用程序的调用，释放分布式文件***中完成数据处理的相应緩存块。

所述文件访问代理进程包括读请求处理模块、数据接收模块；其中，所述读请求处理模块，用于接收因所述读操作接口的触发而产生的读请求，并发送给所述数据接收模块；

所述数据接收模块，用于根据收到的读请求，使用分布式文件***中为应用程序所分配的緩存进行数据处理。

本发明的分布式文件***中的数据处理技术，能够使读操作接口减少一次内存拷贝过程，从而在进行大数据量读取操作时有效降低 CPU的利用率，能够保证分布式文件***的稳定性。附图说明

图 1为本发明一实施例的分布式文件***中的数据处理装置图；图 2为本发明一实施例的分布式文件***中的数据处理流程图；图 3为本发明分布式文件***中的数据处理流程筒图。具体实施方式为了达到降低 CPU利用率的目的，可以专门为应用程序在分布式文件 ***中增加緩存分配接口。应用程序调用读操作接口之前，先调用该緩存分配接口以便在分布式文件***中为应用程序分配緩存；并在调用读操作接口时将为应用程序分配的緩存的地址带入分布式文件***，使后续的数据读取等数据处理能够针对分布式文件***中为应用程序分配的所述緩存进行，而无须再将分布式文件***中的数据拷贝到应用程序的内存中，因此减少一次向应用程序进行内存拷贝的过程。针对需要进行大量数据读取的业务，上述操作方式能够有效降低 CPU利用率。

参见图 1 ,图 1为本发明一实施例的分布式文件***中的数据处理装置图。图 1 中，属于应用程序的应用程序进程能够控制分布式文件***中的逻辑接口进行相应的数据处理，该数据处理通常针对分布式文件***中的共享内存执行，执行主体则通常是分布式文件***中的文件访问代理进程。

总体而言，在文件***中，緩存是非常重要的部分，可有效提高读写的速度和效率。但对于数据量较大的读操作来说，其緩存命中率并不是太高，因此可以牺牲一部分緩存用于应用程序对数据的读取。

文件***的緩存由一定数量的緩存块组成，緩存块的大小通常是固定的。在分布式文件***中，緩存块是数据读写的基本单位。无论从本地磁盘还是从网络上读取数据，都需要预先分配緩存块以存放数据。

为了保证应用程序不再将数据读入自身的内存而是直接使用分布式文件***中的緩存块，可以在文件***接口中增加相应的分配接口和緩存释放接口；并为被分配的緩存块做标记，另分布式文件***不使用这些緩存块进行数据緩存，而完全由应用程序使用。应用程序如需使用能够减少一次内存拷贝的读操作接口，则必须先调用分布式文件***中的緩存分配接口以分配緩存，具体的调用方式与 POSIX的调用方式一致。

再有，当应用程序不再需要緩存块里的数据时，即可将该緩存块释放，并交由分布式文件***进行管理。

另外，由于应用程序和分布式文件***的接口模块并不在一个进程中，因此分布式文件***需采用共享内存方式的緩存，这样才能在应用程序和分布式文件***之间使用相同的内存地址。通常，共享内存在分布式文件 ***初始化时分配，并在应用程序调用文件***接口时进行加载。

由图 1 可见，分布式文件***可以以动态链接库的方式提供接口给应用程序进程，并在动态链接库和文件访问代理进程之间以共享内存的方式交互请求和数据，分布式文件***的緩存也在共享内存中分配。并且，为实现能够减少一次内存拷贝的读操作，可以在动态链接库中增加一组对分布式文件***緩存块进行分配和释放的接口。这样，应用程序进程就可以通过緩存分配接口分配得到存放数据的緩存，并将该緩存的地址带入读请求接口。之后，文件访问代理进程可以将数据拷贝到上述緩存块中，使得应用程序进程可以使用该緩存块中的数据。

具体而言，应用程序进程可以对动态链接库中的緩存分配接口进行调用，以实现緩存块分配请求的发起，緩存分配接口则根据应用程序进程的调用在可用于应用程序进程的緩存块区域分配緩存块，并将成功或失败的分配结果返回给应用程序进程。

之后，应用程序进程可以对动态链接库中的读操作接口进行调用，以实现读请求的提交。需要说明的是，如果前述的在分布式文件***中为应用程序进程分配緩存的操作已成功，则可以在调用读操作接口时带入所分配的緩存块地址。读操作接口能够对应用程序进程的调用进行判断，以确定应用程序是否使用了所分配的緩存块地址，如果使用了，读操作接口可以直接提交读请求到共享内存中的读请求队列，并带入所分配的緩存块地址；否则，读操作接口可以在分布式文件***中主动为应用程序进程分配新的緩存块，之后再提交读请求到共享内存中的读请求队列，并带入所分配的緩存块地址。

文件访问代理进程中的读请求处理模块从读请求队列中取出读请求，并将该读请求发送给数据接收模块，由数据接收模块根据收到的读请求中所包含的文件名和偏移等信息接收数据，并将收到的数据存储于为应用程序进程所分配的所述緩存块中。当完成上述操作后，数据接收模块确定完成了读请求处理，并向读操作接口发送通知；读操作接口收到来自数据接收模块的通知时，通知应用程序进程读操作已完成。

接下来，应用程序进程可以调用緩存释放接口，以释放完成读操作的緩存块；緩存释放接口则根据应用程序进程的调用，释放共享内存中的相应緩存块，并将成功或失败等释放结果通知给应用程序进程。

图 1所示装置可以完成如图 2所示的操作。参见图 2, 图 2为本发明一实施例的分布式文件***中的数据处理流程图，该流程包括以下步骤：步骤 201 : 应用程序进程对动态链接库中的緩存分配接口进行调用，以实现緩存块分配请求的发起。

步骤 202: 动态链接库中的緩存分配接口根据应用程序进程的调用，在可用于应用程序进程的緩存块区域分配緩存块。

步骤 203：动态链接库中的緩存分配接口将成功或失败的分配结果返回给应用程序进程。

步骤 204: 应用程序进程对动态链接库中的读操作接口进行调用，以实现读请求的提交。

需要说明的是，如果前述的在分布式文件***中为应用程序进程分配緩存的操作已成功，则可以在调用读操作接口时带入所分配的緩存块地址。

步骤 205: 动态链接库中的读操作接口对应用程序进程的调用进行判断，以确定应用程序是否使用了所分配的緩存块地址，如果使用了，进入步骤 207; 否则，进入步骤 206。

步骤 206:动态链接库中的读操作接口在分布式文件***中主动为应用程序进程分配新的緩存块。

步骤 207:动态链接库中的读操作接口提交读请求到共享内存中的读请求队列，并带入所分配的緩存块地址。步骤 208:文件访问代理进程中的读请求处理模块从读请求队列中取出读请求，并将该读请求发送给文件访问代理进程中的数据接收模块。

步骤 209:文件访问代理进程中的数据接收模块根据收到的读请求中所包含的文件名和偏移等信息接收数据，并将收到的数据存储于为应用程序进程所分配的所述緩存块中。

步骤 210: 文件访问代理进程中的数据接收模块确定完成了读请求处理，并向读操作接口发送通知。

步骤 211 : 动态链接库中的读操作接口收到来自数据接收模块的通知时，通知应用程序进程读操作已完成。

步骤 212: 当不再需要保留完成读操作的緩存块中的数据时，应用程序进程调用动态链接库中的緩存释放接口，以释放完成读操作的緩存块。

步骤 213: 动态链接库中的緩存释放接口根据应用程序进程的调用，释放共享内存中的相应緩存块，并将成功或失败等释放结果通知给应用程序进程。

由以上所述可见，当应用程序调用分布式文件***的读操作接口时，所带入的存放数据的地址为预先分配的緩存块地址；分布式文件***在进行实际数据读操作时，可以直接使用该緩存块地址进行数据处理。

需要说明的是，在分布式文件***中为应用程序所分配的緩存块，不由分布式文件***进行緩存管理，而是直接交给应用程序使用，以保证应用程序完成读接口调用之后能够直接使用緩存块地址中的数据。

图 1、图 2所示的操作思路可以表示如图 3所示。参见图 3 , 图 3为本发明分布式文件***中的数据处理流程筒图，该流程包括以下步骤：

步骤 310: 在分布式文件***中为应用程序分配緩存。

步骤 320:应用程序使用分布式文件***所分配的緩存，进行数据处理。综上所述可见，无论是方法还是装置，本发明的分布式文件***中的数据处理技术，能够使读操作接口减少一次内存拷贝过程，从而在进行大数据量读取操作时有效降低 CPU的利用率，能够保证分布式文件***的稳定性。

Claims

权利要求书

1、一种分布式文件***中的数据处理方法，其特征在于，该方法包括：在分布式文件***中为应用程序分配緩存，所述应用程序使用分布式文件***所分配的緩存，进行数据处理。

2、根据权利要求 1所述的方法，其特征在于，为应用程序在分布式文件***中设置緩存分配接口；

所述在分布式文件***中为应用程序分配緩存的过程包括：

3、根据权利要求 2所述的方法，其特征在于，所述緩存分配接口进一步将緩存的分配结果返回给应用程序进程。

4、根据权利要求 2或 3所述的方法，其特征在于，所述应用程序使用分布式文件***所分配的緩存，进行数据处理的过程包括：

5、根据权利要求 4所述的方法，其特征在于，提交所述读请求之前，该方法进一步包括：

6、根据权利要求 4所述的方法，其特征在于，该方法进一步包括：针对完成读操作的緩存块，所述应用程序进程调用分布式文件***中预设的緩存释放接口，释放分布式文件***中的相应緩存块。

7、一种分布式文件***中的数据处理装置，其特征在于，该装置包括緩存分配接口、读操作接口、文件访问代理进程；其中，

所述读操作接口，用于根据应用程序的控制触发所述文件访问代理进程；

所述文件访问代理进程，用于根据所述读操作接口的触发，使用分布式文件***中为应用程序所分配的所述緩存进行数据处理。

8、根据权利要求 7所述的装置，其特征在于：

9、根据权利要求 7或 8所述的装置，其特征在于，该装置进一步包括緩存释放接口，用于根据所述应用程序的调用，释放分布式文件***中完成数据处理的相应緩存块。

10、根据权利要求 7或 8所述的装置，其特征在于，所述文件访问代理进程包括读请求处理模块、数据接收模块；其中，

所述读请求处理模块，用于接收因所述读操作接口的触发而产生的读请求，并发送给所述数据接收模块；