CN107729855B

CN107729855B - 海量数据处理方法

Info

Publication number: CN107729855B
Application number: CN201711006939.9A
Authority: CN
Inventors: 方引; 杨洋
Original assignee: Chengdu Jinzhi Zhiyuan Technology Co ltd
Current assignee: Chengdu Jinzhi Zhiyuan Technology Co ltd
Priority date: 2017-10-25
Filing date: 2017-10-25
Publication date: 2022-03-18
Anticipated expiration: 2037-10-25
Also published as: CN107729855A

Abstract

本发明提供了一种海量数据处理方法，该方法包括：基于像素点的纹理特征值进行人脸图像特征提取；根据所提取的人脸图像特征建立人眼视觉感知模型，由此进行人脸图像检索。本发明提出了一种海量数据处理方法，有助于在人脸遮挡、样本数量和质量偏低、信息缺失的情况下提高人脸识别的准确率，同时降低识别的运行时间。

Description

海量数据处理方法

技术领域

本发明涉及云计算，特别涉及一种海量数据处理方法。

背景技术

随着社会的不断发展与科技的不断进步，人脸信息处理的研究己经成为当前的研究热点之一。人脸识别的研究内容涉及到模式识别、计算机图像处理、机器学习和人工智能等领域，其在生物特征识别、人机交互、内容检索、视频监控、安防***等商业领域也得到了广泛的应用。虽然目前众多种人脸识别算法己取得较好的识别性能，但人脸识别***在实际应用中仍面临很多挑战，其中包括：由光照变化、饰品等引起的遮挡人脸识别问题；非可控条件下可采集到的样本数少，姿势变换等，都会造成人脸信息的缺失。如何在现有方法的基础上克服以上问题进一步提高人脸识别的准确率，同时降低识别的运行时间提高实效性，是目前亟待解决的难题。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种海量数据处理方法，包括：

(1).基于像素点的纹理特征值进行人脸图像特征提取；

(2).根据所提取的人脸图像特征建立人眼视觉感知模型，由此进行人脸图像检索。

优选地，所述像素点的纹理特征值利用区域中心像素点和存储环形邻域像素点差值大小来表征。

优选地，在所述人脸图像特征提取中，将图像以像素点邻域为单位作为纹理单位，通过二值数值对该纹理单位进行量化，获取局部纹理特征值，通过统计图像中的纹理单位并进行归一化操作，得到描述图像的纹理特征向量。

优选地，所述步骤(1)进一步包括：

对图像进行二值编码，在采集的人脸图像中随机选取一个区域，该区域中任意像素点用G(y，z)进行描述，其几何中心点用h_c进行描述，对3×3窗口中的邻域像素点h₀至h₇进行二值变换处理：

h_d＝t(h₀-h_c)，…t(h₇-h_c)；

其中

对上述二值变换结果进行加权处理，获取该窗口中心的局部二值模式值：

设置Q用于描述K种特征类型，Q∈(0，1，2，…，K-1)；

将采集的人脸图像分为n×p块，统计每个分块中各个模式的出现次数，即对每块人脸图像子区域中的特征类型进行统计，得到由n×p个直方图组成的人脸图像特征分量U＝(U₁,U₂,…U_n×p)；

其中，

分子P_j(Q)用于描述第j个子区域中局部二值模式值是Q的特征的数量，

用于描述第j个子区域的二值模式直方图；

建立人脸图像特征直方图，为人脸图像检索提供数据基础；

然后在基于中值滤波人眼视觉特征进行的去噪，首先确定噪声点，设图像R大小为m×n，采用3×3大小的窗口在图像上滑动；

定义为该窗口中心像素灰度值，则该窗口内所有像素点值集合为：

w_i，j＝{g(i+k,j+r)|k,r＝(1,0,-1)}；

计算窗口内像素平均值

找出图像R的最大灰度值和最小灰度值，分别记为I_max(m×n)、I_min(m×n)。标记中心像素点的阈值为H_i,j；

则当中心像素点灰度值满足下列条件时，该像素点可以判别为噪声点：

若|g(i,j)-w_m|＞H_i,j，则该像素点为噪声点；

若|g(i,j)|＝I_max(m×n)或I_min(m×n)，则该像素点为噪声点；

针对上述条件，根据噪声敏感系数λ来确定该阈值H_i,j的大小；定义窗口中心像素点g(i,j)的噪声敏感系数λ为：

通过计算噪声敏感系数λ_i,j，若满足|g(i,j)-w_m|＞λ_i,j条件则判断像素点是否为噪声点；

将图像像素点划分为噪声点和非噪声点两类后，对于图像g(i,j)采用NURBS函数对其进行平滑，将图像作为原始图像和k次样条及l次样条函数离散卷积的结果，描述为：

其中，B_k(x-i)和B_l(y-i)分别为NURBS的k次样条及l次样条卷积模板，若g(i,j)是噪声点，则取3×3的滤波窗口，得到滤波后的值再进行中值滤波，得到最终值；

若i取[0,255]，定义分辨力函数如下：

F_r(i)＝N(i)/max[N(i)]

定义目标区域的隶属度函数为：

其中，f(i)为单调递增函数，且满足条件f(a)＝0，f(b)＝1；灰度值在[0，a]区间时该像素点属于背景区，在[b，255]区间时该像素点属于目标区，在区间[a、b]之间时像素点需要进一步通过模糊函数来表示。

本发明相比现有技术，具有以下优点：

本发明提出了一种海量数据处理方法，有助于在人脸遮挡、样本数量和质量偏低、信息缺失的情况下提高人脸识别的准确率，同时降低识别的运行时间。

附图说明

图1是根据本发明实施例的海量数据处理方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种海量数据处理方法。图1是根据本发明实施例的海量数据处理方法流程图。

本发明的基于云计算的海量数据存储检索***包括数据节点和索引节点。索引节点维护人脸图像数据块索引、数据块之间的映射关系、数据块属性，数据节点以不同图像数据所有者为单位存储实际的人脸图像数据块。图像数据所有者访问存储***时，获得独立空间。为每个数据块分配不同的ChunkID，各图像分块及副本存储在各个数据节点上。人脸图像数据块的索引包括以下属性：ChunkID、名称、类型、大小、图像数据所有者名称、访问时间、及其位置信息。

用户块记录图像数据所有者存储在***中的ChunkID、共享方式、图像数据块名对应关系、图像数据所有者名称。***通过访问图像数据所有者的OwnerID映射的ChunkID获取用户块并给予图像数据所有者独立的用户块空间。图像数据所有者用户块仅允许对应OwnerID的图像数据所有者才有权限访问其所有的用户块，并为用户块分配一个ChunkID，对其进行分块后存储在***各数据节点保存数据块。

在数据存储检索***内还设置超节点，超节点具有高速带宽和高性能节点，每个超节点维护一个路由表，可根据自身能力的强弱调整其路由表。在数据存储检索***中所有的超节点形成一个存储环。超节点n的路由表中包含m行，每行包含x项，x表示节点性能的强弱，第k行包含x项，x等分区间[n+3i，n+3i+1)，其中0<k<m，每个超节点根据自身当前能力动态调整其x值。存储环用于路由查询请求。每个超节点负责维护它的前驱、后继节点。超节点n的后继节点是在存储环上节点n的立即的后继节点，即存储环上从n开始顺时针方向的第一个超节点，同样，n的前驱节点是存储环上n的立即前驱超节点。每个超节点还维护一个数据节点列表，超节点的路由表中每一项指向一个超节点，数据节点列表中记录从本身到其后继节点的所有的数据节点，数据节点列表中所指节点可以用于备份超节点上的数据信息，或当超节点图像存储数据溢出时，将溢出的图像数据转移到其数据节点列表内所指的节点上。数据存储检索***上所有的请求信息都通过存储环进行路由。其中数据节点的查询请求首先转发到它的后继超节点，然后路由即可在存储环上进行，最终到达目的地。超节点的查询请求直接在存储环上路由。

人脸图像数据块的索引机制包含索引的建立和块检索。索引建立用于建立实际数据块和存储位置之间的关联，建立检索信息和实际存储数据块之间的关联，并存储必要的数据块的信息。块检索包括对图像数据所有者通过客户端发出的请求信息在索引中进行检索，然后将相关的检索结果反馈给客户端。块检索要涉及到图像数据块本身的存储格式，节点的组成结构以及块检索方式。本发明采用地址切分检索对数据块存储地址进行划分。

人脸图像存储格式按照图像数据访问者/图像数据所有者/内容，将存储数据块的地址信息划分为3段。图像数据访问者的数据库记录该图像数据访问者拥有的所有图像数据所有者的清单；图像数据所有者的数据库维护该图像数据所有者服务器中所有内容；图像内容服务负责存储，删除和搜索节点设备上的图像内容。图像内容的数据和索引存储在一起，作为一个单元进行保存。每个内容的路径由图像内容名称的HASH值和操作时间组成。

本发明的方法是将keyword标识符划分成3部分。按keyword标识符从高到低位的顺序，这三部分分别是图像数据访问者k₁，图像数据所有者k₂，图像内容k₃，图像内容查询值的关键字的ID按照k₁k₂k₃的顺序联接。其绝对值：|k₁|，|k₂|，|k₃|按如下顺序计算，首先按图像内容查询特征的顺序计算第一个内容查询值的HASH值并按从高位到低位的顺序取|k₁|位作为k₁的值，接下来计算第二个内容查询值的HASH值取|k₂|位作为k₂的值，然后对内容查询值的其余部分计算HASH并取|k₃|位作为k₃的值。将相似的查询安排在接近的位置范围。

图像数据块存储时按照其关键字划分，将其ID划分成s₁/s₂/s₃从高到低3部分排列在路由存储环上，s₁是图像数据访问者地址段，s₂是图像数据所有者地址段，s₃是图像内容地址段。通过数据块地址切分，当图像数据所有者确定数据块所在的图像数据访问者或图像数据所有者位置后，快速确定图像数据块的具***置。

本发明将存储visitorID的节点记作内容查询的图像数据访问者节点，存储ownerID的节点记为内容查询的图像数据所有者节点。最后将存储内容查询ID的节点记作这个图像内容查询的图像内容节点。内容查询的索引信息可以存储在其所有的图像数据访问者节点，图像数据所有者节点和图像内容节点。

每个数据节点维护本地的存储内容，维护图像数据访问者内容索引表、图像数据所有者内容索引表和内容索引表，同时维护图像数据访问者节点列表，图像数据所有者节点列表，图像内容节点列表。图像数据访问者内容索引表中每一行包括内容查询地址、图像内容最后访问时间、多个内容查询对应的图像内容所在的节点等；同样，图像数据所有者内容索引表和内容索引表也包含这些项，但其中的内容查询的图像内容节点在此节点；图像内容节点列表包括图像数据内容。图像数据访问者节点列表维护这个节点最近访问频率最高的图像数据所有者节点；图像数据所有者节点列表维护这个节点最近被访问频率最高的图像内容节点；图像内容节点存储内容具体内容。

每个节点由一个本地的代理服务器来操作本地的存储服务器；本地存储服务器通过数据存储检索***平台与网络中的其它节点共享存储内容。在底层的数据存储检索***平台进行内容查询服务，提供检索信息请求并返回数据存储检索***检索结果到本地Agent。所有路由通过底层的数据存储检索***提供。其中，内容查询包括图像数据访问者服务、图像数据所有者服务和内容服务，并包含查询、***和删除操作。内容查询服务的任务是依据图像数据访问者节点列表中的信息判断是转发到图像数据所有者节点还是发送到下层路由机制。***操作根据内容查询服务返回的图像数据所有者节点和图像内容节点信息发布相应的查询图像数据所有者节点的索引信息到相应的节点。

数据存储检索***查询操作附带所查询的地址，如果请求节点的路径图像内容节点列表内没有相应请求内容查询相似的地址时，发送到数据存储检索***的查询信息首先查询图像数据访问者节点，当到达图像数据访问者节点后，如果没有找到相应的索引项，则计算图像数据所有者节点的ID，并从图像数据访问者节点开始继续在数据存储检索***中进行查询，直到找到结果或到达图像内容节点。如果请求节点的图像数据访问者节点列表内有相应请求内容查询相似的路径地址，则直接转发到相应的图像数据所有者节点，并从这个图像数据所有者节点开始查询。

根据上述块检索方式，其块检索流程可分为两步，一是节点发布请求内容信息；二是数据块根据请求内容信息检索数据块并反馈请求。

节点发布请求内容的工作流程包括：

(1)图像数据所有者向文件***提出内容查询请求，请求先发被送到本地Agent，该请求经过分析后，根据该请求是否可缓存，决定是否要转发到云端；

(2)本地Agent服务查询本地存储服务中是否有请求的内容，如果有则转到(12)；

(3)如果本地存储服务中未找到请求的内容，则转发请求到内容查询服务；

(4)内容查询服务查看图像数据访问者节点列表中是否有与请求内容查询相似的路径地址；

(5)如果图像数据访问者节点列表中有与请求内容查询相似的地址，则直接转到其所对应的图像数据所有者节点；

(6)如果图像数据访问者节点列表中没有与请求内容查询相似的查询，则内容查询服务发送查询到下层数据存储检索***模块，查询内容查询的图像数据所有者节点；

(7)数据存储检索***通过查找找到相应的图像数据所有者节点；

(8)图像数据访问者节点、图像数据所有者节点或图像内容节点查询其对应索引表，确认是否存在请求内容查询相应的索引，如果此时图像数据访问者节点且没有找到请求内容查询的索引，则通过数据存储检索***继续查询下一个图像数据访问者节点或图像内容节点；

(9)图像数据访问者节点、图像数据所有者节点或图像内容节点将查询到的索引信息返回到发起查询请求的节点的内容查询服务；此时如果返回的结果包含有请求查询的图像数据访问者节点，则内容查询服务对图像数据访问者节点列表进行更新。

(10)转发该返回信息到本地Agent服务；

(11)如果返回的是空，本地Agent服务通过云端上获取内容，否则根据返回的结果从相应节点获得内容。然后本地存储服务中存储此内容的备份，并发布相应的索引信息到相应的图像数据访问者节点和图像数据所有者节点；

(12)发送内容到文件***。

并且其中，块检索请求内容并反馈信息，包括：

内容获取后发布此内容的路径索引信息到相应的图像数据访问者节点和图像内容节点。当一个节点n发出一个内容查询请求内容时，这个节点首先检查内容是否需要通过下层路由机制进行查询获得，如果需要查询，节点将检查其图像数据访问者节点列表内是否有请求的内容查询的图像数据访问者节点。如果图像数据访问者节点列表内没有请求内容的图像数据访问者节点，此时，根据内容查询地址计算内容的visitorID并发送给下层数据存储检索***去查询内容的visitor图像内容节点，通过查询，数据存储检索***将找到这个内容的图像数据访问者节点，然后图像数据访问者节点检查其图像数据访问者内容索引表、图像数据所有者内容索引表和内容索引表内是否有被请求内容查询的索引，如果索引存在，则这个路径图像内容节点返回一个被请求内容所在的节点的地址到节点n，节点n通过请求这个代理节点将获得内容；如果返回的代理节点上没有被请求的内容，请求将发送到云端服务器。否则，如果索引不存在，计算ownerID并发送到visitor图像内容节点，数据存储检索***从图像数据访问者节点开始继续查询，同样通过查询，将找到图像数据所有者节点，图像数据所有者节点同样检查其上的索引表信息，如果有相应的索引信息，则返回一个代理节点信息到本地节点，否则继续查询下一个图像数据所有者节点，依次循存储环直到某个图像数据所有者节点上有被请求内容查询的索引信息，或找到被请求内容查询的图像内容节点，查询结束。如果内容查询的图像内容节点的索引表中也没有被请求内容的索引，则请求发送到云端服务器。在这个查询过程中，每一个图像数据所有者节点都将返回其本身地址信息到本地节点n。

如果图像数据访问者节点列表内有一个请求内容查询的图像数据所有者节点，此时将查询直接转发到这个图像数据所有者节点，这个图像数据所有者节点检查其索引表，如果存在索引，则返回一个代理节点，否则继续查询下一个图像数据所有者节点直到找到图像内容节点。

当一个节点获得一个内容后，它将向发布请求的图像数据所有者节点以及图像内容节点发布信息，告知这些节点其有此内容查询的请求内容，图像数据所有者节点以及图像内容节点相应更新它们的索引表。在这个查询过程中，如果节点n的图像数据所有者节点列表中存储有请求内容查询的图像数据所有者节点，则直接转发到此图像数据所有者节点开始查询。

在人脸图像特征提取方面，本发明利用区域中心像素点和存储环形邻域像素点差值大小来表征像素点的纹理特征值，将图像以像素点邻域为单位作为纹理单位，然后通过二值数值对该纹理单位进行量化，获取局部纹理特征值，通过统计图像中的纹理单位并进行归一化操作，得到描述图像的纹理特征向量，利用该方法进行特征提取的详细步骤如下所述：

首先，对图像进行二值编码。在采集的人脸图像中随机选取一个区域，该区域中任意像素点能够用G(y，z)进行描述，其几何中心点可以用h_c进行描述，对3×3窗口中的邻域像素点h₀至h₇进行二值变换处理，如下：

h_d＝t(h₀-h_c)，…t(h₇-h_c)；

其中

设置Q用于描述K种特征类型，Q∈(0，1，2，…，K-1)。将采集的人脸图像分为n×p块，统计每个分块中各个模式的出现次数，也就是对每块人脸图像子区域中的特征类型进行统计，得到由n×p个直方图组成的人脸图像特征分量U＝(U₁,U₂,…U_n×p)。其中，

用于描述第j个子区域的二值模式直方图。

根据上面阐述的方法建立人脸图像特征直方图，从而为人脸图像检索提供数据基础。

为了在图像处理过程中减少噪声影响，本发明在基于中值滤波人眼视觉特征进行的去噪。首先确定噪声点，设图像R大小为m×n，采用3×3大小的窗口在图像上滑动。

w_i，j＝{g(i+k,j+r)|k,r＝(1,0,-1)}

计算窗口内像素平均值

找出图像R的最大灰度值和最小灰度值，分别记为I_max(m×n)、I_min(m×n)。标记中心像素点的阈值为H_i,j。

若|g(i,j)-w_m|＞H_i,j，则该像素点为噪声点。

若|g(i,j)|＝I_max(m×n)或I_min(m×n)，则该像素点为噪声点。

针对上述条件，本发明根据噪声敏感系数λ来确定该阈值H_i,j的大小。定义窗口中心像素点g(i,j)的噪声敏感系数λ为

此时，判断像素点是否为噪声点，只要计算的噪声敏感系数λ_i,j，若|g(i,j)-w_m|＞λ_i,j满足条件即可。

将图像像素点划分为噪声点和非噪声点两类后，对于图像g(i,j)采用NURBS函数对其进行平滑，图像可看作是个曲面的均匀采样，是原始图像和k次样条及l次样条函数离散卷积的结果，描述为：

其中，B_k(x-i)和B_l(y-i)分别为NURBS的k次样条及l次样条卷积模板，若g(i,j)是噪声点，则取3×3的滤波窗口，得到滤波后的值再进行中值滤波，得到最终值。

若i取[0,255]，定义分辨力函数如下：

F_r(i)＝N(i)/max[N(i)]

定义目标区域的隶属度函数为：

其中，f(i)为单调递增函数，且满足条件f(a)＝0，f(b)＝1。灰度值在[0，a]区间时该像素点属于背景区，在[b，255]区间时该像素点属于目标区，在区间[a、b]之间时像素点需要进一步通过模糊函数来表示。

依据上述方法提取人脸图像的特征，并根据上述特征建立人眼视觉感知模型，从而实现人脸图像检索。

本发明采用特征算子将特征点邻域内的像素梯度方向直方图的峰值作为该特征点的主方向，并将坐标轴旋转为特征点的主方向。计算两个向量直方图H_i(x)和H_j(x)的相似度：

其中，||H_i||和||H_j||表示直方图特征向量的长度。

然后结合尺度方向来检测异常特征点对，最后运用随机采样一致性丢弃异常对。整个过程就是通过样本数据集拟合图像变换矩阵。初始样本数据n＝min{n₀,max{n_s,n_slog₂μn₀}}。n₀是根据K近邻算法判定的匹配特征点的数量，n_s为丢弃异常特征点对之前匹配特征点的数量，μ为调节参数。原图像的(x₁，y₁)与目标图像(x₂，y₂)变换关系如下：

是8参数的变换矩阵，获取该矩阵参数至少需要四个特征特征点对，本发明优选的实施例采用加权最小二乘法求解矩阵参数，设

K＝[k₁k₂k₃k₄k₅k₆k₇k₈]

L＝-[x₂y₂]^T/μ

则变换为:

K＝-[G^TG]^-1G^TL

先令μ初始值为1并得到K的初值，然后继续迭代计算μ，最终得到稳定的K。具体算法如下：

(1)随机抽取不同平面的匹配特征点对，计算这些点对的变换矩阵K；

(2)对于待检测匹配点对(x,y),若满足条件|K·x-y|<ε,ε为容差值，则该点为内点。如果内点数大于设定阈值t，通过迭代加权最小二乘法重新计算矩阵K，并更新内点数量，若内点数量小于t，返回步骤(1)；

(3)若经过W次迭代后，最大内点集合数量确定并且大于t，根据内点结合计算出变换矩阵K。

在进一步方面，本发明给出了阈值满足的条件，通过判别条件进行处理，防止噪声点误判。假设坐标(x,y)和(x*,y*)分别表示源图像和目标图像的特征算子，每个特征点对的特征算子可以用以下方式获得。

Δx＝x-s_m(x*·cos(Δθ_m)-y*·sin(Δθ_m))

Δy＝y-s_m(x*·cos(Δθ_m)-y*·sin(Δθ_m))

其中Δx和Δy表示提取特征的直方图表示。四项式(s_m，Δθ_m，Δx_m，Δy_m)表示删除异常特征对的变换近似值，具体实现满足下列条件：

|Δx-Δx_m|>Δx_t；|Δy-Δy_m|>Δy_t

根据直方图的宽度，Δx_t和Δy_t分别表示直方图的水平和垂直差的阈值。

通过上述图像变换进行特定点匹配后，本发明将决策树应用到人脸特征点定位中。首先，人脸特征点定位采用形状索引像素灰度特征进行训练。以两个参考点建立的局部坐标系中随机采样两个坐标点，作这两个点之间的像素灰度差值，然后选取两个参考点中的中点外加一个随机偏移量来生成特征点，以这两个特征点的像素灰度差值作为特征。

在训练决策树时，树的输入为人脸图像I、对应参考点坐标组成的形状S和参考点的真实形状S’，而输出的目标为预测的参考点的偏移量ΔS。对于决策树的训练首先确定到树中非叶子节点的***。用I(p，Δx，Δy)表示将当前参考点形状进行相似变换后，所获得的图片中以第p个参考点为原点建立的局部坐标系中的(Δx,Δy)像素点的灰度值。设置当前节点的分割阈值

其取值范围为[-255，255]。以参考点p为原点建立的局部坐标系内，取两个点的形状索引像素灰度值特征之差与一个阈值

进行比较，若小于该阈值

则将训练样本划分到左子节点中，否则分到右子节点中。

最优特征函数f₀和最优阈值

的选择可以用如下公式描述：

其中ΔS_L为

时的ΔS部分；ΔS_R为

时的ΔS部分；f(I)＝I(p，Δx₁，Δy₁)-I(p，Δx₂，Δy₂)；

Var(ΔS_L)代表左子节点中对应第p个参考点的偏移量的方差值，Var(ΔS_R)代表的是右子节点中对应第p个参考点的偏移量的方差值。

针对每个非叶子节点，选择一个特征函数f来对该节点对应的所有样本提取形状索引特征，然后需要挑选一个阈值

对这些形状索引特征进行分割，将当前节点的训练样本(I,S,S’)分成左右子节点两部分(I_L,S_L,S’_L)和(I_R,S_R,S’_R)。

决策树的每个内部节点都是以上述方式进行训练，这样对于每个关键点所训练的决策树就组合成了一个决策森林。将决策树中叶子节点所包含的样本的信息输出表示为一个二值特征向量，将决策森林中所有决策树的二值特征前后相连组合成一维的特征向量。一张人脸图像在第t层决策森林中对应的特征映射用下列公式表示：

δ^t＝{δ^t _i}i＝1,…L

其中t表示决策树所处的层数，L代表的人脸形状中参考点的数量。δ^t _i表示的是由第i个参考点对应的所有决策树提取出来的二值特征串联而成的特征向量，称为局部二值特征。通过提取人脸中每个参考点对应的δ^t _i特征之后，将所有的δ^t _i串联成最终的二值特征向量来表示人脸的特征映射关系δ^t。

从所有人脸图像中随机抽取图像作为训练样本集，剩余的图像作为测试样本集；对所有的训练图像分别进行SIFT特征提取和DCT特征提取，其中SIFT特征包括SIFT相位特征和SIFT幅值特征。

通过非线性函数Φ将人脸图像向量映射到高维特征空间F中，然后在高维特征空间F中进行主分量分析变换。进行主分量分析变换时，引入满足核条件的非线性函数E来代替向量的内积运算，即E(x_i,x_j)＝Φ(x_i)·Φ(x_j)。主分量分析的过程为：

将m维的训练样本人脸向量x₁,x₂,...,x_t利用非线性函数Φ映射到高维特征空间F，得到Φ(x₁),Φ(x₂),...,Φ(x_t)；

在F中对Φ(x_i)进行变换。求解特征方程lλ^Φα＝Kα，其中K＝(E(x_i,x_j))_l×i，从而得到特征向量为：

对应的特征值为λ^Φ ₁，λ^Φ ₂，…λ^Φ _l；取特征值中的前m个特征值以及相应的特征向量，得到特征矩阵M^Φ＝(D^Φ)^1/2(V^Φ)^T，其中：

D^Φ＝diag(λ^Φ ₁，λ^Φ ₂，…λ^Φ _m)

V^Φ＝(v₁,v₂,...,v_m)

所以训练样本在空间F中经过变换后为:

求出相应的分离矩阵W^Φ；

对任意一个测试样本y,将其映射到空间F为Φ(y)，提取其特征向量为

完成主分量分析过程后，得到核独立特征向量和特征子空间；将核独立特征进行特征融合，得到一维特征向量，最终得到训练样本集的所有特征向量；采用得到的特征向量进行训练SVM模型；

采用相同方法获得所有测试样本集的特征向量后，将测试样本集的特征向量分别向其子空间进行投影，获取测试样本集的核独立特征向量；

将核独立特征向量用于训练好的SVM模型中进行分类测试，得到人脸图像的初步识别结果。

本发明优选地进一步将训练样本分割为有重叠的块，分别计算每个块的判别率，然后选择判别率较高的块构造模板，并对训练样本进行过滤，由过滤后的训练样本构造新的字典，最后用稀疏表示进行分类。

给定包含C个类的n个样本的集合A＝[A₁*,A₂*,…A_n*]。A_i*表示第i个图像矩阵。每个训练图像分割成k个重叠块，将每个图像的块矩阵转换为向量后，即A_i*＝[a_i,1,a_i,2,…a_i,k]。将整个训练字典集合A表示为A＝[A₁,A₂,…A_n]，其中A_i表示所有图像的第l个模块向量构成的矩阵。

对每个模块集A_i，用

表示对应的均值向量，

表示第c类中所有图像的第i个模块向量a_c,i的均值，c∈[1,C]。则模块A_i的判别率如下所示：

将模块判别率的大小从高到低进行排序，并只保留前h个具有模块构造成模板T。用该模板对测试及训练样本图像过滤。过滤后的训练集fA＝[fa₁,fa₂,...,fa_h],其中fa_i是过滤后图像A_i*的向量表示，h是模板中所包含的模板个数。

为进一步降低计算量，在fA上利用主分量分析提取主分量，并构造投影矩阵P，则训练图像及测试样本y的维数可进一步约简为：

f_pA＝P'fA

f_py＝P'fy

f_py可表示成f_pA的线性组合

f_py＝f_pA·X

X为稀疏矩阵，根据类残差将测试样本归类为最小重构残差对应的类：

其中

为选择函数。||()||₂为l₂范数约束。

综上所述，本发明提出了一种海量数据处理方法，有助于在人脸遮挡、样本数量和质量偏低、信息缺失的情况下提高人脸识别的准确率，同时降低识别的运行时间。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算***来实现，它们可以集中在单个的计算***上，或者分布在多个计算***所组成的网络上，可选地，它们可以用计算***可执行的程序代码来实现，从而，可以将它们存储在存储***中由计算***来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种海量数据处理方法，其特征在于，包括：

(1)基于像素点的纹理特征值进行人脸图像特征提取；

(2)根据所提取的人脸图像特征建立人眼视觉感知模型，由此进行人脸图像检索；

在步骤(2)的人脸图像检索之前，预先将存储数据块的地址信息按照图像数据访问者、图像数据所有者、内容三类进行划分；所述图像数据访问者的数据库记录该图像数据访问者拥有的所有图像数据所有者的清单；所述图像数据所有者的数据库维护该图像数据所有者服务器中所有内容；图像内容服务负责存储，删除和搜索节点设备上的图像内容；每个内容的路径由图像内容名称的HASH值和操作时间组成；将keyword标识符划分成3部分；按keyword标识符从高到低位的顺序，分别是图像数据访问者k₁，图像数据所有者k₂，图像内容k₃，图像内容查询值的关键字的ID按照k₁k₂k₃的顺序联接；其绝对值：|k₁|，|k₂|，|k₃|按如下顺序计算，首先按图像内容查询特征的顺序计算第一个内容查询值的HASH值并按从高位到低位的顺序取|k₁|位作为k₁的值，接下来计算第二个内容查询值的HASH值取|k₂|位作为k₂的值，然后对内容查询值的其余部分计算HASH并取|k₃|位作为k₃的值；

为每个数据块分配不同的ChunkID，各图像分块及副本存储在各个数据节点上；通过访问图像数据所有者的OwnerID映射的ChunkID获取用户块并给予图像数据所有者独立的用户块空间；图像数据所有者用户块仅允许对应OwnerID的图像数据所有者才有权限访问其所有的用户块；图像数据块存储时按照其关键字划分，将其ChunkID划分成s₁、s₂、s₃从高到低3部分排列在路由存储环上，s₁是图像数据访问者地址段，s₂是图像数据所有者地址段，s₃是图像内容地址段；通过数据块地址切分，当图像数据所有者确定数据块所在的图像数据访问者或图像数据所有者位置后，确定图像数据块的具***置。

2.根据权利要求1所述的方法，其特征在于，所述像素点的纹理特征值利用区域中心像素点和存储环形邻域像素点差值大小来表征。

3.根据权利要求1所述的方法，其特征在于，在所述人脸图像特征提取中，将图像以像素点邻域为单位作为纹理单位，通过二值数值对该纹理单位进行量化，获取局部纹理特征值，通过统计图像中的纹理单位并进行归一化操作，得到描述图像的纹理特征向量。