CN103488662A

CN103488662A - 基于图形处理单元的自组织映射神经网络聚类方法及***

Info

Publication number: CN103488662A
Application number: CN201310112420.4A
Authority: CN
Inventors: 叶允明; 张金超; 黄晓辉
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2013-04-01
Filing date: 2013-04-01
Publication date: 2014-01-01

Abstract

本发明涉及一种基于图形处理单元的并行化自组织映射神经网络的聚类方法及***，相对传统的串行化聚类方法,本发明通过算法的并行化和基于图形处理单元的并行加速***，能更快的实现大规模数据的聚类。本发明主要涉及两方面的内容：(1)首先，针对图形处理单元的高并行计算能力的特点，设计了一种并行化自组织映射神经网络的聚类方法，该方法通过并行化统计文档的关键词词频得到词频矩阵，通过并行化计算文本的特征向量生成数据集的特征矩阵，通过并行化的自组织映射神经网络聚类得到海量数据对象的簇结构；(2)其次，利用图形处理单元(GPU)和中央处理器(CPU)之间的计算能力的互补性,设计了一套基于CPU/GPU协作框架的并行化文本聚类***。

Description

基于图形处理单元的自组织映射神经网络聚类方法及***

技术领域

本发明涉及一种并行化的自组织映射神经网络聚类方法及***，尤其涉及一种基于图形处理单元的并行化自组织映射神经网络聚类方法及***。

背景技术

目前，随着计算机的普及，互联网的用户数持续不断的增长，互联网用户在网络上每天产生大量的信息。同时，一些具有大量用户的社会化媒体***中，每天也有大量的新数据增加。数据挖掘和机器学习算法为我们从这些数据中提取有价值的信息提供了可行方法，但是大部分算法的学习流程复杂，需要迭代学习，处理海量数据所花费的时间较长。虽然有用信息被提取，但是信息可能已经不具有时效性，这就需要开发更快的算法或者采用更高性能的运算设备。采用高性能机器或CPU集群的方式固然能加快算法的运算过程，但是企业需要承担巨额的资金投入。目前，多核技术已经发展的相对成熟，图形处理单元(GPU)的数值计算性能远远超过了CPU的性能，利用GPU的多核特性，充分发掘算法的并行能力成为现今计算机科学的研究热点。

在数据挖掘领域，已经有部分数据挖掘算法通过改进使其能够运行于图形处理单元设备上，并取得了至少5-6倍的加速，有的甚至能达到20-30倍的加速效果。数据挖掘领域中一个重要的研究方向就是针对文本数据的挖掘，而文本聚类在文本挖掘领域中扮演着重要角色。聚类是依据数据的特征，根据数据之间的相似程度，聚集成不同的文本簇。根据统计，人类社会有80%的信息以文本为载体形式存在。文本聚类技术可以对文本数据有效组织、摘要和导航。

SOM网络是通过模拟人脑对外界信息处理的特点而设计的一种人工神经网络，是一种无监督的学习方法，非常适合于处理高维文本数据的聚类问题。SOM(Self-Organizing Mapping，简称“SOM”)网络无须用户指定聚类簇数，网络会在训练过程中自适应的进行聚类，对离群点噪音数据不敏感，具有很强的抗噪音能力。SOM根据训练样本中的样本分布规律进行聚类，对数据的形状不敏感。然而现有的SOM算法处理高维数据具有网络收敛速度慢，聚类时间长的特点。

文本聚类是数据挖掘技术中的一种，把文本文档资源按照指定的相似性标准划分为若干个簇，使得每一簇内部尽可能的相同，不同簇之间相似性尽可能小。文本聚类主要是依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要预先的训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效地组织、摘要和导航的重要手段，为越来越多的研究人员所关注。

发明内容

本发明解决的技术问题是：构建一种基于图形处理单元((Graphic ProcessingUnit,图形处理单元，简称“GPU”))的并行化自组织映射神经网络聚类方法及***，克服现有技术在文本聚类过程中由于数据量大导致计算速度慢的技术问题。

本发明的技术方案是：提供一种基于图形处理单元的并行自组织映射神经网络聚类方法，包括如下步骤：

并行关键词词频统计：将文本内容进行分词并得到关键词的集合，并行统计文档中关键词的频率，得到词频矩阵；

并行特征向量计算：把关键词词频矩阵转化为对应的特征向量矩阵，每个特征向量代表一个文档。

并行SOM聚类：根据特征向量矩阵设计SOM网络结构，初始化SOM网络，并行计算输入样本与全部输出神经元权向量距离,比较各个距离的大小，获取最小距离的最佳神经元J，通过更新最佳神经元、其邻域内的神经元权向量值、学习率及最佳神经元的邻域大小，然后通过图形处理单元并行计算网络误差率E_t，若网络误差率E_t<=目标误差ε或迭代次数t>=训练最大迭代次数T,则SOM网络训练结束，否则重新进行新一轮训练；每次学习的结果使得最佳匹配神经元的邻域区域向输入数据向量值靠近，把距离相近的输入特征向量聚集成同一个簇，形成的簇集合即为最终的聚类结果。

本发明的进一步技术方案是：统计每篇文档关键词词频的过程相互独立，本发明为每篇文档设计一个线程统计词频，然后通过图形处理单元的多线程并行统计。

本发明的进一步技术方案是：每篇文档的特征向量计算过程相互独立，本发明为每篇文档设计一个线程计算特征向量，然后通过图形处理单元的多线程并发执行。其特征向量计算采用公式

x_ij=log₂(tf_ij+1.0)*log(m/m_j)，

并归一化为

x_{ij} = \frac{x_{ij}}{\sqrt{Σ_{p = 1}^{n} x_{ip}^{2}}} .

公式中，x_ij为第j个特征词在文档d_i中特征向量的值，tf_ij为第j个特征词在文档d_i中的出现次数，m/m_j为第j个特征词的倒文档频率，m为文档总数，m_j是包含第j个特征词的文档数。

本发明的进一步技术方案是：在并行特征向量计算步骤中，采用基于图形处理的的多线程并行计算每个文档的特征向量。

本发明的进一步技术方案是：输入特征向量与每个输出神经元权向量距离的计算过程相互独立，采用基于图形处理的多个线程并行计算输入特征向量与每个输出神经元向量的距离，***为每个神经元开启一个线程，采用多线程并行计算。

本发明的进一步技术方案是：每个神经元相邻两次迭代的权向量误差的计算过程相互独立，采用基于图形处理的多个线程并行计算每个神经元的权向量误差，***为每个神经元开启一个线程，采用多线程并行计算。

本发明的技术方案是：构建一种基于图形处理单元的自组织映射神经网络聚类***，包括硬件部分和软件部分，硬件部分：采用CPU/GPU协作框架设计，串行执行代码运行在CPU上，并行执行代码运行在GPU上，通过GPU提供的数据传输方式来交换显存与内存之间的数据；软件部分分为三个模块，包括并行化关键词词频统计模块、并行化特征向量计算模块、并行化SOM聚类模块，单元、计算特征向量的特征向量计算单元、进行文本聚类的文本聚类单元，所述并行化关键词词频统计模块将文本内容进行分词并得到关键词的集合，并行统计文档中关键词的频率，得到词频矩阵；所述并行化特征向量计算模块把关键词词频矩阵转化为对应的特征向量矩阵，每个特征向量代表一个文档；所述并行化SOM聚类模块根据特征向量矩阵设计SOM网络结构，初始化SOM网络，并行计算输入样本与全部输出神经元权向量距离,比较各个距离的大小，获取最小距离的最佳神经元J，通过更新最佳神经元、其邻域内的神经元权向量值、学习率及最佳神经元的邻域大小，然后通过图形处理单元并行计算网络误差率E_t，若网络误差率E_t<=目标误差ε或迭代次数t>=训练最大迭代次数T,则SOM网络训练结束，否则重新进行新一轮训练；每次学习的结果使得最佳匹配神经元的邻域区域向输入数据向量值靠近，把距离相近的输入特征向量聚集成同一个簇，形成的簇集合即为最终的聚类结果。

本发明的进一步技术方案是：所述并行化关键词词频统计模块、所述并行化特征向量计算模块以及所述并行化SOM聚类模块中均设计了若干个核函数来并行加速算法的运行。

本发明的进一步技术方案是：在并行关键词词频统计模块中，设计了一个用于关键词词频统计的核函数；在并行特征向量计算模块中，设计了两个用于特征向量计算的核函数和两个用于特征向量归一化的核函数。

本发明的进一步技术方案是：在并行SOM聚类模块中，设计了一个用于计算输入特征向量与输出神经元的距离的核函数，一个用于计算每个神经元相邻两次迭代的网络权向量的误差的核函数和一个用于规约网络权向量的误差的核函数。

本发明的技术效果是：本发明是一套基于图形处理单元的并行自组织映射神经网络聚类方法及***。该发明通过设计并行化的文本聚类算法，同时利用图形处理单元(GPU)和中央处理器(CPU)之间的计算能力的互补性,设计了一套基于CPU/GPU协作框架的并行化文本聚类***。具体来说，本发明包含两部分：一.设计了一种基于图形处理单元的并行化自组织神经网络的聚类方法。在该方法中，针对文档的关键词词频统计，文档的特征向量计算和SOM聚类算法三个方面做了并行化。二.开发了一套基于CPU/GPU协作框架的并行化文本聚类***。在该***中，本发明设计了三个计算模块：并行化关键词词频统计模块，并行化特征向量计算模块和并行化SOM聚类模块。同时，在每个模块上设计了若干核函数来加速算法的运行。本发明通过算法的并行化和基于图形处理单元的并行加速***，能更快的实现大规模数据的聚类，非常适合于处理类似高维文本数据的聚类问题。

附图说明

图1为本发明的流程图。

图2为本发明的多线程词频统计示意图。

图3串行关键词所在文档数统计示意图。

图4为本发明的并行特征矩阵计算过程图。

图5为本发明的并行关键词所在文档数统计示意图。

图6为本发明的多线程计算特征矩阵示意图。

图7为本发明的多线程计算向量模示意图。

图8为本发明的多线程归一化示意图。

图9为本发明的SOM网络的拓扑结构。

图10为本发明的CPU/GPU硬件架构图

图11为本发明的并行SOM算法CPU/GPU协作框架示意图

图12为本发明的并行统计文档词频矩阵核函数流程图

图13为本发明的并行统计关键词所在文档数的核函数流程图

图14为本发明的输入特征向量与神经元的距离计算示意图

图15为本发明的计算输入特征向量与神经的距离核函数流程图

图16为本发明的数据做差运算示意图。

图17为本发明的误差矩阵按行或列求和运算示意图。

图18为本发明的误差矩阵按行或列求和的核函数流程图

具体实施方式

下面结合具体实施例，对本发明技术方案进一步说明。

如图1所示，本发明的具体实施方式是：提供一种基于图形处理单元的并行化自组织映射神经网络聚类方法，包括如下步骤：

步骤1：并行关键词词频统计，即：将文本内容进行分词并得到关键词的集合；针对大规模文本数据，图形处理设备的大规模计算单元能够为每一个文本文档提供一个线程并行统计文档中关键词的频率，得到词频矩阵。

具体实施过程如下：计算机并不具有人类的智能，人在阅读文章后，根据自身的理解能力可以产生对文章内容的模糊认识，而计算机并不能轻易地“读懂”文章，从根本上说，它只认识0和1，所以必须将文本转换为计算机可以识别的格式。目前，在信息处理方向上，文本的表示主要采用向量空间模型(Vectorspace model,简称“VSM”)。向量空间模型的基本思想是以向量来表示文本：(X₁,X₂,...X_n)，其中X_j为第j个特征项的权重，那么选取什么作为特征项呢？一般可以选择字或词，根据实验结果，普遍认为选取词作为特征项要优于字和词组。因此，要将文本表示为以词为单位的向量空间模型，首先要将文本分词，以分词后的词作为向量空间中的维度来表示文本。对文档内容进行分词处理后，再进行去噪处理，得到文本对应的关键词集合。

并行关键词词频统计是针对每篇文档分词，去噪后，统计在该文档中关键词出现的频率，然后形成整个数据集的词频矩阵。由于统计每篇文档的关键词词频的过程相互独立，可以为每篇文档在图形处理单元上开一个线程，从而达到计算的高度并行性,如图2。词频矩阵的一行代表一篇文档，矩阵的一列代表一个关键词，行列的交叉值代表某篇文档中某个关键词的出现频率。如果某关键词没有出现在某文档中，则在词频矩阵中，该值设为零。

步骤2：并行特征向量计算，即：通过图形处理单元并行计算，把关键词词频矩阵转化为对应的特征向量矩阵。每个特征向量代表一个文本文档。

具体实施过程如下：根据关键词词频矩阵，并行计算文档对应的特征向量，生成特征向量矩阵，特征向量的一行代表一篇文档，特征向量的一列代表一个特征，行与列交叉值为该文档某个特征的特征值。

本发明采用向量空间模型来描述文档，它只关注文档中出现的词，而不关注词的关系和文档的结构。在向量空间模型中，文档空间视为特征向量所构成的向量空间。一篇文档为向量空间里的一个特征向量，文档中的特征词可以看成向量空间模型中的维。特征向量记作d_i=(x_i1,x_i2,...,x_in),公式中x_ij代表词j在文档d_i中的权重。一种粗略的描述权重的方法即是用布尔值0或1来表示特征词在某篇文档中有没有出现过。tf*idf(term frequency*inverse documentfrequency)是一种常用的文档特征权重表示方法.这种权重计算方法主要考虑特征词的词频tf、逆文档频率idf和规格化因子。为保证聚类效果，本发明采用LTC权重作为特征词的权重，如下面公式所述

x_ij=log₂(tf_ij+1.0)*log(m/m_j)。

LTC权重公式是在tf*idf公式的基础上对词频tf的值取了对数，再次降低了词频tf对特征向量的影响，该公式在实际应用中更加合理。同时，由于不同的文档长度会对向量的权重值造成影响，所以需要对公式计算出的权重值做归一化处理，即：

x_{ij} = \frac{x_{ij}}{\sqrt{Σ_{p = 1}^{n} x_{ip}^{2}}} .

对于高维的文本数据，计算文本特征向量的每一维权重值非常耗时，所以本发明设计了并行的计算权重的方法，对权重计算过程进行加速。在计算LTC权重的时候，缺少m_j的值，即某个关键词在文档集合中出现的次数。在高维大规模数据集下，传统串行统计非常耗时，如图3。在得到m_j的值以后，针对每个文档的每个特征词计算权重，由于文本数据维度非常高，如果使用传统的串行算法，时间复杂度也很高。得到权重向量后，对权重向量进行归一化的过程，需要计算每个向量的长度，然后对每个权重进行归一化处理，整个过程也需要耗费大量时间。因此，本发明对上述特征向量权重计算过程中三个非常耗时的部分进行了在图形处理单元环境下的并行设计，其并行特征向量的计算过程如图4。

(1)多线程并行统计每个关键词在文档集合中出现的文档频度m_j

针对每一个特征词需要统计相应的m_j的值，用于后续权重值的计算。我们把该问题转换为对词频矩阵的每一列进行非零值的计数统计，其计算方式如下

m_{j} = Σ_{i = 0}^{m} x_{ij},

其中

x_{ij} = \{\begin{matrix} 0, & {tf}_{ij = 0} \\ 1, & {tf}_{ij} > 0, \end{matrix}

其中m为数据集中文档的数目。上述公式即统计m_j的计算公式，当词频数为零时，说明该特征词没有出现在该对应的文档中，则不参与计数；当特征词的词频大于零时，说明该词出现在文档里，m_j计数加一。由于每个特征词的m_j值是独立统计的，针对矩阵形式的数据，可以采用多线程的实现方案，能够充分利用图形处理单元的并行处理能力实现该过程加速。图5为并行关键词所在文档数统计示意图。

(2)多线程并行计算特征矩阵

在该阶段的计算过程中，输入为词频矩阵和m_j的值，输出为特征矩阵如图6所示。特征矩阵的计算公式如下

x_ij=log₂(tf_ij+1.0)*log(m/m_j)。

图6为多线程并行计算特征矩阵的示意图,如果文档的数量为m篇，特征词的维度为n维，则该计算公式的执行频度为m*n次。对于文档集合规模庞大，文本维度高的应用场景，特征矩阵的计算量非常大，所以本文对此运算设计并行的多线程执行方法进行加速。由于每个特征向量的计算过程相互独立，每个线程负责一个特征向量的计算过程，多个线程并发执行，提高特征矩阵的计算速度。

(3)多线程特征矩阵归一化

上述特征矩阵计算过程结束后会得到文档的每个关键词的特征值，由于文档的长度不同，长度较长的文档特征向量可能会对其他文档的特征向量有明显的抑制作用，所以采用对特征向量进行归一化的方法来均衡特征向量。特征向量归一化的公式如下

x_{ij} = \frac{x_{ij}}{\sqrt{Σ_{p = 1}^{n} x_{ip}^{2}}} .

该公式代表将文档中的每一个特征词权重值除以该文档对应特征向量模的平方，以均衡化向量。对归一化向量的运算，本发明设计采用两个在图形处理单元上核函数来实现，一个核函数负责计算向量的模的值，另一个核函数负责对权重的归一化计算。

图7为向量模的多线程计算示意图，图中一条虚线代表一个线程，线程的功能是对特征矩阵一行的元素平方值进行加和，得到一个文档特征向量模值的平方。所有的线程计算完毕后，我们就会得到每个文档特征向量模值的平方，用于后续的归一化操作。假如不使用图形处理单元进行多线程并行加速，求模运算的时间复杂度是O(m*n)，m代表文档的数量，n代表文档特征向量的维数。改进后在GPU上并行运行的算法时间复杂度为O(n)。

得到了每篇文档的特征向量的模以后，需要再针对权重矩阵做权重归一化处理。对于矩阵中的每个元素需要除以对应的文档特征向量模的平方，对于此类矩阵问题，同样适合于使用图形处理单元的多线程来加速算法运行的效率。图8为多线程归一化示意图，图8中一条虚线代表一个线程，所有的线程计算完毕后，得到最终归一化后的文档特征向量，用于后续聚类操作。假如不使用图形处理单元进行多线程并行加速，该过程的时间复杂度是O(m*n)，m代表文档的数量，n代表文档特征向量的维数。改进后在图形处理单元上并行运行的算法时间复杂度为O(1)。

步骤3：并行SOM文本聚类，即：根据特征向量矩阵设计SOM网络结构，初始化SOM网络，通过图形处理单元并行计算输入样本与全部输出神经元权向量距离,比较各个距离的大小，获取最小距离的最佳神经元，通过更新最佳神经元、邻域内的神经元权向量值、学习率及最佳神经元J的邻域大小，然后通过图形处理单元并行计算网络误差率E_t，若网络误差率E_t<=目标误差ε或迭代次数t>=训练最大迭代次数T,则SOM网络训练结束，否则重新进行新一轮训练；每次学习的结果使得最佳匹配神经元的邻域区域向输入数据向量值靠近，把距离相近的输入特征向量聚集成同一个簇，形成的簇集合即为最终的聚类结果。

具体实施过程如下：

SOM网络是模拟人脑的神经网络模型，它最重要的一个特性是自组织性，即对外部的输入网络中的神经元会自动的调整连接权重，相应的神经元聚集形成对外部的响应。SOM网络就是模拟脑细胞的这种自组织特性来实现聚类、识别、排序、拓扑不变性映射等。SOM网络中的神经元节点可以接受其他神经元的输入数据，也可以向其他的神经元输出数据。经过训练后的SOM网络会对外部输入模式形成自己的概念模式。SOM适合处理非线性、不确定性的数据。

SOM网络是一种无监督的学习网络，由输入层和输出层两层构成。输入层计算输入向量与权向量的距离，该距离反映匹配程度，所以输入层又被称为匹配层。输出层也叫竞争层，各个神经元根据匹配程度进行竞争，匹配程度大的神经元称为获胜神经元，获胜的神经元以及其邻域内的神经元的权重向量会向输入向量更近的方向更新，经过多次反复的迭代竞争更新，最终形成稳定的网络，神经元保存相应的权向量。后续可以使用训练完成的网络进行聚类和空间映射等操作。SOM网络的训练过程就是一个自组织学习的过程，训练分为两个部分：最佳匹配神经元的筛选和网络权向量的更新。常见的SOM网络的输入层神经元一维排列，输出层神经元为二维排列，拓扑结构如图9所示。

SOM网络使用自组织映射的学习方式，该学习方式属于无监督学习，每次学习的结果使得最佳匹配神经元的邻域区域向输入数据向量值靠近，这样就可以把距离相近的输入向量聚集到一起，形成聚类。经过大规模训练后的SOM网络，神经元之间的连接权重能够代表输入模式的特征，把具有相近模式的输入向量归并为一类，就完成了SOM网络的自动聚类过程。SOM算法的核心过程是最佳匹配神经元的筛选和神经元邻域内权重的更新。筛选最佳匹配神经元根据所有神经元与输入向量之间的距离，距离最小的即为最佳匹配神经元；神经元间连接权重的自组织调整是根据最佳匹配神经元调整其邻域内各个神经元的权重值。SOM网络每学习一次就对输入向量进行一次自组织适应过程，强化新的匹配模式的映射，弱化旧的模式映射。在传统的串行SOM聚类算法中，有两个步骤花费了80%的算法运行时间：(1)计算输入样本与全部输出神经权向量距离,比较各个距离的大小，获取最小距离的最佳神经元;(2)计算相邻两次迭代的网络误差率E_t。因此本发明针对以上两个特征，设计了一种基于图形处理单元的并行SOM聚类算法。并行SOM算法的逻辑流程描述如下：

Step1：假设输入样本为m个，每个输入样本的维度为n维。设计SOM网络结构，确定输入层神经元的个数为n个，输出层神经元为k个，训练最大迭代次数T和目标误差ε。

Step2：初始化SOM网络，包括初始化神经元之间连接权重向量W₀=(W₁₀,W₂₀,...,W_k0)，学习率α_i(0)∈(0,1)，邻域大小N_i(0),i∈{1,2,...,n}，迭代计数器t=1。

Step3：并行计算输入样本X_i与全部输出神经元权向量W_j距离d_j，公式如下

d_{j} = | | X_{i} - W_{j, t - 1} | | = \sqrt{Σ_{p = 1}^{n} {(x_{ip} - w_{jp, t - 1})}^{2}} . - - - (2 - 1)

Step4：比较各个距离的大小，具有最小距离的神经元即为最佳神经元J。

Step5：更新最佳神经元J极其邻域N_j(t-1)内的神经元的权向量值

W_j,t=W_j,t-1+α_i(t-1)(X_i-W_j,t-1)。 (2-2)

Step6：更新学习率α_j(t)及最佳神经元J的邻域大小N_j(t)。学习率的修正公式如下

α_i(t)=α_i(0)(1-t/T)。 (2-3)

设竞争层神经元g在二维列中的坐标值为(X_g,Y_g)，则邻域的范围为一正方形区域，正方形的右上角顶点坐标为(X_g+N_j(t),Y_g+N_j(t))，正方形的左下角顶点坐标为(X_g-N_j(t),Y_g-N_j(t))，邻域的修正公式如下

N_j(t)=INT[N_j(0)·(1-t/T)]， (2-4)

其中,INT[X]表示对X取整操作。

Step7：并行计算神经元相邻两次迭代的误差，如公式如下

E_{t} = | | W_{t} - W_{t - 1} | | = Σ_{i = 1}^{k} | | W_{i, t} - W_{i, t - 1} | | . - - - (2 - 5)

Step8：若E_t<=ε或t>=T,即SOM网络收敛于期望误差率或达到最大迭代次数，则SOM网络训练结束，否则转向Step3进行新一轮训练。每次学习的结果使得最佳匹配神经元邻域内的神经元权重向输入数据向量值靠近，把距离相近的输入特征向量聚集到一起，形成文本簇。

如图10、图11所示，本发明的具体实施方式是：构建一种基于图形处理单元的自组织映射神经网络聚类***，其特征在于，包括硬件部分和软件部分，硬件部分：采用CPU/GPU协作框架设计，串行执行代码运行在CPU上，并行执行代码运行在GPU上，通过GPU提供的数据传输方式来交换显存与内存之间的数据；软件部分分为三个模块，包括并行化关键词词频统计模块、并行化特征向量计算模块、并行化SOM聚类模块，单元、计算特征向量的特征向量计算单元、进行文本聚类的文本聚类单元，所述并行化关键词词频统计模块将文本内容进行分词并得到关键词的集合，并行统计文档中关键词的频率，得到词频矩阵；所述并行化特征向量计算模块把关键词词频矩阵转化为对应的特征向量矩阵，每个特征向量代表一个文档；所述并行化SOM聚类模块根据特征向量矩阵设计SOM网络结构，初始化SOM网络，并行计算输入样本与全部输出神经元权向量距离,比较各个距离的大小，获取最小距离的最佳神经元J，通过更新最佳神经元、其邻域内的神经元权向量值、学习率及最佳神经元的邻域大小，然后通过图形处理单元并行计算网络误差率E_t，若网络误差率E_t<=目标误差ε或迭代次数t>=训练最大迭代次数T,则SOM网络训练结束，否则重新进行新一轮训练；每次学习的结果使得最佳匹配神经元的邻域区域向输入数据向量值靠近，把距离相近的输入特征向量聚集成同一个簇，形成的簇集合即为最终的聚类结果。

具体聚类过程如下：本发明基于图形处理单元的并行自组织映射神经网络聚类***采用CPU/GPU框架的设计，如图10为***的硬件框架,CPU控制***的调度，给图形处理单元分配任务，为图形处理单元准备运行空间等，图形处理单元在CPU准备好的环境下，并行执行计算任务。图11为SOM聚类的软件协作框架,***利用统一计算设备架构(Compute Unified Device Architecture，简称“CUDA”）编程平台对SOM算法应用于文本数据聚类过程进行加速。

在基于CPU/GPU协作框架的设计中，通过对CPU和GPU的协作任务进行合理的分配和框架设计，充分利用CPU和GPU的各自优势，为算法进行加速。本***将其任务分为两部分来进行分配，一部分是在CPU上具有明显运行优势的任务，一部分是在图形处理单元上明显具有运行优势的任务。适合在CPU上运行的任务主要包括：SOM网络的初始化，数据的I/O操作，算法逻辑流程的控制，核函数的调用。适合在图形处理单元上运行的任务主要是数据运算类任务包括：并行词频统计，并行特征向量计算，输入样本与神经元的距离计算，网络权重的误差计算。

在***软件方面,主要通过为各模块设计核函数来实现算法的加速运行。在并行词频统计模块中，***设计一个核函数，该核函数为每一文档在图形处理单元上分配一个线程，共开启m个线程，m为文档数，统计出每个关键词在文档中出现的频率,其核函数的计算流程为图12。

在并行特征向量计算模块中，***为该模块设计了三个核函数以处理算法中比较耗时的三个部分：(1)计算关键词所在文档数核函数，如图4,为该核函数开启n个线程，n为关键词得数目，其核函数的计算流程如图13；(2)计算文档特征向量核函数，如图6,为该核函数开启m乘n个线程，其计算公式为

x_ij=log₂(tf_ij+1.0)*log(m/m_j)。

(3)由于在实际运用中，每篇的文档的长度可能相差很大，为了克服这个问题，在该模块中设计了两个核函数来归一化文档特征向量，分别为：计算每一个特征向量的模的核函数，如图7,为该核函数开启m个线程；归一化特征向量的核函数，如图8,为该核函数开启m乘n个线程。

并行SOM聚类模块的具体流程如图11。经过对串行SOM算法的执行逻辑流程进行分析，发现串行SOM算法的大规模运算模块有两部分：一部分是SOM网络在接收到新的输入向量后，计算输入向量到每个输出神经元的距离，从中选择出具有最近距离的突然神经元作为最优神经元的模块；一部分是计算神经元的相邻两次迭代的网络误差，与算法预设可接受误差率对比的模块。这两部分都是CPU不擅长的大规模的浮点数运算，如果计算过程采用串行执行，算法在这两部分上消耗的时间占据了算法运行时间的80%以上，所以模块三中为这两个部分设计了三个核函数来加快算法执行的速度，提高算法执行效率。针对以上两个部分,***设计了两个在图形处理单元上运行的子模块。

(1)并行运算寻找最佳神经元子模块。最佳神经元即是离输入模式向量最近的神经元，这就需要算法在接收到一个输入模式向量时，计算该向量与网络中每个神经元的距离。神经元与输入向量距离对应的计算公式如下

d_{j} = | | X_{i} - W_{j, t - 1} | | = \sqrt{Σ_{p = 1}^{n} {(x_{ip} - w_{jp, t - 1})}^{2}} .

鉴于所有的距离在计算过程中均需要做开方处理，公式可简化为

d_{j} = | | X_{i} - W_{j, t - 1} | | = Σ_{p = 1}^{n} {(x_{ip} - w_{jp, t - 1})}^{2} .

距离公式计算步骤简单，但当SOM网络的神经元数量较多、输入样本的维度较大、输入样本数量较多时，运算量十分庞大。当样本维度为n，神经元数量为k，算法迭代运行次数为T次时，该公式中差值运算执行的频度为k*n*T，所以对该公式进行算法并行执行改进对程序的性能提升非常有效。在这个子模块中,***设计一个核函数来计算输入特征向量与网络中每个神经元的距离,可以充分利用图形处理单元的并行运算性能，加快算法的执行速度。

如图14所示，为方便对串行程序做并行化改进设计，下面对距离计算问题做矩阵意义上的描述。定义神经元权重矩阵与输入模式向量的距离运算为，神经元权重矩阵W为k*n的矩阵，其中k为输出神经元的数量，n为输入模式向量的维度，输入模式向量x_k为维度为n的向量，距离运算结果d_j为维度为k的向量。为了加速算法的运行，***可以同时启动k个线程并行计算，其核函数的计算流程如图15。

(2)并行计算相邻两轮的网络权重的误差子模块。SOM网络指标E_t代表的意义即网络的当前权重值与上一轮训练完毕时的权重值的差。如果E_t的值小于算法初始化前定义的误差率，说明SOM网络在迭代训练时，各个神经元的权重值已经不再发生大规模的变化，认为网络已经收敛于某种状态，网络训练完毕。判断当前SOM网络是否已经训练到误差允许范围内的公式如下

E_{t} = | | W_{t} - W_{t - 1} | | = Σ_{i = 1}^{k} | | W_{i, t} - W_{i, t - 1} | | .

通过观察和分析上述计算公式，发现该公式即两个矩阵做差运算的一种变形。这种大规模的矩阵运算在CPU上串行执行速度远远落后于在图形处理单元上并行执行速度，所以本子模块中，将网络的误差计算设计成一个在图形处理单元上运行的核函数，来实现算法的加速。同时，在计算网络误差和时，为了加速算法运行，***采用按行或列并行计算网络误差。因此，在本子模块中，我们还要设计一个核函数并行计算网络误差。

如图16所示，对于计算SOM网络误差率的计算子模块，将其划分为两步图形处理单元上并行运算，第一部分为两矩阵做差运算，即W_t-W_t-1=E_t运算，第二部分为矩阵内每个元素的绝对值和的规约部分。两部分都使用图形处理单元进行加速。图16中,W_t-W_t-1=E_t。可以设计一个核函数计算该矩阵的差，***为该核函数开启m乘n个线程，每一个线程计算两个神经元的欧氏距离。

通常上述做差运算并不是我们最终想要的结果，我们需要继续对C矩阵各行的元素进行绝对值加和，得到一个n维的向量，最后通过CPU上的串行运算，将向量中的值进行累加，得到最终SOM网络的实际改变量与误差率进行对比，若大于误差率则继续下一轮训练，若小于误差率则停止训练，证明网络已经一定程度收敛。对矩阵的加和需要两步，按行或列求和，然后第一步的结果再求和，运算过程见如图17所示。***可以设计一个核函数并行计算第一步，同时为该核函数开启n个线程，其核函数的计算流程如图18。

注意图17中的矩阵元素值求和生成n*1维向量的运算不一定是按照行进行的规约，也可以按列进行规约，这取决于实际应用中行数和列数的大小关系。如果矩阵行数远远大于列数，则按行进行规约，因为按行进行规约可以一次开启更多的并行线程。反之，如果矩阵的列数远远大于行的数量，则需要按列进行规约。

针对上述运算过程需要维护几种相应的数据结构：存储SOM网络神经元权重值的二维矩阵W、训练样本矩阵X、距离向量D。由于需要计算E_t值，故需要保存上一轮的SOM网络神经元权重值的二维矩阵。

本发明的基于图形处理单元的并行自组织映射神经网络聚类方法及***,设计了一种并行化的SOM文本聚类算法。同时，利用图形处理单元(GPU)和中央处理器(CPU)之间的计算能力的互补性，本发明设计了一套基于CPU/GPU协作框架的并行化文本聚类***。***硬件部分设计为CPU/GPU协作框架，软件部分设计分三个模块:并行词频统计模块，并行特征向量计算模块和并行SOM算法聚类模块。本发明的基于图形处理单元的自组织映射神经网络的文本聚类，可以充分利用图形处理设备的高并行性，有效的提高算法的聚类速度，非常适合于处理高维文本数据的聚类问题。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于图形处理单元的并行化自组织映射神经网络聚类方法，包括如下步骤：

并行特征向量计算：把关键词词频矩阵转化为对应的特征向量矩阵，每个特征向量代表一个文档；

并行SOM聚类：根据特征向量矩阵设计SOM网络结构，初始化SOM网络，并行计算输入样本与全部输出神经元权向量距离, 比较各个距离的大小，获取最小距离的最佳神经元J，通过更新最佳神经元、其邻域内的神经元权向量值、学习率及最佳神经元的邻域大小，然后通过图形处理单元并行计算网络误差率E_t，若网络误差率E_t<=目标误差ε或迭代次数t>=训练最大迭代次数T,则SOM网络训练结束，否则重新进行新一轮训练；每次学习的结果使得最佳匹配神经元的邻域区域向输入数据向量值靠近，把距离相近的输入特征向量聚集成同一个簇，形成的簇集合即为最终的聚类结果。

2.根据权利要求1所述基于图形处理单元的自组织映射神经网络聚类方法，其特征在于，在获取文档的关键词词频步骤中，采用基于图形处理单元的多线程并行统计词频。

3.根据权利要求1所述基于图形处理单元的自组织映射神经网络聚类方法，其特征在于，在并行特征向量计算步骤中，采用基于图形处理的的多线程并行计算每个文档的特征向量。

4.根据权利要求1所述基于图形处理单元的自组织映射神经网络聚类方法，其特征在于，输入特征向量与每个输出神经元权向量距离的计算过程相互独立，采用基于图形处理的多个线程并行计算输入特征向量与每个输出神经元向量的距离，***为每个神经元开启一个线程，采用多线程并行计算。

5.根据权利要求1所述基于图形处理单元的自组织映射神经网络聚类方法，其特征在于，每个神经元相邻两次迭代的权向量误差的计算过程相互独立，采用基于图形处理的多个线程并行计算每个神经元的权向量误差，***为每个神经元开启一个线程，采用多线程并行计算。

6.一种基于图形处理单元的自组织映射神经网络聚类***，其特征在于，包括硬件部分和软件部分，硬件部分：采用CPU/GPU协作框架设计，串行执行代码运行在CPU上，并行执行代码运行在GPU上，通过GPU提供的数据传输方式来交换显存与内存之间的数据；软件部分分为三个模块，包括并行化关键词词频统计模块、并行化特征向量计算模块、并行化SOM聚类模块，单元、计算特征向量的特征向量计算单元、进行文本聚类的文本聚类单元，所述并行化关键词词频统计模块将文本内容进行分词并得到关键词的集合，并行统计文档中关键词的频率，得到词频矩阵；所述并行化特征向量计算模块把关键词词频矩阵转化为对应的特征向量矩阵，每个特征向量代表一个文档；所述并行化SOM聚类模块根据特征向量矩阵设计SOM网络结构，初始化SOM网络，并行计算输入样本与全部输出神经元权向量距离, 比较各个距离的大小，获取最小距离的最佳神经元J，通过更新最佳神经元、其邻域内的神经元权向量值、学习率及最佳神经元的邻域大小，然后通过图形处理单元并行计算网络误差率E_t，若网络误差率E_t<=目标误差ε或迭代次数t>=训练最大迭代次数T,则SOM网络训练结束，否则重新进行新一轮训练；每次学习的结果使得最佳匹配神经元的邻域区域向输入数据向量值靠近，把距离相近的输入特征向量聚集成同一个簇，形成的簇集合即为最终的聚类结果。

7.根据权利要求6所述基于图形处理单元的并行化自组织映射神经网络的聚类***，其特征在于，所述并行化关键词词频统计模块、所述并行化特征向量计算模块以及所述并行化SOM聚类模块中均设计了若干个核函数来并行加速算法的运行。

8. 根据权利要求6所述基于图形处理单元的并行化自组织映射神经网络的聚类***, 其特征在于，在并行关键词词频统计模块中，设计了一个用于关键词词频统计的核函数；在并行特征向量计算模块中，设计了两个用于特征向量计算的核函数和两个用于特征向量归一化的核函数。

9. 根据权利要求6所述基于图形处理单元的并行化自组织映射神经网络的聚类***, 其特征在于，在并行SOM聚类模块中，设计了一个用于计算输入特征向量与输出神经元的距离的核函数，一个用于计算每个神经元相邻两次迭代的网络权向量的误差的核函数和一个用于规约网络权向量的误差的核函数。