CN110389932A

CN110389932A - 电力文件自动分类方法及装置

Info

Publication number: CN110389932A
Application number: CN201910588345.6A
Authority: CN
Inventors: 徐小天; 李敏; 孙跃; 高冉馨
Original assignee: State Grid Corp of China SGCC; North China Electric Power Research Institute Co Ltd
Current assignee: State Grid Corp of China SGCC; North China Electric Power Research Institute Co Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2019-10-29
Anticipated expiration: 2039-07-02
Also published as: CN110389932B

Abstract

本申请提供一种电力文件自动分类方法及装置，方法包括：根据待分类电力文件生成语料集合、标题集合和词汇集合；基于词汇集合生成K维的输入向量；其中，K为词汇集合中词汇的数量；使用语料集合和标题集合并基于词嵌入的方式对输入向量进行训练，以使该K维的输入向量被压缩为C维的词向量；统计词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量；根据C维的词向量构造一矩阵并计算矩阵分别与各个待分类电力文件各自对应的向量的乘积；对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。本申请能够提高了分类效率和分类的准确率。

Description

电力文件自动分类方法及装置

技术领域

本发明涉及数据处理领域，具体涉及一种电力文件自动分类方法及装置。

背景技术

在电力生产和调试等类型的技术服务过程中，技术人员为实现资料储备和知识共享的目的，会随工作的进行产生大量的阶段性技术性报告。这些技术报告数量巨大，并且由于产生年代和作者的不同，所用的模板及命名规则上存在较大的区别；此外，由于产生年代的原因，上述技术报告往往保存在技术人员的个人电存储介质中，而在汇集过程中可能只标记了年份和作者，因此汇集后的大量报告大多数都缺少可以用于梳理分类的逻辑关系。

现有技术中，主要采用人工对报告进行分类的方法。在人工分类时，需要对大量报告逐一查看，从而确定每个报告的类别，实现对汇集后的大量报告的分类。

可见现有技术中，采用人工分类方法需要投入大量的人力，增加了分类成本，而且分类效率低。

发明内容

针对现有技术中的问题，本发明提供一种电力文件自动分类方法及装置，能够减少用户操作，提高了分类效率和分类的准确率。

为解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供一种电力文件自动分类方法，包括：

根据待分类电力文件生成语料集合、标题集合和词汇集合；其中，所述词汇集合是由待分类电力文件的各个标题中的关键词组成；

基于所述词汇集合生成K维的输入向量；其中，K为词汇集合中关键词的数量；

使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练，以使该K维的输入向量被压缩为C维的词向量；

统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量；

根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积；

对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。

进一步的，还包括：

分别计算各个类别中多个乘积结果的均值，以及分别在各个类别中确定与各个类别中的均值之间差值最小的各个乘积结果所对应的各个电力文件；

采用各个电力文件的标题的哈希值作为各个类别的标签。

进一步的，所述根据待分类电力文件生成语料集合、标题集合和词汇集合，包括：

提取待分类电力文件的标题、摘要和正文首段；

将提取的摘要和正文首段进行分句处理得到语料集合；

基于提取的标题得到标题集合以及对提取的标题进行分词处理得到各个标题中的关键词；

其中，词汇集合是由待分类电力文件的各个标题中的关键词组成。

进一步的，所述词嵌入的方式包括：Word2Vec和Glove中的至少一种。

进一步的，所述统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频，包括：

采用TF-IDF的方式计算词汇集合中各个关键词分别在各个待分类电力文件中的词频。

进一步的，所述聚类分析采用K-Means和高斯混合模型中的至少一种。

第二方面，本发明提供一种电力文件自动分类装置，包括：

集合单元，用于根据待分类电力文件生成语料集合、标题集合和词汇集合；其中，所述词汇集合是由待分类电力文件的各个标题中的关键词组成；

向量单元，用于基于所述词汇集合生成K维的输入向量；其中，K为词汇集合中关键词的数量；

训练单元，用于使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练，以使该K维的输入向量被压缩为C维的词向量；

词频单元，用于统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量；

矩阵单元，用于根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积；

分类单元，用于对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。

进一步的，还包括：

均值单元，用于分别计算各个类别中多个乘积结果的均值，以及分别在各个类别中确定与各个类别中的均值之间差值最小的各个乘积结果所对应的各个电力文件；

标题单元，用于采用各个电力文件的标题的哈希值作为各个类别的标签。

进一步的，所述集合单元包括：

提取子单元，用于提取待分类电力文件的标题、摘要和正文首段；

第一生成子单元，用于将提取的摘要和正文首段进行分句处理得到语料集合；

第二生成子单元，用于基于提取的标题得到标题集合以及对提取的标题进行分词处理得到各个标题中的关键词；

进一步的，所述词频单元包括：

词频子单元，用于采用TF-IDF的方式计算词汇集合中各个关键词分别在各个待分类电力文件中的词频。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的电力文件自动分类方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的电力文件自动分类方法的步骤。

由上述技术方案可知，本发明提供一种电力文件自动分类方法及装置，通过根据待分类电力文件生成语料集合、标题集合和词汇集合；其中，所述词汇集合是由待分类电力文件的各个标题中的关键词组成；基于所述词汇集合生成K维的输入向量；其中，K为词汇集合中词汇的数量；使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练，以使该K维的输入向量被压缩为C维的词向量；统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量；根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积；对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别，能够实现电力文件自动分类，避免了人工分类导致的分类效率低的问题，同时还降低了人工成本，还提高了分类效率和分类的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的电力文件自动分类方法装置的一种通信结构示意图。

图2为本发明的电力文件自动分类方法装置的另一种通信结构示意图。

图3为本发明实施例提供的一种电力文件自动分类方法的流程示意图。

图4为本发明实施例提供的另一种电力文件自动分类方法的流程示意图。

图5为本发明实施例提供的一种电力文件自动分类装置的结构示意图。

图6为本发明实施例提供的另一种电力文件自动分类装置的结构示意图。

图7为本发明实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了数据资料的有效保存和共享利用，电力行业的科研机构需要将电力报告按照业务类型、年份、服务对象(比如：电厂机组、变电站、新能源场站等)、设备型号等逻辑进行分类，使得相同类别的技术报告存在业务上的内在联系。由于报告数量巨大和上述命名规范等原因，通过人工对这些电力技术报告进行整理和分类成为一项困难的工作。

考虑到现有的人工分类方法需要投入大量的人力，增加了分类成本，而且分类效率低的问题。本发明提供一种电力文件自动分类方法、电力文件自动分类装置、电子设备及计算机可读存储介质，通过根据待分类电力文件生成语料集合、标题集合和词汇集合；其中，所述词汇集合是由待分类电力文件的各个标题中的关键词组成；基于所述词汇集合生成K维的输入向量；其中，K为词汇集合中词汇的数量；使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练，以使该K维的输入向量被压缩为C维的词向量；统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量；根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积；对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别，能够实现电力文件自动分类，避免了人工分类导致的分类效率低的问题，同时还降低了人工成本，还提高了分类效率和分类的准确率。

基于上述内容，本发明还提供一种电力文件自动分类装置，该装置可以为一种服务器A1，参见图1，该服务器A1可以与客户端设备B1通信连接，用户可以将待分类的电力文件及其他相关数据输入所述客户端设备B1，所述客户端设备B1可以在线将待分类的电力文件及其他相关数据发送至服务器A1，所述服务器A1可以在线接收所述客户端设备B1发送的待分类的电力文件及其他相关数据，而后离线或在线根据待分类的电力文件进行分类。而后，所述服务器A1在线将分类结果发送至所述客户端设备B1，使得用户经由所述客户端设备B1获知最终分类结果。

进一步来说，上述服务器A1还可以与一待分类的电力文件采集设备C1通信连接，参见图2，该待分类的电力文件采集设备C1可以直接自目标区域获取待分类的电力文件及其他相关数据，也可以与一数据库D1通信连接，自该数据库D1中获取对应的待分类的电力文件及其他相关数据。而后，所述待分类的电力文件采集设备C1将待分类的电力文件及其他相关数据发送至所述服务器A1。

可以理解的是，所述客户端设备B1可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

在实际应用中，进行电力文件自动分类的部分可以在如上述内容所述的服务器A1侧执行，即，如图1所示的架构，也可以所有的操作都在所述客户端设备B1中完成。具体可以根据所述客户端设备B1的处理能力，以及用户使用场景的限制等进行选择。本发明对此不作限定。若所有的操作都在所述客户端设备B1中完成，所述客户端设备B1还可以包括处理器，用于进行电力文件自动分类的具体处理。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。例如，通信单元可以将上述用户输入的待分类的电力文件及其他相关数据发送至服务器，以便服务器根据这些待分类的电力文件及其他相关数据进行电力文件自动分类。通信单元还可以接收服务器返回的分类看结果。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信，包括在本发明提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

为了能够有效提高了分类效率和分类的准确率，本发明提供一种电力文件自动分类方法的实施例，参见图3，所述电力文件自动分类方法具体包含有如下内容：

S101：根据待分类电力文件生成语料集合、标题集合和词汇集合；其中，所述词汇集合是由待分类电力文件的各个标题中的关键词组成；

在本步骤中，将电力文件库中的待分类电力文件进行提取，提取待分类电力文件的标题、摘要、正文首段；对提取的所有摘要、正文首段内容进行分句处理，获得的语料集合，语料集合记为S＝{s¹,s²,…,s^L}，各个待分类电力文件的标题形成标题集合，标题集合记为S_t＝{s_t ¹,s_t ²,…,s_t ^M}。

对提取的标题进行分词处理得到各个标题中的关键词，具体是将标题集合S_t作为分词器的输入，由分词器输出不重复的K个关键词，由K个关键词构成词汇集合W_t＝{w₁,w₂,…,w_K}。

需要说明的是，通过标题集合作为文章分类的依据，通过语料集合作为确定词汇间联系的训练用语料。进一步的，使用标题中出现过的关键词，作为电力文件分类的依据，使用摘要和正文首段中的分句作为确定词汇间联系的训练用语料。

本步骤通过分词器输出不重复的K个关键词的过程中，将剔除助词、量词等对分类无意义的高频词。

从上述描述可知，关键词仅来自电力文件的标题，使用的训练语料来自于电力文件的摘要和正文的关键部分，从而降低了词嵌入训练过程的计算量。

S102：基于所述词汇集合生成K维的输入向量；其中，K为词汇集合中关键词的数量；

在本步骤中，根据词汇集合W_t生成K维的输入向量，K维的输入向量为V_init(w_i)，记为V_init(w_i)＝[v_wi ¹,v_wi ²,…,v_wi ^K]^T，

其中，w_i为词汇集合W_t中的第i个关键词，i＝1,2,3,4,···,K，K为词汇集合中关键词的数量；v_wi ^j为第i个关键词的K维的输入向量中的第j个元素，j＝1,2,3,4,···,K，K为词汇集合中关键词的数量。

其中，若是j＝i，则v_wi ^j＝1；若是j≠i，v_wi ^j＝0。

S103：使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练，以使该K维的输入向量被压缩为C维的词向量；

使用所述语料集合和所述标题集合并基于统计或基于预测的词嵌入(WordEmbedding)的方式对输入向量进行训练，具体可以使用Word2Vec和Glove中的至少一种方式进行词嵌入。其中，Word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。GloVe是一种用于获得单词矢量表示的无监督学习算法。对来自语料库的聚合全局词-词共现统计进行训练，并且所得到的表示展示词向量空间的有趣线性子结构。

在本步骤中，训练完成后词汇集合W_t中的第i个关键词w_i将从V_init(w_i)的K维向量，被压缩至预先设置的维度C，得到C维的词向量V_c(w_i)。

需要说明的是，K维的输入向量被降维至C维的词向量，及K>C。

将获得的C维的词向量V_c(w_i)与原始词汇W_i一一对应。根据预置的C的值，原题目中的词汇w_i均被映射至一个相对较低维度的空间中。

S104：统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量；

在本步骤中，统计待分类电力文件中各个关键词分别在各个待分类电力文件中的词频，具体采用TF-IDF的方式统计关键词出现的相对词频。

可以理解的是，对第m份电力文件d_m，其中第i个关键词w_i出现的词频记为f_dm ⁱ，对于第m份电力文件d_m，都获得了一个K维的向量V_f(d_m)＝[f_dm ¹,f_dm ²,…,f_dm ^K]^T，该向量V_f表示全部标题关键词在该电力文件中的出现频率。

需要说明的是，TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。

从上述描述可知，通过使用词嵌入的方式得到的词向量的词频线性组合来表示电力文件，在保留词汇的相互联系的同时，可以有效降低电力文件向量化的计算成本，降低电力文件聚类的训练计算量。

S105：根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积；

在本步骤中，根据C维的词向量构造一矩阵M_w，矩阵M_w记为M_w＝[V_c(w₁),V_c(w₂),…,V_c(w_K)]，M_w为C×K维矩阵，C维的词向量与K维的输入向量的乘积。计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积，对第m份电力文件d_m，计算V_dm＝M_w V_f(d_m)，则V_dm为C维向量。

S106：对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。

在本步骤中，对各个电力文件的矩阵分别与各个待分类电力文件各自对应的向量的乘积进行聚类分析，聚类可以使用聚类分析采用K-Means和高斯混合模型中的至少一种算法，使用闵可夫斯基距离作为聚类中的向量距离并根据预先设置的类别数目H，将待分类电力文件划分为H个类别。通过改变数目H的值进行多次聚类，根据数目H的可接受上限和聚类的结果选取满足要求的数目H。

进一步的，具体使用闵可夫斯基距离作为聚类中的向量距离时，采用闵可夫斯基距离中：变参数为1时的曼哈顿距离、变参数为2时的欧氏距离和变参数趋近于无穷时的切比雪夫距离中的任意一种。

从上述描述可知，本发明实施例提供的一种电力文件自动分类方法，通过根据待分类电力文件生成语料集合、标题集合和词汇集合；其中，所述词汇集合是由待分类电力文件的各个标题中的关键词组成；基于所述词汇集合生成K维的输入向量；其中，K为词汇集合中词汇的数量；使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练，以使该K维的输入向量被压缩为C维的词向量；统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量；根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积；对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别，能够实现电力文件自动分类，避免了人工分类导致的分类效率低的问题，同时还降低了人工成本，还提高了分类效率和分类的准确率。

基于上述电力文件自动分类方法的实施例，本发明实施例提供另一种电力文件自动分类方法的实施例，参见图4，在上述电力文件自动分类方法的实施例的基础上，还包括：

S107：分别计算各个类别中多个乘积结果的均值，以及分别在各个类别中确定与各个类别中的均值之间差值最小的各个乘积结果所对应的各个电力文件；

S108：采用各个电力文件的标题的哈希值作为各个类别的标签。

在本实施例中，已经将待分类的电力文件归为了H类，计算每个类别中的多个乘积结果的均值V_mean，并使用欧氏距离计算与均值V_mean之间差值最小的乘积结果V_dm ^*，确定乘积结果V_dm ^*所对应的电力文件，使用该电力文件的标题的哈希值作为本类别的标签。由于各类别中距离该类均值的电力文件不同，因此各类别的标签不同，实现对已分类电力文件的类别命名。

从上述描述可知，本发明实施例提供的电力文件自动分类方法，可以根据电力文件关键词的词频、词序特征，有效的对大量无序化的电力文件进行聚类，实现电力文件自动分类，还使得每个聚类内部的电力文件在业务上相互关联。本实施例提供的电力文件自动分类方法，还能够避免了人工分类导致的分类效率低的问题，同时还降低了人工成本，还提高了分类效率和分类的准确率。

本发明实施例提供一种能够实现所述电力文件自动分类方法中全部内容的电力文件自动分类装置的具体实施方式，参见图5，所述电力文件自动分类装置具体包括如下内容：

集合单元10，用于根据待分类电力文件生成语料集合、标题集合和词汇集合；其中，所述词汇集合是由待分类电力文件的各个标题中的关键词组成；

向量单元20，用于基于所述词汇集合生成K维的输入向量；其中，K为词汇集合中关键词的数量；

训练单元30，用于使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练，以使该K维的输入向量被压缩为C维的词向量；

词频单元40，用于统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量；

矩阵单元50，用于根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积；

分类单元60，用于对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。

进一步的，参见图6，在上述电力文件自动分类装置的基础上，还包括：

均值单元70，用于分别计算各个类别中多个乘积结果的均值，以及分别在各个类别中确定与各个类别中的均值之间差值最小的各个乘积结果所对应的各个电力文件；

标题单元80，用于采用各个电力文件的标题的哈希值作为各个类别的标签。

进一步的，所述集合单元10包括：

进一步的，所述词频单元40包括：

本发明提供的电力文件自动分类装置的实施例具体可以用于执行上述实施例中的电力文件自动分类方法的实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

从上述描述可知，本发明实施例提供的电力文件自动分类装置，通过根据待分类电力文件生成语料集合、标题集合和词汇集合；其中，所述词汇集合是由待分类电力文件的各个标题中的关键词组成；基于所述词汇集合生成K维的输入向量；其中，K为词汇集合中词汇的数量；使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练，以使该K维的输入向量被压缩为C维的词向量；统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量；根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积；对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别，能够实现电力文件自动分类，避免了人工分类导致的分类效率低的问题，同时还降低了人工成本，还提高了分类效率和分类的准确率。

本发明的实施例还提供能够实现上述实施例中的电力文件自动分类方法中全部步骤的一种电子设备的具体实施方式，参见图7，所述电子设备具体包括如下内容：

处理器(processor)601、存储器(memory)602、通信接口(CommunicationsInterface)603和总线604；

其中，所述处理器601、存储器602、通信接口603通过所述总线604完成相互间的通信；所述处理器601用于调用所述存储器602中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的电力文件自动分类方法中的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：根据待分类电力文件生成语料集合、标题集合和词汇集合；其中，所述词汇集合是由待分类电力文件的各个标题中的关键词组成；基于所述词汇集合生成K维的输入向量；其中，K为词汇集合中词汇的数量；使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练，以使该K维的输入向量被压缩为C维的词向量；统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量；根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积；对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。

本发明的实施例还提供能够实现上述实施例中的电力文件自动分类方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的电力文件自动分类方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：根据待分类电力文件生成语料集合、标题集合和词汇集合；其中，所述词汇集合是由待分类电力文件的各个标题中的关键词组成；基于所述词汇集合生成K维的输入向量；其中，K为词汇集合中词汇的数量；使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练，以使该K维的输入向量被压缩为C维的词向量；统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量；根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积；对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。

虽然本发明提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书的实施例可提供为方法、***或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种电力文件自动分类方法，其特征在于，包括：

2.根据权利要求1所述的电力文件自动分类方法，其特征在于，还包括：

采用各个电力文件的标题的哈希值作为各个类别的标签。

3.根据权利要求1或2所述的电力文件自动分类方法，其特征在于，所述根据待分类电力文件生成语料集合、标题集合和词汇集合，包括：

提取待分类电力文件的标题、摘要和正文首段；

将提取的摘要和正文首段进行分句处理得到语料集合；

4.根据权利要求1或2所述的电力文件自动分类方法，其特征在于，所述词嵌入的方式包括：Word2Vec和Glove中的至少一种。

5.根据权利要求1或2所述的电力文件自动分类方法，其特征在于，所述统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频，包括：

6.根据权利要求1或2所述的电力文件自动分类方法，其特征在于，所述聚类分析采用K-Means和高斯混合模型中的至少一种。

7.一种电力文件自动分类装置，其特征在于，包括：

8.根据权利要求7所述的电力文件自动分类装置，其特征在于，还包括：

9.根据权利要求7或8所述的电力文件自动分类装置，其特征在于，所述集合单元包括：

10.根据权利要求7或8所述的电力文件自动分类装置，其特征在于，所述词频单元包括：

11.根据权利要求7或8所述的电力文件自动分类装置，其特征在于，所述词嵌入的方式包括：Word2Vec和Glove中的至少一种。

12.根据权利要求7或8所述的电力文件自动分类装置，其特征在于，所述聚类分析采用K-Means和高斯混合模型中的至少一种。

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6任一项所述的电力文件自动分类方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6任一项所述的电力文件自动分类方法的步骤。