CN110389932A - 电力文件自动分类方法及装置 - Google Patents

电力文件自动分类方法及装置 Download PDF

Info

Publication number
CN110389932A
CN110389932A CN201910588345.6A CN201910588345A CN110389932A CN 110389932 A CN110389932 A CN 110389932A CN 201910588345 A CN201910588345 A CN 201910588345A CN 110389932 A CN110389932 A CN 110389932A
Authority
CN
China
Prior art keywords
electric power
sorted
vector
title
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910588345.6A
Other languages
English (en)
Other versions
CN110389932B (zh
Inventor
徐小天
李敏
孙跃
高冉馨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
North China Electric Power Research Institute Co Ltd
Original Assignee
State Grid Corp of China SGCC
North China Electric Power Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, North China Electric Power Research Institute Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201910588345.6A priority Critical patent/CN110389932B/zh
Publication of CN110389932A publication Critical patent/CN110389932A/zh
Application granted granted Critical
Publication of CN110389932B publication Critical patent/CN110389932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • G06F16/152File search processing using file content signatures, e.g. hash values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种电力文件自动分类方法及装置,方法包括:根据待分类电力文件生成语料集合、标题集合和词汇集合;基于词汇集合生成K维的输入向量;其中,K为词汇集合中词汇的数量;使用语料集合和标题集合并基于词嵌入的方式对输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;统计词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;根据C维的词向量构造一矩阵并计算矩阵分别与各个待分类电力文件各自对应的向量的乘积;对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。本申请能够提高了分类效率和分类的准确率。

Description

电力文件自动分类方法及装置
技术领域
本发明涉及数据处理领域,具体涉及一种电力文件自动分类方法及装置。
背景技术
在电力生产和调试等类型的技术服务过程中,技术人员为实现资料储备和知识共享的目的,会随工作的进行产生大量的阶段性技术性报告。这些技术报告数量巨大,并且由于产生年代和作者的不同,所用的模板及命名规则上存在较大的区别;此外,由于产生年代的原因,上述技术报告往往保存在技术人员的个人电存储介质中,而在汇集过程中可能只标记了年份和作者,因此汇集后的大量报告大多数都缺少可以用于梳理分类的逻辑关系。
现有技术中,主要采用人工对报告进行分类的方法。在人工分类时,需要对大量报告逐一查看,从而确定每个报告的类别,实现对汇集后的大量报告的分类。
可见现有技术中,采用人工分类方法需要投入大量的人力,增加了分类成本,而且分类效率低。
发明内容
针对现有技术中的问题,本发明提供一种电力文件自动分类方法及装置,能够减少用户操作,提高了分类效率和分类的准确率。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种电力文件自动分类方法,包括:
根据待分类电力文件生成语料集合、标题集合和词汇集合;其中,所述词汇集合是由待分类电力文件的各个标题中的关键词组成;
基于所述词汇集合生成K维的输入向量;其中,K为词汇集合中关键词的数量;
使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;
统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;
根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积;
对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。
进一步的,还包括:
分别计算各个类别中多个乘积结果的均值,以及分别在各个类别中确定与各个类别中的均值之间差值最小的各个乘积结果所对应的各个电力文件;
采用各个电力文件的标题的哈希值作为各个类别的标签。
进一步的,所述根据待分类电力文件生成语料集合、标题集合和词汇集合,包括:
提取待分类电力文件的标题、摘要和正文首段;
将提取的摘要和正文首段进行分句处理得到语料集合;
基于提取的标题得到标题集合以及对提取的标题进行分词处理得到各个标题中的关键词;
其中,词汇集合是由待分类电力文件的各个标题中的关键词组成。
进一步的,所述词嵌入的方式包括:Word2Vec和Glove中的至少一种。
进一步的,所述统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频,包括:
采用TF-IDF的方式计算词汇集合中各个关键词分别在各个待分类电力文件中的词频。
进一步的,所述聚类分析采用K-Means和高斯混合模型中的至少一种。
第二方面,本发明提供一种电力文件自动分类装置,包括:
集合单元,用于根据待分类电力文件生成语料集合、标题集合和词汇集合;其中,所述词汇集合是由待分类电力文件的各个标题中的关键词组成;
向量单元,用于基于所述词汇集合生成K维的输入向量;其中,K为词汇集合中关键词的数量;
训练单元,用于使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;
词频单元,用于统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;
矩阵单元,用于根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积;
分类单元,用于对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。
进一步的,还包括:
均值单元,用于分别计算各个类别中多个乘积结果的均值,以及分别在各个类别中确定与各个类别中的均值之间差值最小的各个乘积结果所对应的各个电力文件;
标题单元,用于采用各个电力文件的标题的哈希值作为各个类别的标签。
进一步的,所述集合单元包括:
提取子单元,用于提取待分类电力文件的标题、摘要和正文首段;
第一生成子单元,用于将提取的摘要和正文首段进行分句处理得到语料集合;
第二生成子单元,用于基于提取的标题得到标题集合以及对提取的标题进行分词处理得到各个标题中的关键词;
其中,词汇集合是由待分类电力文件的各个标题中的关键词组成。
进一步的,所述词频单元包括:
词频子单元,用于采用TF-IDF的方式计算词汇集合中各个关键词分别在各个待分类电力文件中的词频。
进一步的,所述词嵌入的方式包括:Word2Vec和Glove中的至少一种。
进一步的,所述聚类分析采用K-Means和高斯混合模型中的至少一种。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的电力文件自动分类方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的电力文件自动分类方法的步骤。
由上述技术方案可知,本发明提供一种电力文件自动分类方法及装置,通过根据待分类电力文件生成语料集合、标题集合和词汇集合;其中,所述词汇集合是由待分类电力文件的各个标题中的关键词组成;基于所述词汇集合生成K维的输入向量;其中,K为词汇集合中词汇的数量;使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积;对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别,能够实现电力文件自动分类,避免了人工分类导致的分类效率低的问题,同时还降低了人工成本,还提高了分类效率和分类的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的电力文件自动分类方法装置的一种通信结构示意图。
图2为本发明的电力文件自动分类方法装置的另一种通信结构示意图。
图3为本发明实施例提供的一种电力文件自动分类方法的流程示意图。
图4为本发明实施例提供的另一种电力文件自动分类方法的流程示意图。
图5为本发明实施例提供的一种电力文件自动分类装置的结构示意图。
图6为本发明实施例提供的另一种电力文件自动分类装置的结构示意图。
图7为本发明实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了数据资料的有效保存和共享利用,电力行业的科研机构需要将电力报告按照业务类型、年份、服务对象(比如:电厂机组、变电站、新能源场站等)、设备型号等逻辑进行分类,使得相同类别的技术报告存在业务上的内在联系。由于报告数量巨大和上述命名规范等原因,通过人工对这些电力技术报告进行整理和分类成为一项困难的工作。
考虑到现有的人工分类方法需要投入大量的人力,增加了分类成本,而且分类效率低的问题。本发明提供一种电力文件自动分类方法、电力文件自动分类装置、电子设备及计算机可读存储介质,通过根据待分类电力文件生成语料集合、标题集合和词汇集合;其中,所述词汇集合是由待分类电力文件的各个标题中的关键词组成;基于所述词汇集合生成K维的输入向量;其中,K为词汇集合中词汇的数量;使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积;对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别,能够实现电力文件自动分类,避免了人工分类导致的分类效率低的问题,同时还降低了人工成本,还提高了分类效率和分类的准确率。
基于上述内容,本发明还提供一种电力文件自动分类装置,该装置可以为一种服务器A1,参见图1,该服务器A1可以与客户端设备B1通信连接,用户可以将待分类的电力文件及其他相关数据输入所述客户端设备B1,所述客户端设备B1可以在线将待分类的电力文件及其他相关数据发送至服务器A1,所述服务器A1可以在线接收所述客户端设备B1发送的待分类的电力文件及其他相关数据,而后离线或在线根据待分类的电力文件进行分类。而后,所述服务器A1在线将分类结果发送至所述客户端设备B1,使得用户经由所述客户端设备B1获知最终分类结果。
进一步来说,上述服务器A1还可以与一待分类的电力文件采集设备C1通信连接,参见图2,该待分类的电力文件采集设备C1可以直接自目标区域获取待分类的电力文件及其他相关数据,也可以与一数据库D1通信连接,自该数据库D1中获取对应的待分类的电力文件及其他相关数据。而后,所述待分类的电力文件采集设备C1将待分类的电力文件及其他相关数据发送至所述服务器A1。
可以理解的是,所述客户端设备B1可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,进行电力文件自动分类的部分可以在如上述内容所述的服务器A1侧执行,即,如图1所示的架构,也可以所有的操作都在所述客户端设备B1中完成。具体可以根据所述客户端设备B1的处理能力,以及用户使用场景的限制等进行选择。本发明对此不作限定。若所有的操作都在所述客户端设备B1中完成,所述客户端设备B1还可以包括处理器,用于进行电力文件自动分类的具体处理。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。例如,通信单元可以将上述用户输入的待分类的电力文件及其他相关数据发送至服务器,以便服务器根据这些待分类的电力文件及其他相关数据进行电力文件自动分类。通信单元还可以接收服务器返回的分类看结果。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本发明提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
为了能够有效提高了分类效率和分类的准确率,本发明提供一种电力文件自动分类方法的实施例,参见图3,所述电力文件自动分类方法具体包含有如下内容:
S101:根据待分类电力文件生成语料集合、标题集合和词汇集合;其中,所述词汇集合是由待分类电力文件的各个标题中的关键词组成;
在本步骤中,将电力文件库中的待分类电力文件进行提取,提取待分类电力文件的标题、摘要、正文首段;对提取的所有摘要、正文首段内容进行分句处理,获得的语料集合,语料集合记为S={s1,s2,…,sL},各个待分类电力文件的标题形成标题集合,标题集合记为St={st 1,st 2,…,st M}。
对提取的标题进行分词处理得到各个标题中的关键词,具体是将标题集合St作为分词器的输入,由分词器输出不重复的K个关键词,由K个关键词构成词汇集合Wt={w1,w2,…,wK}。
需要说明的是,通过标题集合作为文章分类的依据,通过语料集合作为确定词汇间联系的训练用语料。进一步的,使用标题中出现过的关键词,作为电力文件分类的依据,使用摘要和正文首段中的分句作为确定词汇间联系的训练用语料。
本步骤通过分词器输出不重复的K个关键词的过程中,将剔除助词、量词等对分类无意义的高频词。
从上述描述可知,关键词仅来自电力文件的标题,使用的训练语料来自于电力文件的摘要和正文的关键部分,从而降低了词嵌入训练过程的计算量。
S102:基于所述词汇集合生成K维的输入向量;其中,K为词汇集合中关键词的数量;
在本步骤中,根据词汇集合Wt生成K维的输入向量,K维的输入向量为Vinit(wi),记为Vinit(wi)=[vwi 1,vwi 2,…,vwi K]T
其中,wi为词汇集合Wt中的第i个关键词,i=1,2,3,4,···,K,K为词汇集合中关键词的数量;vwi j为第i个关键词的K维的输入向量中的第j个元素,j=1,2,3,4,···,K,K为词汇集合中关键词的数量。
其中,若是j=i,则vwi j=1;若是j≠i,vwi j=0。
S103:使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;
使用所述语料集合和所述标题集合并基于统计或基于预测的词嵌入(WordEmbedding)的方式对输入向量进行训练,具体可以使用Word2Vec和Glove中的至少一种方式进行词嵌入。其中,Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。GloVe是一种用于获得单词矢量表示的无监督学习算法。对来自语料库的聚合全局词-词共现统计进行训练,并且所得到的表示展示词向量空间的有趣线性子结构。
在本步骤中,训练完成后词汇集合Wt中的第i个关键词wi将从Vinit(wi)的K维向量,被压缩至预先设置的维度C,得到C维的词向量Vc(wi)。
需要说明的是,K维的输入向量被降维至C维的词向量,及K>C。
将获得的C维的词向量Vc(wi)与原始词汇Wi一一对应。根据预置的C的值,原题目中的词汇wi均被映射至一个相对较低维度的空间中。
S104:统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;
在本步骤中,统计待分类电力文件中各个关键词分别在各个待分类电力文件中的词频,具体采用TF-IDF的方式统计关键词出现的相对词频。
可以理解的是,对第m份电力文件dm,其中第i个关键词wi出现的词频记为fdm i,对于第m份电力文件dm,都获得了一个K维的向量Vf(dm)=[fdm 1,fdm 2,…,fdm K]T,该向量Vf表示全部标题关键词在该电力文件中的出现频率。
需要说明的是,TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。
从上述描述可知,通过使用词嵌入的方式得到的词向量的词频线性组合来表示电力文件,在保留词汇的相互联系的同时,可以有效降低电力文件向量化的计算成本,降低电力文件聚类的训练计算量。
S105:根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积;
在本步骤中,根据C维的词向量构造一矩阵Mw,矩阵Mw记为Mw=[Vc(w1),Vc(w2),…,Vc(wK)],Mw为C×K维矩阵,C维的词向量与K维的输入向量的乘积。计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积,对第m份电力文件dm,计算Vdm=Mw Vf(dm),则Vdm为C维向量。
S106:对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。
在本步骤中,对各个电力文件的矩阵分别与各个待分类电力文件各自对应的向量的乘积进行聚类分析,聚类可以使用聚类分析采用K-Means和高斯混合模型中的至少一种算法,使用闵可夫斯基距离作为聚类中的向量距离并根据预先设置的类别数目H,将待分类电力文件划分为H个类别。通过改变数目H的值进行多次聚类,根据数目H的可接受上限和聚类的结果选取满足要求的数目H。
进一步的,具体使用闵可夫斯基距离作为聚类中的向量距离时,采用闵可夫斯基距离中:变参数为1时的曼哈顿距离、变参数为2时的欧氏距离和变参数趋近于无穷时的切比雪夫距离中的任意一种。
从上述描述可知,本发明实施例提供的一种电力文件自动分类方法,通过根据待分类电力文件生成语料集合、标题集合和词汇集合;其中,所述词汇集合是由待分类电力文件的各个标题中的关键词组成;基于所述词汇集合生成K维的输入向量;其中,K为词汇集合中词汇的数量;使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积;对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别,能够实现电力文件自动分类,避免了人工分类导致的分类效率低的问题,同时还降低了人工成本,还提高了分类效率和分类的准确率。
基于上述电力文件自动分类方法的实施例,本发明实施例提供另一种电力文件自动分类方法的实施例,参见图4,在上述电力文件自动分类方法的实施例的基础上,还包括:
S107:分别计算各个类别中多个乘积结果的均值,以及分别在各个类别中确定与各个类别中的均值之间差值最小的各个乘积结果所对应的各个电力文件;
S108:采用各个电力文件的标题的哈希值作为各个类别的标签。
在本实施例中,已经将待分类的电力文件归为了H类,计算每个类别中的多个乘积结果的均值Vmean,并使用欧氏距离计算与均值Vmean之间差值最小的乘积结果Vdm *,确定乘积结果Vdm *所对应的电力文件,使用该电力文件的标题的哈希值作为本类别的标签。由于各类别中距离该类均值的电力文件不同,因此各类别的标签不同,实现对已分类电力文件的类别命名。
从上述描述可知,本发明实施例提供的电力文件自动分类方法,可以根据电力文件关键词的词频、词序特征,有效的对大量无序化的电力文件进行聚类,实现电力文件自动分类,还使得每个聚类内部的电力文件在业务上相互关联。本实施例提供的电力文件自动分类方法,还能够避免了人工分类导致的分类效率低的问题,同时还降低了人工成本,还提高了分类效率和分类的准确率。
本发明实施例提供一种能够实现所述电力文件自动分类方法中全部内容的电力文件自动分类装置的具体实施方式,参见图5,所述电力文件自动分类装置具体包括如下内容:
集合单元10,用于根据待分类电力文件生成语料集合、标题集合和词汇集合;其中,所述词汇集合是由待分类电力文件的各个标题中的关键词组成;
向量单元20,用于基于所述词汇集合生成K维的输入向量;其中,K为词汇集合中关键词的数量;
训练单元30,用于使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;
词频单元40,用于统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;
矩阵单元50,用于根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积;
分类单元60,用于对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。
进一步的,参见图6,在上述电力文件自动分类装置的基础上,还包括:
均值单元70,用于分别计算各个类别中多个乘积结果的均值,以及分别在各个类别中确定与各个类别中的均值之间差值最小的各个乘积结果所对应的各个电力文件;
标题单元80,用于采用各个电力文件的标题的哈希值作为各个类别的标签。
进一步的,所述集合单元10包括:
提取子单元,用于提取待分类电力文件的标题、摘要和正文首段;
第一生成子单元,用于将提取的摘要和正文首段进行分句处理得到语料集合;
第二生成子单元,用于基于提取的标题得到标题集合以及对提取的标题进行分词处理得到各个标题中的关键词;
其中,词汇集合是由待分类电力文件的各个标题中的关键词组成。
进一步的,所述词频单元40包括:
词频子单元,用于采用TF-IDF的方式计算词汇集合中各个关键词分别在各个待分类电力文件中的词频。
进一步的,所述词嵌入的方式包括:Word2Vec和Glove中的至少一种。
进一步的,所述聚类分析采用K-Means和高斯混合模型中的至少一种。
本发明提供的电力文件自动分类装置的实施例具体可以用于执行上述实施例中的电力文件自动分类方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
从上述描述可知,本发明实施例提供的电力文件自动分类装置,通过根据待分类电力文件生成语料集合、标题集合和词汇集合;其中,所述词汇集合是由待分类电力文件的各个标题中的关键词组成;基于所述词汇集合生成K维的输入向量;其中,K为词汇集合中词汇的数量;使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积;对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别,能够实现电力文件自动分类,避免了人工分类导致的分类效率低的问题,同时还降低了人工成本,还提高了分类效率和分类的准确率。
本发明的实施例还提供能够实现上述实施例中的电力文件自动分类方法中全部步骤的一种电子设备的具体实施方式,参见图7,所述电子设备具体包括如下内容:
处理器(processor)601、存储器(memory)602、通信接口(CommunicationsInterface)603和总线604;
其中,所述处理器601、存储器602、通信接口603通过所述总线604完成相互间的通信;所述处理器601用于调用所述存储器602中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的电力文件自动分类方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:根据待分类电力文件生成语料集合、标题集合和词汇集合;其中,所述词汇集合是由待分类电力文件的各个标题中的关键词组成;基于所述词汇集合生成K维的输入向量;其中,K为词汇集合中词汇的数量;使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积;对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。
本发明的实施例还提供能够实现上述实施例中的电力文件自动分类方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的电力文件自动分类方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:根据待分类电力文件生成语料集合、标题集合和词汇集合;其中,所述词汇集合是由待分类电力文件的各个标题中的关键词组成;基于所述词汇集合生成K维的输入向量;其中,K为词汇集合中词汇的数量;使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积;对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。
虽然本发明提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (14)

1.一种电力文件自动分类方法,其特征在于,包括:
根据待分类电力文件生成语料集合、标题集合和词汇集合;其中,所述词汇集合是由待分类电力文件的各个标题中的关键词组成;
基于所述词汇集合生成K维的输入向量;其中,K为词汇集合中关键词的数量;
使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;
统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;
根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积;
对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。
2.根据权利要求1所述的电力文件自动分类方法,其特征在于,还包括:
分别计算各个类别中多个乘积结果的均值,以及分别在各个类别中确定与各个类别中的均值之间差值最小的各个乘积结果所对应的各个电力文件;
采用各个电力文件的标题的哈希值作为各个类别的标签。
3.根据权利要求1或2所述的电力文件自动分类方法,其特征在于,所述根据待分类电力文件生成语料集合、标题集合和词汇集合,包括:
提取待分类电力文件的标题、摘要和正文首段;
将提取的摘要和正文首段进行分句处理得到语料集合;
基于提取的标题得到标题集合以及对提取的标题进行分词处理得到各个标题中的关键词;
其中,词汇集合是由待分类电力文件的各个标题中的关键词组成。
4.根据权利要求1或2所述的电力文件自动分类方法,其特征在于,所述词嵌入的方式包括:Word2Vec和Glove中的至少一种。
5.根据权利要求1或2所述的电力文件自动分类方法,其特征在于,所述统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频,包括:
采用TF-IDF的方式计算词汇集合中各个关键词分别在各个待分类电力文件中的词频。
6.根据权利要求1或2所述的电力文件自动分类方法,其特征在于,所述聚类分析采用K-Means和高斯混合模型中的至少一种。
7.一种电力文件自动分类装置,其特征在于,包括:
集合单元,用于根据待分类电力文件生成语料集合、标题集合和词汇集合;其中,所述词汇集合是由待分类电力文件的各个标题中的关键词组成;
向量单元,用于基于所述词汇集合生成K维的输入向量;其中,K为词汇集合中关键词的数量;
训练单元,用于使用所述语料集合和所述标题集合并基于词嵌入的方式对所述输入向量进行训练,以使该K维的输入向量被压缩为C维的词向量;
词频单元,用于统计所述词汇集合中各个关键词分别在各个待分类电力文件中的词频并生成各个待分类电力文件各自对应的向量;
矩阵单元,用于根据C维的词向量构造一矩阵并计算所述矩阵分别与各个待分类电力文件各自对应的向量的乘积;
分类单元,用于对各个乘积结果进行聚类分析并使用闵可夫斯基距离作为聚类分析中的向量距离将待分类电力文件划分为预设数目个类别。
8.根据权利要求7所述的电力文件自动分类装置,其特征在于,还包括:
均值单元,用于分别计算各个类别中多个乘积结果的均值,以及分别在各个类别中确定与各个类别中的均值之间差值最小的各个乘积结果所对应的各个电力文件;
标题单元,用于采用各个电力文件的标题的哈希值作为各个类别的标签。
9.根据权利要求7或8所述的电力文件自动分类装置,其特征在于,所述集合单元包括:
提取子单元,用于提取待分类电力文件的标题、摘要和正文首段;
第一生成子单元,用于将提取的摘要和正文首段进行分句处理得到语料集合;
第二生成子单元,用于基于提取的标题得到标题集合以及对提取的标题进行分词处理得到各个标题中的关键词;
其中,词汇集合是由待分类电力文件的各个标题中的关键词组成。
10.根据权利要求7或8所述的电力文件自动分类装置,其特征在于,所述词频单元包括:
词频子单元,用于采用TF-IDF的方式计算词汇集合中各个关键词分别在各个待分类电力文件中的词频。
11.根据权利要求7或8所述的电力文件自动分类装置,其特征在于,所述词嵌入的方式包括:Word2Vec和Glove中的至少一种。
12.根据权利要求7或8所述的电力文件自动分类装置,其特征在于,所述聚类分析采用K-Means和高斯混合模型中的至少一种。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述的电力文件自动分类方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6任一项所述的电力文件自动分类方法的步骤。
CN201910588345.6A 2019-07-02 2019-07-02 电力文件自动分类方法及装置 Active CN110389932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910588345.6A CN110389932B (zh) 2019-07-02 2019-07-02 电力文件自动分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910588345.6A CN110389932B (zh) 2019-07-02 2019-07-02 电力文件自动分类方法及装置

Publications (2)

Publication Number Publication Date
CN110389932A true CN110389932A (zh) 2019-10-29
CN110389932B CN110389932B (zh) 2023-01-13

Family

ID=68286118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910588345.6A Active CN110389932B (zh) 2019-07-02 2019-07-02 电力文件自动分类方法及装置

Country Status (1)

Country Link
CN (1) CN110389932B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955774A (zh) * 2019-11-08 2020-04-03 武汉光谷信息技术股份有限公司 基于词频分布的文字分类方法、装置、设备及介质
CN110990563A (zh) * 2019-11-18 2020-04-10 北京信息科技大学 一种基于人工智能的传统文化素材库构建方法及***
CN117851602A (zh) * 2024-03-07 2024-04-09 武汉百智诚远科技有限公司 基于深度学习的法律文件自动分类方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159998A (zh) * 2015-09-08 2015-12-16 海南大学 一种基于文档聚类关键词计算方法
US20170262522A1 (en) * 2016-03-09 2017-09-14 Symantec Corporation Systems and methods for automated classification of application network activity
US20180329989A1 (en) * 2017-05-10 2018-11-15 Findo, Inc. Recursive agglomerative clustering of time-structured communications
CN109189934A (zh) * 2018-11-13 2019-01-11 平安科技(深圳)有限公司 舆情推荐方法、装置、计算机设备及存储介质
CN109299266A (zh) * 2018-10-16 2019-02-01 中国搜索信息科技股份有限公司 一种用于中文新闻突发事件的文本分类与抽取方法
CN109635107A (zh) * 2018-11-19 2019-04-16 北京亚鸿世纪科技发展有限公司 多数据源的语义智能分析及事件场景还原的方法及装置
CN109753567A (zh) * 2019-01-31 2019-05-14 安徽大学 一种结合标题与正文注意力机制的文本分类方法
CN109783637A (zh) * 2018-12-12 2019-05-21 国网浙江省电力有限公司杭州供电公司 基于深度神经网络的电力检修文本挖掘方法
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159998A (zh) * 2015-09-08 2015-12-16 海南大学 一种基于文档聚类关键词计算方法
US20170262522A1 (en) * 2016-03-09 2017-09-14 Symantec Corporation Systems and methods for automated classification of application network activity
US20180329989A1 (en) * 2017-05-10 2018-11-15 Findo, Inc. Recursive agglomerative clustering of time-structured communications
CN109299266A (zh) * 2018-10-16 2019-02-01 中国搜索信息科技股份有限公司 一种用于中文新闻突发事件的文本分类与抽取方法
CN109189934A (zh) * 2018-11-13 2019-01-11 平安科技(深圳)有限公司 舆情推荐方法、装置、计算机设备及存储介质
CN109635107A (zh) * 2018-11-19 2019-04-16 北京亚鸿世纪科技发展有限公司 多数据源的语义智能分析及事件场景还原的方法及装置
CN109783637A (zh) * 2018-12-12 2019-05-21 国网浙江省电力有限公司杭州供电公司 基于深度神经网络的电力检修文本挖掘方法
CN109753567A (zh) * 2019-01-31 2019-05-14 安徽大学 一种结合标题与正文注意力机制的文本分类方法
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑诚等: "基于正文和标题文本分类的主题建模", 《计算机应用与软件》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955774A (zh) * 2019-11-08 2020-04-03 武汉光谷信息技术股份有限公司 基于词频分布的文字分类方法、装置、设备及介质
CN110955774B (zh) * 2019-11-08 2022-10-11 武汉光谷信息技术股份有限公司 基于词频分布的文字分类方法、装置、设备及介质
CN110990563A (zh) * 2019-11-18 2020-04-10 北京信息科技大学 一种基于人工智能的传统文化素材库构建方法及***
CN117851602A (zh) * 2024-03-07 2024-04-09 武汉百智诚远科技有限公司 基于深度学习的法律文件自动分类方法及***
CN117851602B (zh) * 2024-03-07 2024-05-14 武汉百智诚远科技有限公司 基于深度学习的法律文件自动分类方法及***

Also Published As

Publication number Publication date
CN110389932B (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
Zhang et al. Topic analysis and forecasting for science, technology and innovation: Methodology with a case study focusing on big data research
CN110674407B (zh) 基于图卷积神经网络的混合推荐方法
Santra et al. Genetic algorithm and confusion matrix for document clustering
CN109933660B (zh) 面向自然语言形式基于讲义和网站的api信息检索方法
CN103984714B (zh) 一种基于本体语义的云制造服务供需智能匹配方法
CN110059181A (zh) 面向大规模分类体系的短文本标签方法、***、装置
CN110209808A (zh) 一种基于文本信息的事件生成方法以及相关装置
CN104392006B (zh) 一种事件查询处理方法及装置
CN109766437A (zh) 一种文本聚类方法、文本聚类装置及终端设备
Ding et al. Auto-categorization of HS code using background net approach
CN110389932A (zh) 电力文件自动分类方法及装置
CN105654196A (zh) 一种基于电力大数据的自适应负荷预测选择方法
Díaz-Morales Cross-device tracking: Matching devices and cookies
CN109684476A (zh) 一种文本分类方法、文本分类装置及终端设备
CN109871809A (zh) 一种基于语义网的机器学习流程智能组装方法
CN109784405A (zh) 基于伪标签学习和语义一致性的跨模态检索方法及***
CN103778206A (zh) 一种网络服务资源的提供方法
Li et al. RTCRelief-F: an effective clustering and ordering-based ensemble pruning algorithm for facial expression recognition
CN109934301A (zh) 一种电力负荷聚类分析方法、装置和设备
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN110196907A (zh) 一种多层次文本聚类方法和装置
CN108537270A (zh) 基于多标签学习的图像标注方法、终端设备及存储介质
CN109783633A (zh) 数据分析服务流程模型推荐方法
CN108984711A (zh) 一种基于分层嵌入的个性化app推荐方法
Padmasundari et al. Intent discovery through unsupervised semantic text clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant