CN108021679A - 一种并行化的电力设备缺陷文本分类方法 - Google Patents

一种并行化的电力设备缺陷文本分类方法 Download PDF

Info

Publication number
CN108021679A
CN108021679A CN201711288010.XA CN201711288010A CN108021679A CN 108021679 A CN108021679 A CN 108021679A CN 201711288010 A CN201711288010 A CN 201711288010A CN 108021679 A CN108021679 A CN 108021679A
Authority
CN
China
Prior art keywords
case
result
data
text
parallelization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711288010.XA
Other languages
English (en)
Inventor
杨祎
宇文梦柯
王智翔
白德盟
辜超
郭志红
陈玉峰
闫丹凤
李贞�
林颖
李程启
秦佳峰
郑文杰
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Beijing University of Posts and Telecommunications
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Beijing University of Posts and Telecommunications
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Beijing University of Posts and Telecommunications, Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201711288010.XA priority Critical patent/CN108021679A/zh
Publication of CN108021679A publication Critical patent/CN108021679A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种并行化的电力设备缺陷文本分类方法,将领域词库加入到用户词典中,对缺陷案例进行预处理,进行分词和去停用词;利用爬虫算法,收集电网故障案例的文本语料,利用Spark的word2vec进行训练,获取该领域的词向量表示;将获取的缺陷案例和词向量进行向量化表示,将缺陷案例进行文本表示,形成矩阵;将矩阵输入到SVM多分类器中,进行训练与分类,得到分类结果。

Description

一种并行化的电力设备缺陷文本分类方法
技术领域
本发明涉及一种并行化的电力设备缺陷文本分类方法。
背景技术
文本分类算法主要包含预处理、文本特征抽取、文本表示、分类计算这四个步骤。其中中文文本的预处理步骤主要包含分词、去停用词;文本特征抽取主要有tfidf、textrank为代表的基于词频统计的方法和lda为代表的基于主题模型的方法;文本表示主要有不考虑上下文语境的one-hot方式和基于word2vec的方式;最后的分类步骤对于一般的分类挖掘算法均可纳入考虑。在特定领域的文本分类任务中,主要需考虑的问题就是结合领域的语言和专业的特点,在预处理、特征抽取等步骤进行相应的算法调整。文本分类过程中还需要根据分类对象的规模特点进行相应的算法改进,通常情况下,对于长文本可以直接使用上述流程进行分类,且分类效果一般会好于短文本,主要是因为长文本的信息含量较为充足,相比而言,短文本在分类过程中直接使用上述流程,会导致短文本本就贫乏的特征有所损失,因此通常会考虑只进行停用词的过滤,而不再通过tfidf等算法进一步的进行关键词的筛选。
在电力缺陷文本中,对于缺陷的严重程度的分类,在以往都是人工根据经验对缺陷描述进行判断,手动分类为“严重”、“一般”、“危急”三个类别,这样不仅会造成大量的人工劳动成本,还会因为不同人的主观认知差异造成判断结果的不同。因此,借助于文本分类算法进行自动的文本分类计算是十分有意义的,但是在电力领域缺陷案例分类方面目前还鲜有研究。
一般的分词步骤都是基于一个默认词库进行的,这对于通用的公共领域文本可以做到较为准确的分词,但是对于该情景的文本对象,仅仅利用默认词库难以得到理想的结果,需要将领域性考虑进去,在ansj的默认词典中加入电力行业的专业词库,精准的分词是准确训练出word2vec的重要前提。
同样,一般的word2vec都是根据通用语料库进行训练的,而该发明针对的文本对象有很强的专业性,因此需要对于该领域首先收集大量的文本,进行word2vec词向量表示的训练。之后在用此训练结果基础上,考虑对于后续的文本进行表示。
由于该流程是建立在Spark并行框架上的,以期达到对于大数据输入形式的高效计算,而该平台mllib中的SVM分类算法包是一个二分类器,难以对于该情景遇到的多分类场景进行处理。
发明内容
本发明为了解决上述问题,提出了一种并行化的电力设备缺陷文本分类方法,本发明解决对于具有很强专业性的电力缺陷案例文本进行缺陷紧急程度的分类,直接使用传统的分析流程难以得到满意的分类结果,且当数据量大时,能够通过Spark并行框架高效的完成分析流程,做到大数据规模的分类分析。
为了实现上述目的,本发明采用如下技术方案:
一种并行化的电力设备缺陷文本分类方法,包括以下步骤:
(1)将领域词库加入到用户词典中,对缺陷案例进行预处理,进行分词和去停用词;
(2)利用爬虫算法,收集电网故障案例的文本语料,利用Spark的word2vec进行训练,获取该领域的词向量表示;
(3)将步骤(1)得到的原始缺陷案例中的词语转化为步骤(2)对应的词向量,并将案例数据进行文本表示,构成矩阵的形式;
(4)将矩阵输入到SVM多分类器中,进行训练与分类,得到分类结果。
进一步的,所述步骤(1)和步骤(2)的顺序互换。
进一步的,所述步骤(1)中,进行分词的处理方法为:将文本数据从HDFS上读取到程序的数据结构中,每一行为一条文本数据,存储的数据结构为RDD[String]形式;将领域词库导入到ansj的用户词库中,调用ansj中的Library.makeForest接口将领域词典导入,将分词词库进行补全,得到完整词库,作为分词的依据;利用Spark的map操作对于每一个语料进行分词处理,采用精准分词,即调用ansj中的ToAnalysis.parse接口,利用map算子对于每一条语句同时并行地进行分词处理。
所述步骤(1)中,进行停用词的处理方法为:将停用词表从HDFS上导入到程序的数据结构中,原始输入为每一行为一个停用词的格式,存储的数据结构为RDD[String]形式;利用Spark的map算子对于每一个分完词的结果进行去停用词操作,比照划分得到的每一个词语,凡是在停用词集合中的过滤掉,同时利用map算子对于每一条文本同时地进行停用词过滤;将结果整理成RDD[Array[String]]格式,每一行为一个案例的处理结果,每条结果的格式为若干词语,中间用空格的形式隔开,将处理好的结果存储在数据结构中,并以txt格式输出到HDFS上。
进一步的,所述步骤(2)中,利用爬虫手段,收集该领域的大量文本,作为领域词向量训练语料的一部分,将收集的外部数据和待分析的缺陷案例进行合并,构成训练语料,进行分词和停用词的预处理,调用Spark的word2vec算法包,利用word2Vec.fit算子将上一步的结果输入到word2vec模型中进行词向量的训练,并通过model.getVectors算子获取训练得到的词向量结果,将待分析的案例文本从HDFS上读入到数据结构中,对于案例中的词语用训练好的相应的向量进行替换。
更进一步的,将每一篇案例的若干词语的向量结果求均值,作为该案例的整体特征,对计算得到的结果进行整理,每一行对应一个案例的特征,每行的格式为Dj紧急程度类别标记,并以txt的格式输出到HDFS上。
进一步的,所述步骤(3)中,将文本特征数据导入到数据结构中,将案例数据进行训练集和测试集的切分,设置迭代次数,采用随机梯度下降法进行模型的构建,利用训练集训练模型,利用准确率或召回率进行训练结果的评估,如果评估结果不符合设定条件,重新调整迭代参数和模型参数,直到输出结果符合设定条件。
进一步的,所述步骤(4)中,对SVM算法进行改进,使其能够应对多分类的场景,具体改进方法为:
(4-1)将原始案例数据按照每一类紧急类别进行划分,并将划分得到的子数据集进行两两组合,构成新的组合数据集;
(4-2)将原始数据训练集中的每一个组合数据集输入到Spark的SVM二分类工具包中,进行模型的训练;
(4-2)将测试集中的数据分别输入到三个训练完毕的SVM二分类器中进行类别的判断,每个分类器通过分类结果进行投票,经过三个分类器后,将投票结果相加,得到最终的分类结果。
与现有技术相比,本发明的有益效果为:
本发明对于电力设备缺陷案例文本紧急程度分类的准确性高于通用算法,结合了领域特点进行算法设计,使得整体算法可靠性得以提升。同时流程基于Spark进行并行化设计,相比于串行算法,对于大数据情形能够更好的适应,减少时间消耗。
本发明针对电力设备缺陷案例文本进行缺陷紧急情况分类的任务,在word2vec的词向量表示环节,采用了领域语料进行训练的方式,与通常的基于公开语料的训练结果相比,该结果能够更精准的体现本领域的语言描述模式特点,且可以直接使用在该领域文本聚类、关联分析等其它应用的流程环节。
同时,本发明将Spark平台的二分类算法改写成多分类算法,保留了SVM复杂分类过程的高度并行的特点,填补了Spark框架上的SVM多分类方法的空白。整体分析流程完全进行了基于Spark的并行化设计与实现,相比于一般的非并行模式,能够更好的适应实际应用中的大数据场景。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明的整体流程图;
图2为本发明预处理过程流程图;
图3为本发明特征表示过程流程图;
图4为本发明分类流程图;
图5为本发明的SVM多分类流程图;
图6为本发明的不同规模的执行时间结果对比示意图。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在本发明中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本发明各部件或元件结构关系而确定的关系词,并非特指本发明中任一部件或元件,不能理解为对本发明的限制。
本发明中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体地连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本发明中的具体含义,不能理解为对本发明的限制。
本发明解决对于具有很强专业性的电力缺陷案例文本进行缺陷紧急程度的分类,直接使用传统的分析流程难以得到满意的分类结果,且当数据量大时,能够通过Spark并行框架高效的完成分析流程,做到大数据规模的分类分析。
如图1所示,该过程主要由文本预处理、领域word2vec词向量表示训练、文本特征表示、利用SVM进行紧急程度分类四个步骤构成。
预处理步骤主要包括分词和去停用词;word2vec词向量表示训练需要引入收集的外部相关的领域文本语料,以确保结果的普适性;文本特征表示主要采用词向量的均值方式;经过修改的SVM多分类器首先进行模型训练,之后进行案例分类。四个步骤的具体介绍见下面的部分。
文本预处理与并行化
该步骤主要包含的操作为分词和去停用词,此外就是基于Spark进行预处理并行化的设计,流程如图2所示。
该步骤的操作步骤:
1.将文本数据从HDFS上读取到程序的数据结构中,每一行为一条文本数据,存储的数据结构为RDD[String]形式;
2.将领域词库导入到ansj的用户词库中,调用ansj中的Library.makeForest接口将领域词典导入,将分词词库进行补全。最终得到(默认词库+领域词库)构成的完整词库,作为分词的依据;
3.利用Spark的map操作对于每一个语料进行分词处理,在这里采用精准分词,即调用ansj中的ToAnalysis.parse接口。这一步操作的并行化体现在map算子对于每一条语句同时并行地进行分词处理,可以节省时间成本;
4.将停用词表从HDFS上导入到程序的数据结构中,原始输入为每一行为一个停用词的格式,存储的数据结构为RDD[String]形式;
5.利用Spark的map算子对于每一个分完词的结果进行去停用词操作。即,比照划分得到的每一个词语,凡是在停用词集合中的,过滤掉。这一步操作的并行化体现在map算子,对于每一条文本同时地进行停用词过滤;
6.经过以上处理,将结果整理成RDD[Array[String]]格式,每一行为一个案例的处理结果,每条结果的格式为若干词语,中间用空格的形式隔开。将处理好的结果存储在数据结构中,并以txt格式输出到HDFS上。
该步骤主要包含的操作为训练并获取领域词语的向量化表示、将案例词语转化为对应的向量化表示、将每一条案例文本进行向量化表示并作为该文本的特征。之后就是基于Spark进行的并行化设计,流程如图3所示。
该步骤的操作步骤:
1.利用爬虫等手段收集该领域的大量文本,作为领域词向量训练语料的一部分。本发明利用Python语言和Scrapy框架从知网爬取了62643篇相关的论文作为外部数据;
2.将收集的外部数据和待分析的缺陷案例进行合并,构成训练语料。将以上训练语料进行分词操作,也就是预处理部分的Strp.1~Step.3,将分词之后的结果存储在数据结构中;
3.调用Spark的word2vec算法包,利用word2Vec.fit算子将上一步的结果输入到word2vec模型中进行词向量的训练,并通过model.getVectors算子获取训练得到的词向量结果,将结果整理成“词语向量”的形式,每行一个,以txt格式输出到HDFS上。这一步的并行化体现在调用了Spark框架的word2vec算法包,由于该包就是基于平台的机制进行编写的,因此能够针对Spark框架在最大程度上实现复杂训练过程的并行化。在训练的过程中,将向量维度setVectorSize设置为200,setMinCount设置为0,其他使用默认参数即可;
4.将待分析的案例文本从HDFS上读入到数据结构中,对于案例中的词语用训练好的相应的向量进行替换;
5.将每一篇案例的若干词语的向量结果求均值,作为该案例的整体特征。即,设每篇文档中词语i向量化表示后的结果为Wi=(wi1,wi2,…wi200),案例j的m个词语经过向量化表示后为M_Dj=(Wj1,Wj2,…,Wjm),则该案例的对应特征向量为
将上一步计算得到的结果进行整理,每一行对应一个案例的特征,每行的格式为“Dj紧急程度类别标记”。其中Dj是一个1*200的向量,向量中每一个元素用空格隔开,本发明中将”紧急“、”严重“、”一般“这三类分别标记为3,2,1,类别标记与Dj之间用英文逗号”,“隔开。将以上结果按照格式进行整理,并以txt的格式输出到HDFS上。
如图4所示,文本分类与并行化:
该步骤主要包含的操作为将案例数据进行训练集与测试集的切分、SVM模型的构建、模型训练、利用评价指标进行效果评估、调参五个步骤。该模块首先将mllib中的二分类SVM算法包进行了改写,变成一个多分类算法,之后将其封装并应用到分类流程中。该流程的基于Spark的并行化体现在对于原生SVM包的调用与改进。
该过程的整体操作步骤:
1.将HDFS上的向量化的文本特征导入到LIBSVM格式的数据结构中;
2.调用MLUtils.loadLibSVMFile的randomSplit接口,将案例数据按照60%和40%的比例划分为训练集和测试集;
3.设置迭代次数numIterations为150,其他参数选择默认值,调用SVMWithSGD.train算子选择随机梯度下降法进行模型的构建;
4.利用训练集数据进行模型的训练,并调用model.predict算子对于测试集进行分类的预判;
5.将预判结果与实际结果进行比对,选择准确率、召回率、F1值作为效果的评价指标进行结果的评估;
6.返回step.3,对于各个参数进行重新设置,重复step.3~step.6直到达到满意的结果,最终得到相应的参数与模型。
本发明对于mllib的SVM算法包进行了改进,使其能够应对多分类的场景,主要思路基于一对多法。
该过程的具体操作步骤:
1.将“一般”、“严重”,“危急”三个类别的向量形式的文本数据分开。按照(“一般”、“严重”),(“危急”、“严重”),(“一般”、“危急”)的形式进行数据集的两两组合,构成三个新的组合数据集;
2.将原始数据训练集中的每一个组合数据集输入到Spark的SVM二分类工具包中,进行模型的训练(具体步骤见图4);
3.对于测试集中的每一条数据,设置其初始类别票数为(“一般”,“严重”,“危急”)=(0,0,0)
4.将测试集中的数据分别输入到三个训练完毕的SVM二分类器中进行类别的判断。每个分类器通过分类结果进行投票。例如,当(“一般”,“危险”)分类器中,判断的类别为“一般”,则(“一般”,“严重”,“危急”)(一般,危险)=(1,0,0)
5.经过三个分类器后,将投票结果相加,即(“一般”,“严重”,“危急”)=(“一般”,“严重”,“危急”)(一般,危险)+(“一般”,“严重”,“危急”)(紧急,危险)
+(“一般”,“严重”,“危急”)(一般,紧急)
最终的类别为max(“一般”,“严重”,“危急”)对应的类别。
在文本分类步骤中,由于基于的SVM算法包是Spark平台中的原有算法工具,已经在开发的过程中最大程度的结合了框架的并行特点进行了算法的并行化,因此本步骤的并行性能也达到了令人满意的程度。
作为一种应用实施例,本发明中的所有试验都在一个包含1个主节点(master),3个从节点(slave)的本地搭建的Spark集群上进行。集群的磁盘容量配置为2.88T,总内存为32G。Spark版本为1.6.0,Hadoop版本为2.7.0。
本实验主要从分类准确性的角度进行评估,对于最终的结果选用准确率P、召回率R和F1值进行衡量,三者的计算公式如下:
选用如下三个方案与本发明的方案进行对比:
对比方案1:tfidf表示+朴素贝叶斯;
对比方案2:tfidf表示+SVM;
对比方案3:基于通用预料训练的word2vec+SVM;
本发明:基于领域预料训练的word2vec+SVM;
表1不同方案的分类结果对比
通过以上的结果对比,可以发现基于word2vec+SVM的方案效果普遍好于其他方案。其中,基于领域语料训练的word2vec向量相比于基于通用语料,能够更好的适应该场景的分类任务。
为了验证并行化后的算法在运行速度上的提升,我们将数据集划分成200K,20M,500M,1G的规模。对于基于Spark框架的并行,考虑到每个executor都拥有固定的核数目,而core数目直接导致每个executor中task并行的数目。因而在这里设置的总的执行的核数越多,就越能增加程序的并行程度。由于集群总的核数为48个,因此这里设置的num-executors和executor-cores的乘积就要整体上小于48,经过实验调试,在这里进行的并行实验我们进行如下的参数配置:
--deploy-mode cluster
--master yarn-cluster
--num-executors 12
--executor-cores 3
--executor-memory 16G
--driver-memory 8G
分别对于单机参数(num-executors=1)和上述并行参数进行设置,对于四种规模的数据执行本发明的算法流程,其执行所用的时间如图6所示。
可以看出,单机运行的时间消耗在四种规模中均高于并行的时间消耗,同时,随着数据集的增长,单机的时间消耗会急剧增长,而并行的算法时间增长相比而言较为平缓。综上可见,并行算法能够在时间消耗上小于单机算法,并且随着数据规模的增长,优势愈发明显。
本发明是针对电力设备缺陷案例文本进行缺陷紧急情况分类的任务。在word2vec的词向量表示环节,采用了领域语料进行训练的方式,与通常的基于公开语料的训练结果相比,该结果能够更精准的体现本领域的语言描述模式特点,且可以直接使用在该领域文本聚类、关联分析等其它应用的流程环节。同时,将Spark平台的二分类算法改写成多分类算法,保留了SVM复杂分类过程的高度并行的特点,填补了Spark框架上的SVM多分类方法的空白。整体分析流程完全进行了基于Spark的并行化设计与实现,相比于一般的非并行模式,能够更好的适应实际应用中的大数据场景。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种并行化的电力设备缺陷文本分类方法,其特征是:包括以下步骤:
(1)将领域词库加入到用户词典中,对缺陷案例进行预处理,进行分词和去停用词;
(2)利用爬虫算法,收集电网故障案例的文本语料,利用Spark的word2vec进行训练,获取该领域的词向量表示;
(3)将步骤(1)得到的原始缺陷案例中的词语转化为步骤(2)对应的词向量,并将案例数据进行文本表示,构成矩阵的形式;
(4)将矩阵输入到SVM多分类器中,进行训练与分类,得到分类结果。
2.如权利要求1所述的一种并行化的电力设备缺陷文本分类方法,其特征是:所述步骤(1)和步骤(2)的顺序互换。
3.如权利要求1所述的一种并行化的电力设备缺陷文本分类方法,其特征是:所述步骤(1)中,进行分词的处理方法为:将文本数据从HDFS上读取到程序的数据结构中,每一行为一条文本数据,存储的数据结构为RDD[String]形式。
4.如权利要求3所述的一种并行化的电力设备缺陷文本分类方法,其特征是:将领域词库导入到ansj的用户词库中,调用ansj中的Library.makeForest接口将领域词典导入,将分词词库进行补全,得到完整词库,作为分词的依据;利用Spark的map操作对于每一个语料进行分词处理,采用精准分词,即调用ansj中的ToAnalysis.parse接口,利用map算子对于每一条语句同时并行地进行分词处理。
5.如权利要求1所述的一种并行化的电力设备缺陷文本分类方法,其特征是:所述步骤(1)中,进行停用词的处理方法为:将停用词表从HDFS上导入到程序的数据结构中,原始输入为每一行为一个停用词的格式,存储的数据结构为RDD[String]形式;利用Spark的map算子对于每一个分完词的结果进行去停用词操作,比照划分得到的每一个词语,凡是在停用词集合中的过滤掉,同时利用map算子对于每一条文本同时地进行停用词过滤;将结果整理成RDD[Array[String]]格式,每一行为一个案例的处理结果,每条结果的格式为若干词语,中间用空格的形式隔开,将处理好的结果存储在数据结构中,并以txt格式输出到HDFS上。
6.如权利要求1所述的一种并行化的电力设备缺陷文本分类方法,其特征是:所述步骤(2)中,利用爬虫手段,收集该领域的大量文本,作为领域词向量训练语料的一部分,将收集的外部数据和待分析的缺陷案例进行合并,构成训练语料,进行分词和停用词的预处理,调用Spark的word2vec算法包,利用word2Vec.fit算子将上一步的结果输入到word2vec模型中进行词向量的训练,并通过model.getVectors算子获取训练得到的词向量结果,将待分析的案例文本从HDFS上读入到数据结构中,对于案例中的词语用训练好的相应的向量进行替换。
7.如权利要求6所述的一种并行化的电力设备缺陷文本分类方法,其特征是:将每一篇案例的若干词语的向量结果求均值,作为该案例的整体特征,对计算得到的结果进行整理,每一行对应一个案例的特征,每行的格式为“Dj紧急程度类别标记”,并以txt的格式输出到HDFS上。
8.如权利要求1所述的一种并行化的电力设备缺陷文本分类方法,其特征是:所述步骤(3)中,将文本特征数据导入到数据结构中,将案例数据进行训练集和测试集的切分,设置迭代次数,采用随机梯度下降法进行模型的构建,利用训练集训练模型,利用准确率或召回率进行训练结果的评估,如果评估结果不符合设定条件,重新调整迭代参数和模型参数,直到输出结果符合设定条件。
9.如权利要求1所述的一种并行化的电力设备缺陷文本分类方法,其特征是:所述步骤(4)中,对SVM算法进行改进,使其能够应对多分类的场景,具体改进方法为:
(4-1)将原始案例数据按照每一类紧急类别进行划分,并将划分得到的子数据集进行两两组合,构成新的组合数据集;
(4-2)将原始数据训练集中的每一个组合数据集输入到Spark的SVM二分类工具包中,进行模型的训练;
(4-2)将测试集中的数据分别输入到三个训练完毕的SVM二分类器中进行类别的判断,每个分类器通过分类结果进行投票,经过三个分类器后,将投票结果相加,得到最终的分类结果。
CN201711288010.XA 2017-12-07 2017-12-07 一种并行化的电力设备缺陷文本分类方法 Pending CN108021679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711288010.XA CN108021679A (zh) 2017-12-07 2017-12-07 一种并行化的电力设备缺陷文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711288010.XA CN108021679A (zh) 2017-12-07 2017-12-07 一种并行化的电力设备缺陷文本分类方法

Publications (1)

Publication Number Publication Date
CN108021679A true CN108021679A (zh) 2018-05-11

Family

ID=62078915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711288010.XA Pending CN108021679A (zh) 2017-12-07 2017-12-07 一种并行化的电力设备缺陷文本分类方法

Country Status (1)

Country Link
CN (1) CN108021679A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804558A (zh) * 2018-05-22 2018-11-13 北京航空航天大学 一种基于语义模型的缺陷报告自动分类方法
CN109101483A (zh) * 2018-07-04 2018-12-28 浙江大学 一种针对电力巡检文本的错误识别方法
CN109101481A (zh) * 2018-06-25 2018-12-28 北京奇艺世纪科技有限公司 一种命名实体识别方法、装置及电子设备
CN109146152A (zh) * 2018-08-01 2019-01-04 北京京东金融科技控股有限公司 一种线上事故等级预测方法和装置
CN110287321A (zh) * 2019-06-26 2019-09-27 南京邮电大学 一种基于改进特征选择的电力文本分类方法
CN110781671A (zh) * 2019-10-29 2020-02-11 西安科技大学 一种智能ietm故障维修记录文本的知识挖掘方法
CN110895565A (zh) * 2019-11-29 2020-03-20 国网湖南省电力有限公司 一种电力设备故障缺陷文本分类方法与***
CN111177367A (zh) * 2019-11-11 2020-05-19 腾讯科技(深圳)有限公司 案件分类方法、分类模型训练方法及相关产品
CN111191447A (zh) * 2019-12-18 2020-05-22 东软集团股份有限公司 一种设备缺陷的分类方法、装置及设备
CN111241811A (zh) * 2020-01-06 2020-06-05 平安科技(深圳)有限公司 确定搜索词权重的方法、装置、计算机设备和存储介质
CN111931861A (zh) * 2020-09-09 2020-11-13 北京志翔科技股份有限公司 一种异质性数据集的异常检测方法及计算机可读存储介质
CN112749079A (zh) * 2019-10-31 2021-05-04 ***通信集团浙江有限公司 软件测试的缺陷分类方法、装置及计算设备
CN114444469A (zh) * 2022-01-11 2022-05-06 国家电网有限公司客户服务中心 基于95598客户服务数据资源的处理装置
CN116383390A (zh) * 2023-06-05 2023-07-04 南京数策信息科技有限公司 一种用于经营管理信息的非结构化数据存储方法及云平台
CN117057312A (zh) * 2023-10-11 2023-11-14 北京洛斯达科技发展有限公司 一种基于Python的特高压工程水保设计文档精准拆分方法
CN114444469B (zh) * 2022-01-11 2024-07-09 国家电网有限公司客户服务中心 基于95598客户服务数据资源的处理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN105550200A (zh) * 2015-12-02 2016-05-04 北京信息科技大学 一种面向专利摘要的中文分词方法
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN105550200A (zh) * 2015-12-02 2016-05-04 北京信息科技大学 一种面向专利摘要的中文分词方法
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YODE: "SVM多类分类---多个二值分类combine", 《新浪博客HTTP://BLOG.SINA.COM.CN/S/BLOG_4C98B96001009B8D.HTML》 *
冯贵川: "基于Word2vec的文本建模及分类研究", 《中国优秀硕士学位论文全文数据库 信息科技(月刊)计算机软件及计算机应用》 *
风中迷茫的蛤蛤: "ansj分词教程", 《CSDN博客HTTPS://BLOG.CSDN.NET/A360616218/ARTICLE/DETAILS/75268959》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804558A (zh) * 2018-05-22 2018-11-13 北京航空航天大学 一种基于语义模型的缺陷报告自动分类方法
CN109101481A (zh) * 2018-06-25 2018-12-28 北京奇艺世纪科技有限公司 一种命名实体识别方法、装置及电子设备
CN109101481B (zh) * 2018-06-25 2022-07-22 北京奇艺世纪科技有限公司 一种命名实体识别方法、装置及电子设备
CN109101483A (zh) * 2018-07-04 2018-12-28 浙江大学 一种针对电力巡检文本的错误识别方法
CN109101483B (zh) * 2018-07-04 2020-04-14 浙江大学 一种针对电力巡检文本的错误识别方法
CN109146152A (zh) * 2018-08-01 2019-01-04 北京京东金融科技控股有限公司 一种线上事故等级预测方法和装置
CN110287321A (zh) * 2019-06-26 2019-09-27 南京邮电大学 一种基于改进特征选择的电力文本分类方法
CN110781671A (zh) * 2019-10-29 2020-02-11 西安科技大学 一种智能ietm故障维修记录文本的知识挖掘方法
CN110781671B (zh) * 2019-10-29 2023-02-14 西安科技大学 一种智能ietm故障维修记录文本的知识挖掘方法
CN112749079A (zh) * 2019-10-31 2021-05-04 ***通信集团浙江有限公司 软件测试的缺陷分类方法、装置及计算设备
CN112749079B (zh) * 2019-10-31 2023-12-26 ***通信集团浙江有限公司 软件测试的缺陷分类方法、装置及计算设备
CN111177367A (zh) * 2019-11-11 2020-05-19 腾讯科技(深圳)有限公司 案件分类方法、分类模型训练方法及相关产品
CN110895565A (zh) * 2019-11-29 2020-03-20 国网湖南省电力有限公司 一种电力设备故障缺陷文本分类方法与***
CN111191447B (zh) * 2019-12-18 2023-07-14 东软集团股份有限公司 一种设备缺陷的分类方法、装置及设备
CN111191447A (zh) * 2019-12-18 2020-05-22 东软集团股份有限公司 一种设备缺陷的分类方法、装置及设备
CN111241811A (zh) * 2020-01-06 2020-06-05 平安科技(深圳)有限公司 确定搜索词权重的方法、装置、计算机设备和存储介质
CN111241811B (zh) * 2020-01-06 2024-05-10 平安科技(深圳)有限公司 确定搜索词权重的方法、装置、计算机设备和存储介质
CN111931861A (zh) * 2020-09-09 2020-11-13 北京志翔科技股份有限公司 一种异质性数据集的异常检测方法及计算机可读存储介质
CN114444469A (zh) * 2022-01-11 2022-05-06 国家电网有限公司客户服务中心 基于95598客户服务数据资源的处理装置
CN114444469B (zh) * 2022-01-11 2024-07-09 国家电网有限公司客户服务中心 基于95598客户服务数据资源的处理装置
CN116383390A (zh) * 2023-06-05 2023-07-04 南京数策信息科技有限公司 一种用于经营管理信息的非结构化数据存储方法及云平台
CN116383390B (zh) * 2023-06-05 2023-08-08 南京数策信息科技有限公司 一种用于经营管理信息的非结构化数据存储方法及云平台
CN117057312A (zh) * 2023-10-11 2023-11-14 北京洛斯达科技发展有限公司 一种基于Python的特高压工程水保设计文档精准拆分方法
CN117057312B (zh) * 2023-10-11 2023-12-29 北京洛斯达科技发展有限公司 一种基于Python的特高压工程水保设计文档精准拆分方法

Similar Documents

Publication Publication Date Title
CN108021679A (zh) 一种并行化的电力设备缺陷文本分类方法
JP7090936B2 (ja) Esg基盤の企業評価遂行装置及びその作動方法
CN103631859B (zh) 一种面向科技项目的评审专家智能推荐方法
CN107944480A (zh) 一种企业行业分类方法
CN106227721B (zh) 汉语韵律层级结构预测***
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN107992597A (zh) 一种面向电网故障案例的文本结构化方法
CN107861942A (zh) 一种基于深度学习的电力疑似投诉工单识别方法
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
CN107229610A (zh) 一种情感数据的分析方法及装置
CN105808524A (zh) 一种基于专利文献摘要的专利自动分类方法
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN109948340A (zh) 一种卷积神经网络和XGBoost相结合的PHP-Webshell检测方法
CN110472040A (zh) 评价信息的提取方法及装置、存储介质、计算机设备
CN109299264A (zh) 文本分类方法、装置、计算机设备及存储介质
CN107832290B (zh) 中文语义关系的识别方法及装置
CN105045913B (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN110134961A (zh) 文本的处理方法、装置和存储介质
CN104142912A (zh) 一种精确的语料类别标注方法及装置
CN110097096A (zh) 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN109271516A (zh) 一种知识图谱中实体类型分类方法及***
CN106649250A (zh) 一种情感新词的识别方法及装置
CN108363691A (zh) 一种用于电力95598工单的领域术语识别***及方法
CN108735198B (zh) 基于医学疾病数据的语音合成方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180511