CN114154561B - 一种基于自然语言处理和随机森林的电力数据治理方法 - Google Patents
一种基于自然语言处理和随机森林的电力数据治理方法 Download PDFInfo
- Publication number
- CN114154561B CN114154561B CN202111345415.9A CN202111345415A CN114154561B CN 114154561 B CN114154561 B CN 114154561B CN 202111345415 A CN202111345415 A CN 202111345415A CN 114154561 B CN114154561 B CN 114154561B
- Authority
- CN
- China
- Prior art keywords
- data
- random forest
- model
- feature
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003058 natural language processing Methods 0.000 title claims abstract description 18
- 238000013523 data management Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 41
- 230000011218 segmentation Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000002159 abnormal effect Effects 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 238000013075 data extraction Methods 0.000 claims abstract description 5
- 238000003066 decision tree Methods 0.000 claims description 15
- 238000013524 data verification Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000012937 correction Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于自然语言处理和随机森林的电力数据治理方法,包括:数据抽取,获取训练集F;对训练集F进行特征数据提取,将型号数据进行分词得到特征数据集合;第三步:对特征数据集合进行去停用词形成数据集合;第四步:对数据集合进行分词,然后经过word2vec变换形成词向量;第五步:对词向量进行随机森林算法分类;第六步:随机森林分类模型构建;第七步:随机森林分类模型确定后,在使用阶段将数据分类,然后将每一类的异常数据返回给用户,并且将正常数据推荐给用户,由用户参考修改。本发明利用大数据对数据异常问题进行归类分析,提供给数据产生方进行整改,能够从源头上降低数据问题,为数据源头整改提供参考。
Description
技术领域
本发明涉及计算机科学技术领域,具体是一种基于自然语言处理和随机森林的电力数据治理方法。
背景技术
电力数据,特别是电力设备档案数据是电网生产工作开展的基础,目前各类生产设备档案数据很多都存储在设备(资产)运维精益管理***(PMS2.0)中,总数据量早已超过100G,涉及到200多种设备,例如:变压器、母线等。
公司设备档案数据由基层班组人员负责维护,电力生产的各个环节也都以设备档案数据为基础,只有保证设备档案数据的准确性,电力相关的各个流程和业务才能更准确的展开,从而为电力运维检修和电力分析决策提供更坚实的支撑。
目前电网生产设备档案数据存在不完整、不准确等问题,例如:设备档案关键参数不完整、设备台账参数填写错误等。这些问题,特别是数据不准确的问题很难通过提炼规则,继而开发程序来进行错误数据排查;现状是采用运维人员人工核对的方法进行数据排查,但是这种方法效率低、难度大,并且效果欠佳。
发明内容
针对现有技术存在的问题,本发明提供一种基于自然语言处理和随机森林的电力数据治理方法,可实现电力设备档案数据的数据治理和自动排错。
一种基于自然语言处理和随机森林的电力数据治理方法,包括如下步骤:
第一步:数据抽取,获取训练集:获取柱上变压器的型号数据和额定容量数据,并将其中的70%数据作为训练集F;
第二步:对训练集F进行特征数据提取,将型号数据进行分词得到特征数据集合S={s1,s2,s3,...,sn};
第三步:对特征数据集合S进行去停用词形成数据集合S',S'={s1,s2,s3…,sm},其中m≤n;
第四步:对数据集合S'进行分词,然后经过word2vec变换形成词向量v(s’),其中v(s’)表示数据集合S'经过word2vec变换后的词向量,k表示词向量的长度;
第五步:对词向量v(s’)进行随机森林算法分类,其中标签列是额定容量数据L;
第六步:随机森林分类模型构建:针对第五步得到的分类结果,得到随机森林分类模型的准确率,若准确率未达到预期的阈值,则返回步骤四和步骤五进行参数调整,直到准确率达到预期的阈值;
第七步:随机森林分类模型确定后,在使用阶段将数据分类,然后将每一类的异常数据返回给用户,并且将正常数据推荐给用户,由用户参考修改。
进一步的,第一步中数据抽取后还进行数据清洗及过滤:首先过滤掉变压器型号和额定容量字段为空的行,然后过滤掉变压器型号字段中不包含“-”的行,最后过滤掉变压器型号字段中既不包含“m”也不包含“M”的行。
进一步的,第三步中对特征数据集合S进行去停用词具体为:将变压器型号字段中的“-”和“/”用一个空格代替。
进一步的,第五步中,对型号数据转换成形成的词向量v(s’)进行随机森林算法分类的过程如下:
(1)设定随机森林决策树的总树数为B,其中一棵决策树b的生成过程如下:
(a)从词向量v(s’)中采用有放回的形式随机地选取N个样本;
(b)然后递归地生成随机森林树Tb;
(2)输出随机森林树的集合
(3)针对一个新的数据点x(即用户新输入的型号数据)做一个分类预测:假设表示该新的数据点x在第b棵树上的分类,那么/>
进一步的,其中递归地生成随机森林树Tb具体步骤包括:
i从k个词向量长度中随机地选取个k'个长度的特征向量,其中k’≤k;
ii从k'个特征向量中选一个使数据集信息不确定最小的特征进行数据切分,该特征也称为最好的切分特征;
iii将选取的最好的切分特征向量节点分成两个子节点,直到每个节点都足够“纯”为止,最终形成一个完整的随机森林树Tb,另外,如果切分特征向量节点组成的决策树达到设置的最大深度值,则不管该节点是否足够“纯”都停止切分。
进一步的,计算使数据集信息不确定最小的方式包括:基于信息增益、基于信息增益率和基于基尼系数。
进一步的,第六步具体包括:针对第五步得到的分类结果,人工验证分类中的数据,将异常数据和误判数据选出,验证每个类中的数据误判的情况,得到数据验证的准确率,对所有的分类中的准确率求取平均值,得到随机森林分类模型的准确率,然后判断模型准确率是否达到预期的阈值,如果没有则转到第四步和第五步,重新调整第四步中词向量的长度k和第五步中的决策树的个数B、计算使数据集信息不确定最小的方法、决策树的最大深度,直到准确率达到预期的阈值。
进一步的,随机森林分类模型超参数确定的过程采用网格搜索法进行,即通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。
本发明利用自然语言处理和随机森林技术开展数据治理,对大量数据中异常的自动诊断,并为数据的整改提供建议,能够减少数据校验工作对业务人员的强依赖性,对于完全无规则可提炼的分散型数据异常情况,也可以机器学习实现自动处理,避免人力筛查带来的复杂工作量。
附图说明
图1是本发明基于自然语言处理和随机森林的电力数据治理方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了描述本方案,先介绍样例数据(见表1)
表1样例数据
从表1中可以看到样例数据有3列,带有物理及业务含义的主要有变压器型号和额定容量2列;根据业务规则,每一个确定的变压器型号都对应唯一的一个额定容量,但是变压器型号的写法各式各样,例如S9-M-50/10、S11-M-50/10、S9-50/10、S9-50、S9-50KVA的变压器型号对应的额定容量都是50,额定容量50这个数值隐藏在变压器型号的填写信息中,但是位置不确定,也没有明确的规则,但是有经验的业务人员基本上可以通过变压器型号的值判断出该型号对应的额定容量应该为多少,但是这种方法低效,并且难度大。
如图1所示,本发明实施例提供一种基于自然语言处理和随机森林的电力数据治理方法,其采用word2vec算法对变压器型号进行特征提取,然后基于这些特征用随机森林分类算法构建模型,具体步骤如下:
第一步:数据抽取,获取训练集:获取柱上变压器的型号数据和额定容量数据,并将其中的70%数据作为训练集F;数据抽取后还可可进行数据清洗及过滤,具体的,首先过滤掉变压器型号和额定容量字段为空的行,然后过滤掉变压器型号字段中不包含“-”的行,最后过滤掉变压器型号字段中既不包含“m”也不包含“M”的行,此处将变压器型号命名为xh,额定容量字段命名为edrl;
第二步:对训练集F进行特征数据提取,将型号数据进行分词得到特征数据集合S={s1,s2,s3,…,sn};
第三步:对特征数据集合S进行去停用词(例如“-”和“/”等)形成数据集合S',S'={s1,s2,s3…,sm},其中m≤n;例如,将变压器型号字段中的“-”和“/”用“”(一个空格)代替,经处理及变换的变压器型号命名为xh1,例如变压器型号字段为“S9-M-50/10”(xh)经处理后会变成“S9 M 50 10”(xh1);
第四步:对数据集合S'进行分词,然后经过word2vec变换形成词向量v(s’),其中v(s’)表示数据集合S'经过word2vec变换后的词向量,k表示词向量的长度;
具体的,用tokenizer对处理及变换后的变压器型号字段(xh1)内容进行分词,并对分词后的数组字段命名为xh2,例如“S9 M 50 10”(xh1)经tokenizer分词后会变成“[S9,M,50,10]”(xh2),然后用字段xh2来训练word2vec模型,得到word2vec模型的输出字段命名为rawFeatures,字段rawFeatures是一个多维的特征向量,例如“[S9,M,50,10]”(xh2)作为word2vec模型的输入,得到word2vec模型的输出:
[-0.3870379527409871,0.883052121847868,0.16217718521753946,0.24961639444033304,0.09006961186726888,-0.3612159974873066](rawFeatures)。
第五步:对词向量v(s’)进行随机森林算法分类,其中标签列是额定容量数据L;
在第五步中,对型号数据转换成形成的词向量v(s’)进行随机森林算法分类的过程如下:
1.设定随机森林决策树的总树数为B,其中一棵决策树b的生成过程如下:
(a)从词向量v(s’)中采用有放回的形式随机地选取N个样本;
(b)然后通过以下三个步骤递归地生成随机森林树Tb;
i从k个词向量长度中随机地选取个k'个长度的特征向量,其中k’≤k;
ii从k'个特征向量中选一个使数据集信息不确定最小的特征进行数据切分,该特征也称为最好的切分特征,需要说明的是,计算使数据集信息不确定最小的方式目前来说有三种,分别是ID3(基于信息增益)、C4.5(基于信息增益率)、CART(基于基尼系数)。
iii将选取的最好的切分特征向量节点分成两个子节点,直到每个节点都足够“纯”为止,最终形成一个完整的随机森林树Tb,另外,如果切分特征向量节点组成的决策树达到设置的最大深度值,则不管该节点是否足够“纯”都停止切分。
2.输出随机森林树的集合
3.针对一个新的数据点x(即用户新输入的型号数据)做一个分类预测:
假设表示该新的数据点x在第b棵树上的分类,那么
第六步:随机森林分类模型构建:针对第五步得到的分类结果,人工验证分类中的数据,将异常数据和误判数据选出,验证每个类中的数据误判的情况,得到数据验证的准确率,对所有的分类中的准确率求取平均值,得到随机森林分类模型的准确率,然后判断模型准确率是否达到预期的阈值,如果没有则转到第四步和第五步,重新调整第四步中词向量的长度k和第五步中的决策树的个数B、计算使数据集信息不确定最小的方法、决策树的最大深度,直到准确率达到预期的阈值,例如准确率预期阈值设为95%;整个随机森林分类模型超参数确定的过程采用网格搜索法进行,即通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。
第七步:随机森林分类模型确定后,在使用阶段将数据分类,然后将每一类的异常数据返回给用户,并且将正常数据推荐给用户,由用户参考修改。
进一步的,在用户使用过程中,通过用户的反馈来修正模型的标签列(即额定容量数据)增加随机森林分类时正确分类的概率。
部分样例数据中针对变压器型号给出的额定容量推荐值如下表2:
表2
本发明利用自然语言处理和随机森林技术开展数据治理,对大量数据中异常的自动诊断,并为数据的整改提供建议,能够减少数据校验工作对业务人员的强依赖性,对于完全无规则可提炼的分散型数据异常情况,也可以机器学习实现自动处理,避免人力筛查带来的复杂工作量(采用人工手段进行核对,每100条数据往往需要投入3人天的工作量,而通过本发明的方法几分钟即可完成数万条的数据治理,并且治理的准确率可达到95%以上),本发明利用大数据对数据异常问题进行归类分析,提供给数据产生方进行整改,能够从源头上降低数据问题,为数据源头整改提供参考。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.一种基于自然语言处理和随机森林的电力数据治理方法,其特征在于:包括如下步骤:
第一步:数据抽取,获取训练集:获取柱上变压器的型号数据和额定容量数据,并将其中的70%数据作为训练集F;
第二步:对训练集F进行特征数据提取,将型号数据进行分词得到特征数据集合S={s1,s2,s3,...,sn};
第三步:对特征数据集合S进行去停用词形成数据集合S',S'={s1,s2,s3…,sm},其中m≤n;
第四步:对数据集合S'进行分词,然后经过word2vec变换形成词向量v(s’),其中v(s’)表示数据集合S'经过word2vec变换后的词向量,k表示词向量的长度;
第五步:对词向量v(s’)进行随机森林算法分类,其中标签列是额定容量数据L;
第六步:随机森林分类模型构建:针对第五步得到的分类结果,得到随机森林分类模型的准确率,若准确率未达到预期的阈值,则返回步骤四和步骤五进行参数调整,直到准确率达到预期的阈值;
第七步:随机森林分类模型确定后,在使用阶段将数据分类,然后将每一类的异常数据返回给用户,并且将正常数据推荐给用户,由用户参考修改。
2.如权利要求1所述的基于自然语言处理和随机森林的电力数据治理方法,其特征在于:第一步中数据抽取后还进行数据清洗及过滤:首先过滤掉变压器型号和额定容量字段为空的行,然后过滤掉变压器型号字段中不包含“-”的行,最后过滤掉变压器型号字段中既不包含“m”也不包含“M”的行。
3.如权利要求1所述的基于自然语言处理和随机森林的电力数据治理方法,其特征在于:第三步中对特征数据集合S进行去停用词具体为:将变压器型号字段中的“-”和“/”用一个空格代替。
4.如权利要求1所述的基于自然语言处理和随机森林的电力数据治理方法,其特征在于:第五步中,对型号数据转换成形成的词向量v(s’)进行随机森林算法分类的过程如下:
(1)设定随机森林决策树的总树数为B,其中一棵决策树b的生成过程如下:
(a)从词向量v(s’)中采用有放回的形式随机地选取N个样本;
(b)然后递归地生成随机森林树Tb;
(2)输出随机森林树的集合
(3)针对一个新的数据点x(即用户新输入的型号数据)做一个分类预测:假设表示该新的数据点x在第b棵树上的分类,那么/>
5.如权利要求4所述的基于自然语言处理和随机森林的电力数据治理方法,其特征在于:其中递归地生成随机森林树Tb具体步骤包括:
i从k个词向量长度中随机地选取个k'个长度的特征向量,其中k’≤k;
ii从k'个特征向量中选一个使数据集信息不确定最小的特征进行数据切分,该特征也称为最好的切分特征;
iii将选取的最好的切分特征向量节点分成两个子节点,直到每个节点都足够“纯”为止,最终形成一个完整的随机森林树Tb,另外,如果切分特征向量节点组成的决策树达到设置的最大深度值,则不管该节点是否足够“纯”都停止切分。
6.如权利要求5所述的基于自然语言处理和随机森林的电力数据治理方法,其特征在于:计算使数据集信息不确定最小的方式包括:基于信息增益、基于信息增益率和基于基尼系数。
7.如权利要求1所述的基于自然语言处理和随机森林的电力数据治理方法,其特征在于:第六步具体包括:针对第五步得到的分类结果,人工验证分类中的数据,将异常数据和误判数据选出,验证每个类中的数据误判的情况,得到数据验证的准确率,对所有的分类中的准确率求取平均值,得到随机森林分类模型的准确率,然后判断模型准确率是否达到预期的阈值,如果没有则转到第四步和第五步,重新调整第四步中词向量的长度k和第五步中的决策树的个数B、计算使数据集信息不确定最小的方法、决策树的最大深度,直到准确率达到预期的阈值。
8.如权利要求7所述的基于自然语言处理和随机森林的电力数据治理方法,其特征在于:随机森林分类模型超参数确定的过程采用网格搜索法进行,即通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111345415.9A CN114154561B (zh) | 2021-11-15 | 2021-11-15 | 一种基于自然语言处理和随机森林的电力数据治理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111345415.9A CN114154561B (zh) | 2021-11-15 | 2021-11-15 | 一种基于自然语言处理和随机森林的电力数据治理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114154561A CN114154561A (zh) | 2022-03-08 |
CN114154561B true CN114154561B (zh) | 2024-02-27 |
Family
ID=80460062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111345415.9A Active CN114154561B (zh) | 2021-11-15 | 2021-11-15 | 一种基于自然语言处理和随机森林的电力数据治理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114154561B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066553A (zh) * | 2017-03-24 | 2017-08-18 | 北京工业大学 | 一种基于卷积神经网络与随机森林的短文本分类方法 |
CN108537281A (zh) * | 2018-04-13 | 2018-09-14 | 贵州电网有限责任公司 | 一种基于随机森林的电力用户特征识别分类方法 |
CN109472293A (zh) * | 2018-10-12 | 2019-03-15 | 国家电网有限公司 | 一种基于机器学习的电网设备档案数据纠错方法 |
CN110059183A (zh) * | 2019-03-22 | 2019-07-26 | 重庆邮电大学 | 一种基于大数据的汽车行业用户观点情感分类方法 |
AU2020100709A4 (en) * | 2020-05-05 | 2020-06-11 | Bao, Yuhang Mr | A method of prediction model based on random forest algorithm |
WO2020119403A1 (zh) * | 2018-12-13 | 2020-06-18 | 平安医疗健康管理股份有限公司 | 住院数据异常检测方法、装置、设备及可读存储介质 |
WO2021022970A1 (zh) * | 2019-08-05 | 2021-02-11 | 青岛理工大学 | 一种基于多层随机森林的零部件识别方法及*** |
CN112364928A (zh) * | 2020-11-18 | 2021-02-12 | 浙江工业大学 | 一种变电站故障数据诊断中的随机森林分类方法 |
CN112417863A (zh) * | 2020-11-27 | 2021-02-26 | 中国科学院电子学研究所苏州研究院 | 基于预训练词向量模型与随机森林算法的中文文本分类方法 |
-
2021
- 2021-11-15 CN CN202111345415.9A patent/CN114154561B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066553A (zh) * | 2017-03-24 | 2017-08-18 | 北京工业大学 | 一种基于卷积神经网络与随机森林的短文本分类方法 |
CN108537281A (zh) * | 2018-04-13 | 2018-09-14 | 贵州电网有限责任公司 | 一种基于随机森林的电力用户特征识别分类方法 |
CN109472293A (zh) * | 2018-10-12 | 2019-03-15 | 国家电网有限公司 | 一种基于机器学习的电网设备档案数据纠错方法 |
WO2020119403A1 (zh) * | 2018-12-13 | 2020-06-18 | 平安医疗健康管理股份有限公司 | 住院数据异常检测方法、装置、设备及可读存储介质 |
CN110059183A (zh) * | 2019-03-22 | 2019-07-26 | 重庆邮电大学 | 一种基于大数据的汽车行业用户观点情感分类方法 |
WO2021022970A1 (zh) * | 2019-08-05 | 2021-02-11 | 青岛理工大学 | 一种基于多层随机森林的零部件识别方法及*** |
AU2020100709A4 (en) * | 2020-05-05 | 2020-06-11 | Bao, Yuhang Mr | A method of prediction model based on random forest algorithm |
CN112364928A (zh) * | 2020-11-18 | 2021-02-12 | 浙江工业大学 | 一种变电站故障数据诊断中的随机森林分类方法 |
CN112417863A (zh) * | 2020-11-27 | 2021-02-26 | 中国科学院电子学研究所苏州研究院 | 基于预训练词向量模型与随机森林算法的中文文本分类方法 |
Non-Patent Citations (2)
Title |
---|
基于深度神经网络的电力客户诉求预判;彭路;朱君;邹云峰;;计算机与现代化;20200515(05);26-32 * |
面向图书主题分类的随机森林算法的应用研究;孙彦雄;李业丽;边玉宁;;计算机技术与发展;20200610(06);71-76 * |
Also Published As
Publication number | Publication date |
---|---|
CN114154561A (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111782472B (zh) | ***异常检测方法、装置、设备及存储介质 | |
Fan et al. | Chaff from the wheat: Characterizing and determining valid bug reports | |
CN108549954B (zh) | 风险模型训练方法、风险识别方法、装置、设备及介质 | |
WO2019238109A1 (zh) | 一种故障根因分析的方法及装置 | |
Sethi et al. | DLPaper2Code: Auto-generation of code from deep learning research papers | |
CN111882446A (zh) | 一种基于图卷积网络的异常账户检测方法 | |
Kobayashi et al. | Towards an NLP-based log template generation algorithm for system log analysis | |
CN109492106B (zh) | 一种文本代码相结合的缺陷原因自动分类方法 | |
Angeli et al. | Stanford’s 2014 slot filling systems | |
Zheng et al. | A self-adaptive temporal-spatial self-training algorithm for semisupervised fault diagnosis of industrial processes | |
CN116245107B (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN112364352A (zh) | 可解释性的软件漏洞检测与推荐方法及*** | |
CN113590396A (zh) | 一次设备的缺陷诊断方法、***、电子设备及存储介质 | |
CN112926627A (zh) | 一种基于电容型设备缺陷数据的设备缺陷时间预测方法 | |
CN117131449A (zh) | 面向数据治理的具有传播学习能力的异常识别方法及*** | |
CN113221960A (zh) | 一种高质量漏洞数据收集模型的构建方法及收集方法 | |
CN114117029B (zh) | 一种基于多层次信息增强的解决方案推荐方法及*** | |
Rosli et al. | The design of a software fault prone application using evolutionary algorithm | |
CN114154561B (zh) | 一种基于自然语言处理和随机森林的电力数据治理方法 | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及*** | |
CN117370568A (zh) | 一种基于预训练语言模型的电网主设备知识图谱补全方法 | |
CN115438190B (zh) | 一种配电网故障辅助决策知识抽取方法及*** | |
Widad et al. | Quality Anomaly Detection Using Predictive Techniques: An Extensive Big Data Quality Framework for Reliable Data Analysis | |
CN115470854A (zh) | 信息***故障分类方法及分类*** | |
CN115169490A (zh) | 一种日志分类方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |