CN114881130A - 一种基于Bagging模型的继电保护缺陷文本定级方法 - Google Patents
一种基于Bagging模型的继电保护缺陷文本定级方法 Download PDFInfo
- Publication number
- CN114881130A CN114881130A CN202210443543.5A CN202210443543A CN114881130A CN 114881130 A CN114881130 A CN 114881130A CN 202210443543 A CN202210443543 A CN 202210443543A CN 114881130 A CN114881130 A CN 114881130A
- Authority
- CN
- China
- Prior art keywords
- defect
- text
- relay protection
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007547 defect Effects 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000011218 segmentation Effects 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000004140 cleaning Methods 0.000 claims abstract description 3
- 238000003066 decision tree Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000002950 deficient Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013145 classification model Methods 0.000 claims description 2
- 238000003860 storage Methods 0.000 claims description 2
- 230000009849 deactivation Effects 0.000 claims 1
- 238000012423 maintenance Methods 0.000 abstract description 4
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010276 construction Methods 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005293 physical law Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于Bagging模型的继电保护缺陷文本定级方法。首先通过AI技术和人工结合的方式构建继电保护专业词典,主要包括停用词表,同义词表和专业词表的构建。进一步的,利用继电保护专业词典完成对继电保护缺陷文本的预处理工作,对缺陷文本进行数据清洗和分词操作。其次,基于TF‑IDF赋值法将每条缺陷数据做文本向量化表达,引入集成学习Bagging模型,并利用模型对向量化数据训练处理。最后构建出适合实际要求的保护装置缺陷定级分类器。该方法直接从保护缺陷记录文本出发,文本预处理后通过TF‑IDF向量化获取缺陷文本中的特征,采取Bagging模型训练出缺陷定级分类器,基于该方法构建的缺陷文本定级分类器可以为现场运维人员提供辅助决策和缺陷数据分析处理做参考。
Description
技术领域
本发明涉及继电保护装置缺陷分析技术领域,尤其涉及一种基于Bagging模型的继电保护缺陷文本定级方法。
背景技术
电网作为现代社会工业生产和国民生活的基础,保障其安全稳定运行的意义越来越重大。近年来,电网规模日趋庞大,继电保护装置数量也发生了跨越式的增长。继电保护***迎来了一场新旧交替的转型期,总体呈现种类繁多、役龄分布不均,型号各异的特点。受设计缺陷、部件老化、外界环境干扰等因素的影响,继电保护装置会发生缺陷威胁电网安全,不同的缺陷等级应对措施有所不同。然而,继电保护装置数量的跨越式增长与继电保护***运行维护人员增长的不平衡导致了“设备多,人员少”的现象,进一步加大了继电保护装置运维工作负担;此外,受个人主观因素的限制,难免出现缺陷定级不准确的现象,影响消缺工作的进展。另一方面,随着人工智能、自然语言等新兴技术与电力***的物理规律、专业知识的融合,“电力人工智能”应运而生,这为开展数据的深入挖掘及应用创造了有利条件。
继电保护装置作为保障电网安全稳定运行的第一道防线,有必要从分析缺陷、消除缺陷的角度出发,结合人工智能领域的新型数据分析模型,探究适用于准确定级继电保护装置缺陷严重程度的方法,提高继电保护的正确动作率,更好的保护电网安全。
发明内容
本发明的目的是提供一种基于Bagging模型的继电保护缺陷文本定级方法,该方法能较好地实现对继电保护缺陷文本的向量化,并可以良好的同前沿的AI领域模型结合,从而构造出适合实际应用和缺陷数据分析的分类器,使保护缺陷数据等级能够快速的被划分,完成定级工作。
本发明的目的是通过以下技术方案实现的:
一种基于Bagging模型的继电保护缺陷文本定级方法。所述方法包括:
步骤1、构建继电保护专业词典;
步骤2、完成对继电保护缺陷文本的预处理工作;
步骤3、缺陷数据的文本向量化表达与特征提取;
步骤4、引入集成学习Bagging模型,构建保护装置缺陷定级分类器。
所述步骤1中,采用机器与人工相结合的方法,从文本中提取停用词并构建停用词表,并构建了继电保护缺陷文本分词词典,实现了缺陷文本中的同义词合并;整合停用词表、分词词典、同义词表各部分,最终构建了适用于保护装置缺陷文本分析的专业词典。
所述步骤2中,剔除文本中的噪音词汇并规范用词,提高缺陷文本质量,利用专业词典对缺陷文本做切词工作。
所述步骤3中,将切词后的缺陷数据利用TF-IDF实现文本向量化提供给模型处理。
所述步骤4中,利用向量化文本结合Bagging模型做训练,构建缺陷定级分类器。
由上述本发明提供的技术方案可以看出,上述方法直接从保护缺陷记录文本出发,文本预处理后通过TF-IDF向量化获取缺陷文本中的特征,采取Bagging模型训练出缺陷定级分类器,基于该方法构建的缺陷文本定级分类器可以为现场运维人员提供辅助决策和缺陷数据分析处理做参考指导。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的Bagging模型的继电保护缺陷文本定级方法总体流程示意图;
图2为本发明实施例继电保护缺陷专业词典形成流程图;
图3为本发明实施例某条缺陷记录经过TF-IDF向量化后结果示意图;
图4为本发明实施Bagging模型原理示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
下面将结合附图对本发明实施例作进一步地详细描述,如图1所示为本发明实施例提供的缺陷定级分类器构造方法总体流程示意图,所述方法包括:
步骤1、构建继电保护专业词典。
首先应用基于正则表达式的停用词识别方法,实现了缺陷文本中无关字词的剔除;采用jieba(结巴)分词与人工相结合的方法,构建了继电保护缺陷文本分词词典;采用潜在语义分析和决策树分类方法,实现了缺陷文本中的同义词合并;整合了停用词表、分词词典、同义词表各部分,最终构建了适用于保护装置缺陷文本分析的专业词典。具体流程见图2。构建的词典部分如表1所示。
表1继电保护缺陷专业词典
步骤2、完成对继电保护缺陷文本的预处理工作。
首先,对缺陷文本数据进行清洗,删除重复缺陷记录、空白缺陷记录等无意义数据;然后,按照缺陷等级将缺陷文本分为危急、严重、一般三部分,利用jieba分词结合专业词典的方法分别进行分词处理。
重复缺陷记录剔除、空白缺陷记录删除及按照缺陷等级的缺陷文本划分通过excel软件筛选完成;之后将三组文本转换为txt格式文档存储以备调用。
步骤3、缺陷数据的文本向量化表达与特征提取。
定义继电保护领域词典中的词汇作为特征项,简称为词项,所有词项的集合称为词表空间,将给定的缺陷文本数据转化为词项的序列,然后基于TF-IDF对词项的权重进行赋值。上述过程被称为词袋模型。
采用TF-IDF方法对词项进行权重赋值的公式为:
tfi=N(ti,d) (1)
tf_idfi=tfi*idfi (3)
tf表示特征频率,用以表征词项在当前文本出现的次数,特征频率越高代表重要性越大;df表示文档频率,用以表征语料中包含词项的文档的数目,df值越大,所包含的有效信息就越低;idf作为倒文档频率是反应词项在整个语料库重要性的统计特征。tf-idf定义为tf和idf的乘积。
以某区域电网为例,得到的继电保护领域词典共包含了4365个词汇,由此得到4365维的词表空间。根据TF-IDF法我们可以将缺陷文本转化得到4265维的词向量。用文本向量代表该条缺陷数据提供给分类器模型做后续处理计算。以某条缺陷记录为例,经过TF-IDF向量化后结果如图3所示。
步骤4、利用向量化文本结合Bagging模型做训练,构建缺陷定级分类器。
Bagging基于自主采样法,即有放回的从数据集中进行采样。Bagging算法随机采集和训练集样本数m一样个数的样本。其采样集和训练集样本的个数相同,但是样本内容不同。对于一个样本,它在某一次含m个样本的训练集的随机采样中,每次被采集到的概率是不被采集到的概率为如果m次采样都没有被采集中的概率是当m→∞,时,故在Bagging的每轮随机采样中,训练集中大约有36.8%的数据(被成为袋外数据Out Of Bag,简称OOB)没有被采样。从原始数据集中进行有放回的抽样S次(抽取实例和属性),得到S个新数据集(数据集中的值可能存在重复)。将这S个数据集分别作为输入,训练同一个分类模型,得到S个分类器。当对新文本类别进行预测时,会得到S个结果,对其进行票数统计,投票结果最多的类别即为该文本最终类别,图4为Bagging原理图。
本专利采取的使决策树模型作为单个分类器,对于单个决策树算法模型的使用思路过程包含以下内容:
决策树的建立过程是一个对数据不断划分的过程,每次划分中,首先要选择用于划分的特征,之后要确定划分的方案(类别/阈值)。节点划分过程中所用的指标主要是信息增益和GINI系数。信息增益衡量的是划分前后信息不确定性程度的减小。信息不确定程度一般使用信息熵来度量。
信息熵:
H(Y)=-∑pilog pi (4)
其中i表示样本的标签,pi表示该类样本出现的概率。
当对样本做出划分之后,计算样本的条件熵:
其中x表示用于划分的特征的取值。信息增益定义为信息熵与条件熵的差值:
IG=H(Y)-H(Y|X) (6)
信息增益IG越大,说明使用该特征划分数据所获得的信息量变化越大,子节点的样本“纯度”越高。
Gini指数衡量数据的不纯度:
当对样本做出划分后的Gini指数:
通过计算不纯度,在选择特征属性时选择Gini指数最小的特征为结点。同样调用sklearn函数包进行实验,参数为默认参数。模型的主要实现流程为:
1)将自主采样法采样获得的数据以及特征集输入,本实验的特征集为TF-IDF赋值法形成所有维度的词汇;
2)选择基尼指数最小的特征和相应切分点作为根节点的特征值和切分标准;
3)若某节点在特征属性下的子节点为一类,则该节点为叶子节点;若子节点并非一类则将子节点作为数据集继续步骤2);
4)重复步骤输出决策树,并将测试集数据输入以检测该决策树分类效果,输出分类器缺陷定级准确率。
依照以上步骤形成S个决策树模型的基分类器,利用基分类器对每条数据分类投票,划分缺陷等级。本专利采用sklearn函数包的BaggingClassifier,其中除了以下参数设置为n_estimators=600(分类器个数),max_samples=0.7(学习率),max_features=0.1,其余参数均为默认值。
为了全面评估训练模型的准确性,需要通过K折交叉法(K=10)对原始数据进行交叉验证。将原始数据均分成10组,每个子集数据分别做一次测试集,其余的9组子集数据作为训练集,得到10个模型,分类器的最终性能指标由10个模型准确率的均值确定。基于10折交叉方法,将某区域电网继电保护单年度缺陷文本数据输入上述构造的分类器进行缺陷定级,决策树基分类器和Bagging分类器结果如表2所示。
表2缺陷文本定级分类器的分类准确率对比
从表中看出单个基分类器的缺陷定级准确率只有68.9%,采取bagging模型的缺陷定级模型正确率达到了90.5%。具有良好的定级效果。
综上,本发明所述的基于Bagging模型的继电保护缺陷文本定级方法可行。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围。
Claims (5)
1.一种基于Bagging模型的继电保护缺陷文本定级方法,所述方法包括:
步骤1、构建继电保护专业词典;
步骤2、完成对继电保护缺陷文本的预处理工作;
步骤3、缺陷数据的文本向量化表达与特征提取;
步骤4、引入集成学习Bagging模型,构建保护装置缺陷定级分类器。
3.根据权利要求1所述一种基于Bagging模型的继电保护缺陷文本定级方法,其特征在于,在所述步骤2中,继电保护缺陷文本的预处理工作包括噪音数据去除、分词处理和数据分类,具体地:
首先,对缺陷文本数据进行清洗,删除重复缺陷记录、空白缺陷记录等无意义数据;然后,按照缺陷等级将缺陷文本分为危急、严重、一般三部分,利用jieba分词结合专业词典的方法分别进行分词处理;
重复缺陷记录剔除、空白缺陷记录删除及按照缺陷等级的缺陷文本划分通过excel软件筛选完成;之后将三组文本转换为txt格式文档存储以备调用。
4.根据权利要求1所述一种基于Bagging模型的继电保护缺陷文本定级方法,其特征在于,在所述步骤3中,缺陷数据的文本向量化表达与特征提取,具体如下:
1)定义继电保护领域词典中的词汇作为特征项,简称为词项,所有词项的集合称为词表空间,将给定的缺陷文本数据转化为词项的序列,然后基于TF-IDF对词项的权重进行赋值;上述过程被称为词袋模型;
2)根据TF-IDF赋值法得到的继电保护领域词典共包含了4365个词汇,由此得到4365维的词表空间。根据TF-IDF法我们可以将缺陷文本转化得到4265维的词向量;用文本向量代表该条缺陷数据提供给分类器模型做后续处理计算。
5.根据权利要求1所述一种基于Bagging模型的继电保护缺陷文本定级方法,其特征在于,在所述步骤4中,利用向量化文本结合Bagging模型做训练,构建缺陷定级分类器,具体如下:
1)从训练集中抽取2820条数据(测试集数据条数×学习率),从数据中通过自主采样法训练基分类模型;
2)重复步骤1)600次形成600个决策树基分类器;
3)利用决策树基分类器对每条测试数据分类投票,划分缺陷等级;
4)采用十折交叉法,评估BaggingClassifier准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210443543.5A CN114881130A (zh) | 2022-04-26 | 2022-04-26 | 一种基于Bagging模型的继电保护缺陷文本定级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210443543.5A CN114881130A (zh) | 2022-04-26 | 2022-04-26 | 一种基于Bagging模型的继电保护缺陷文本定级方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114881130A true CN114881130A (zh) | 2022-08-09 |
Family
ID=82671198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210443543.5A Pending CN114881130A (zh) | 2022-04-26 | 2022-04-26 | 一种基于Bagging模型的继电保护缺陷文本定级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881130A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117472789A (zh) * | 2023-12-28 | 2024-01-30 | 成都工业学院 | 基于集成学习的软件缺陷预测模型构建方法和装置 |
-
2022
- 2022-04-26 CN CN202210443543.5A patent/CN114881130A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117472789A (zh) * | 2023-12-28 | 2024-01-30 | 成都工业学院 | 基于集成学习的软件缺陷预测模型构建方法和装置 |
CN117472789B (zh) * | 2023-12-28 | 2024-03-12 | 成都工业学院 | 基于集成学习的软件缺陷预测模型构建方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112732934B (zh) | 电网设备分词词典和故障案例库构建方法 | |
JP2018060364A (ja) | 因果関係認識装置及びそのためのコンピュータプログラム | |
CN106021410A (zh) | 一种基于机器学习的源代码注释质量评估方法 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN106599054A (zh) | 一种题目分类及推送的方法及*** | |
CN111767397A (zh) | 一种电力***二次设备故障短文本数据分类方法 | |
CN111767398A (zh) | 基于卷积神经网络的二次设备故障短文本数据分类方法 | |
CN112837175B (zh) | 基于信息抽取技术的电力频繁停电工单信息抽取方法及*** | |
CN110750978A (zh) | 情感倾向分析方法、装置、电子设备及存储介质 | |
CN112527958A (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN109684447A (zh) | 一种基于文本挖掘的电网调度运行日志故障信息分析方法 | |
CN114492926A (zh) | 一种煤矿安全隐患文本分析预测方法和*** | |
CN112632982A (zh) | 一种能用于供应商评价的对话文本情感分析方法 | |
CN114881130A (zh) | 一种基于Bagging模型的继电保护缺陷文本定级方法 | |
CN114610838A (zh) | 文本情感分析方法、装置、设备及存储介质 | |
CN111489030A (zh) | 一种基于文本分词的离职预测方法及*** | |
CN107562720B (zh) | 一种电力信息网络安全联动防御的告警数据匹配方法 | |
WO2024087754A1 (zh) | 一种多维度文本综合辨识方法 | |
CN114860931A (zh) | 一种基于Voting Classifier模型的继电保护缺陷文本定级方法 | |
CN111400495A (zh) | 一种基于模板特征的视频弹幕消费意图识别方法 | |
CN113762589A (zh) | 一种输变电工程变更预测***及方法 | |
CN114610576A (zh) | 一种日志生成监控方法和装置 | |
CN114818919A (zh) | 一种基于XGBoost模型的继电保护缺陷文本定级方法 | |
CN111341404A (zh) | 一种基于ernie模型的电子病历数据组解析方法及*** | |
CN113641778A (zh) | 一种对话文本的主题识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |