CN112328785A - 一种电力领域文本分类的方法和存储设备 - Google Patents
一种电力领域文本分类的方法和存储设备 Download PDFInfo
- Publication number
- CN112328785A CN112328785A CN202011070721.1A CN202011070721A CN112328785A CN 112328785 A CN112328785 A CN 112328785A CN 202011070721 A CN202011070721 A CN 202011070721A CN 112328785 A CN112328785 A CN 112328785A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- classification
- training
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 118
- 238000011156 evaluation Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000013135 deep learning Methods 0.000 claims description 55
- 238000012795 verification Methods 0.000 claims description 15
- 230000003321 amplification Effects 0.000 claims description 12
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 12
- 238000010200 validation analysis Methods 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 238000003780 insertion Methods 0.000 claims description 8
- 230000037431 insertion Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000004069 differentiation Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,特别涉及一种电力领域文本分类的方法和存储设备。所述一种电力领域文本分类的方法,包括步骤:构建电力预训练模型;获取待训练数据,对待训练数据进行预处理;对预处理后的待训练数据进行随机取样生成K组训练数据;设置M个超参组合,生成L*K*M个业务分类子模型;对L*K*M个业务分类子模型进行验证,得每个业务分类子模型的模型评估数据;根据模型评估数据调整模型参数,直至确定最佳超参使得获得的业务分类子模型符合预设条件,共生成L*K个符合预设条件的业务分类子模型;输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果。通过上述步骤,大大提高电力领域文本分类准确率。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种电力领域文本分类的方法和存储设备。
背景技术
近年来,随着人工智能技术的快速发展,各行各业对人工智能、自然语言处理技术的利用越来越广泛。因此文本分类技术作为自然语言处理技术,受到越来越多的关注。
文本分类是一种通过技术手段并按照一定的分类体系或标准对文本进行自动分类标记的方法。文本分类有着极其广泛的应用场景,如针对网络上大量的新闻,手动归档显然难度很大,因此可以用分类技术判断某个新闻是经济的,还是文化的;电商领域中,可以对商品的评价进行分类,比如分为差评,中评、好评;邮件***中,可以用文本分类器快速判断是否是垃圾邮件。
文本分类应用的广泛兴起、大数据时代带来的数据***性的增长,势必对文本分类的技术提出更进一步的要求,如:更高的准确率、更高的召回率、更贴合垂直领域的分类技术、更强大的分类性能等。
目前,针对通用的文本分类或行业领域的文本分类均存在的一定的方法,如申请号为:CN201811068951.7和申请号为:CN201710832802.2的两篇申请文件中的技术方案均未常见的文本分类方法,而这两种方案都是基于向量空间的技术路线出发,延伸而出的一系列解决方案,这些方案均停留在文档字词本身。这些方案均未考虑到文档的语义,特别是不同领域很多文字的语义是完全不一样的,目前还未有针对电力领域的好的文本分类方法,若直接使用现有模型效果和性能都会大幅度下降,这是因为电力领域具有强烈的领域特征,存在大量的电力专业术语,现有技术均未能很好地解决该技术问题。
发明内容
为此,需要提供一种电力领域文本分类的方法,用以解决现有技术中电力领域文本分类性能低、准确率低的问题。具体技术方案如下:
一种电力领域文本分类的方法,包括步骤:
构建电力预训练模型;
获取待训练数据,对所述待训练数据进行预处理;
选取L个深度学习框架,所述L值大于等于2;
对预处理后的待训练数据进行随机取样生成K组训练数据,所述训练数据包括:模型训练数据和模型验证数据;
设置M个超参组合,结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型;
根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证,得每个业务分类子模型的模型评估数据;
根据所述模型评估数据调整模型参数,直至确定最佳超参使得获得的业务分类子模型符合预设条件,共生成L*K个符合预设条件的业务分类子模型;
输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果。
进一步的,所述“构建电力预训练模型”,还包括步骤:
获取电力语料;
获取预设的预训练模型;
通过预设的预训练模型对所述电力语料进行训练得电力预训练模型。
进一步的,所述“对所述待训练数据进行预处理”,还包括步骤:
对所述待训练数据进行初步处理,所述初步处理包括:去除特殊字符、删除重复数据;
对所述初步处理后的待训练数据进行数据扩增操作,所述数据扩增操作包括以下中的一种或多种:同义词替换、随机***、随机交换、随机删除。
进一步的,所述“选取L个深度学习框架”,还包括步骤:
选取4个深度学习框架;
所述“输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果”,还包括步骤:
所述待预测文本在所述4K个符合预设条件的业务分类子模型属于分类i的结果个数分别为:a、b、c、d,所述4个深度学习框架对应的得分权重分别为:T、K、V、W,则所述待预测文本属于分类i的概率为:
Pi=(aT+bK+cV+dW)/(4K);
计算所述待预测文本的所有的分类概率,得最终的分类结果。
进一步的,所述深度学习框架包括以下中的一种或多种:Bert、paddle、xlnet、albert。
为解决上述技术问题,还提供了一种存储设备,具体技术方案如下:
一种存储设备,其中存储有指令集,所述指令集用于执行:构建电力预训练模型;
获取待训练数据,对所述待训练数据进行预处理;
选取L个深度学习框架,所述L值大于等于2;
对预处理后的待训练数据进行随机取样生成K组训练数据,所述训练数据包括:模型训练数据和模型验证数据;
设置M个超参组合,结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型;
根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证,得每个业务分类子模型的模型评估数据;
根据所述模型评估数据调整模型参数,直至确定最佳超参使得获得的业务分类子模型符合预设条件,共生成L*K个符合预设条件的业务分类子模型;
输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果。
进一步的,所述指令集还用于执行:所述“构建电力预训练模型”,还包括步骤:
获取电力语料;
获取预设的预训练模型;
通过预设的预训练模型对所述电力语料进行训练得电力预训练模型。
进一步的,所述指令集还用于执行:所述“对所述待训练数据进行预处理”,还包括步骤:
对所述待训练数据进行初步处理,所述初步处理包括:去除特殊字符、删除重复数据;
对所述初步处理后的待训练数据进行数据扩增操作,所述数据扩增操作包括以下中的一种或多种:同义词替换、随机***、随机交换、随机删除。
进一步的,所述指令集还用于执行:所述“选取L个深度学习框架”,还包括步骤:
选取4个深度学习框架;
所述“输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果”,还包括步骤:
所述待预测文本在所述4K个符合预设条件的业务分类子模型属于分类i的结果个数分别为:a、b、c、d,所述4个深度学习框架对应的得分权重分别为:T、K、V、W,则所述待预测文本属于分类i的概率为:
Pi=(aT+bK+cV+dW)/(4K);
计算所述待预测文本的所有的分类概率,得最终的分类结果。
进一步的,所述深度学习框架包括以下中的一种或多种:Bert、paddle、xlnet、albert。
本发明的有益效果是:通过构建电力预训练模型;在后续模型训练过程中特地使用的就是该电力预训练模型,使得训练所得的业务分类字模型更适用于电力领域的文本分类,大大提高文本分类精确度,再紧接着获取待训练数据,对所述待训练数据进行预处理;选取L个深度学习框架,所述L值大于等于2;对预处理后的待训练数据进行随机取样生成K组训练数据,所述训练数据包括:模型训练数据和模型验证数据;设置M个超参组合,结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型;根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证,得每个业务分类子模型的模型评估数据;根据所述模型评估数据调整模型参数,直至确定最佳超参使得获得的业务分类子模型符合预设条件,共生成L*K个符合预设条件的业务分类子模型;输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果。在上述步骤中,采用不同的深度学习框架进行模型训练,并且对于待训练数据经过预处理,且根据所述模型评估数据调整模型参数,直至确定最佳超参使得获得的业务分类子模型符合预设条件,最后用符合预设条件的业务分类子模型来获得文本分类,大大提高电力领域文本分类准确率。
附图说明
图1为具体实施方式所述一种电力领域文本分类的方法的流程图;
图2为具体实施方式所述电力预训练模型构建示意图;
图3为具体实施方式所述模型训练示意图;
图4为具体实施方式所述业务分类子模型生成示意图;
图5为具体实施方式所述模型预测示意图;
图6为具体实施方式所述一种存储设备的模块示意图;
附图标记说明:
600、存储设备。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,在本实施方式中,一种电力领域文本分类的方法可应用在一种存储设备上,所述存储设备包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端等。
本方案的核心技术在于构建了属于电力领域自己的电力预训练模型,同时采用了多个差异化程度较大的不同深度学习框架构建属于电力领域自己的业务分类子模型,其中深度学习框架如:Bert、paddle、xlnet、albert。如此可以在后续步骤进行模型融合时,起到的促进程度越大,即:使得最后文本分类结果越佳(具体原理为某待检测文本,通过差异化程度较大的深度学习框架最后得出来的分类结果指向都相同,该结果会更有代表性,准确度更高)。
步骤S101:构建电力预训练模型。
步骤S102:获取待训练数据,对所述待训练数据进行预处理。
步骤S103:选取L个深度学习框架,所述L值大于等于2。
步骤S104:对预处理后的待训练数据进行随机取样生成K组训练数据,所述训练数据包括:模型训练数据和模型验证数据。
步骤S105:设置M个超参组合,结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型。
步骤S106:根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证,得每个业务分类子模型的模型评估数据。
步骤S107:根据所述模型评估数据调整模型参数,直至确定最佳超参使得获得的业务分类子模型符合预设条件,共生成L*K个符合预设条件的业务分类子模型。
步骤S108:输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果。
请参阅图2,对步骤S101展开具体说明:
步骤S101还包括步骤:获取电力语料;获取预设的预训练模型;通过预设的预训练模型对所述电力语料进行训练得电力预训练模型。具体可如下:在本实施方式中,电力语料的获取来自于几个部分。一部分是从网络上爬取的各个电力领域站点的新闻数据,如:北极星电力网、能源网、中国电力网等。第二部分是电力类核心期刊、杂志、论文等电子文章数据,如:《电网技术》、《电力***自动化》、《电工技术学报》等。第三类是百科类站点中关于电力领域的相关数据,如百度百科电力相关栏目、***电力相关栏目。将收集到的数据进行汇总处理、存储。
此步骤将基于上述过程中收集的电力领域语料,通过公开的预训练模型生成方式(如:*** bert、百度paddle),构建并生成电力领域的中文电力预训练模型。
请参阅图3,对步骤S102至步骤S106展开具体说明:
步骤S102还包括步骤:对所述待训练数据进行初步处理,所述初步处理包括:去除特殊字符、删除重复数据;对所述初步处理后的待训练数据进行数据扩增操作,所述数据扩增操作包括以下中的一种或多种:同义词替换、随机***、随机交换、随机删除。具体可如下:
同义词替换:在句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换。
随机***:随机抽取一个词,然后在该词的同义词集合中随机选择一个,***原句子中的随机位置。该过程可以重复n次。
随机交换:句子中,随机选择两个词,位置交换。该过程可以重复n次。
随机删除:句子中的每个词,以概率p随机删除。
选定好后,执行步骤S103,具体可如下:在本实施方式中选取深度学习框架的原则是采用差异化程度较大的不同深度学习框架,可根据实际业务场景需要来决定具体要选择几个,在本实施方式中以四个来做说明,四个分别是:Bert、paddle、xlnet和albert。通过这四个深度学习框架对所述电力语料进行训练得到4个专属于电力领域的业务分类子模型。
步骤S104具体可如下:对预处理后的待训练数据进行随机取样,取样的数据作为模型训练数据,未取样到的数据作为验证数据。在本实施方式中以待训练总数的70%作为模型训练数据,以总数的30%作为模型验证数据。共执行K次以上步骤,生成K组训练数据。
步骤S105具体可如下:针对生成的K组训练数据,设置M个超参组合,共生成K*M个子模型,因本实施方式中共选取了4种不同的深度学习框架,故共生成4KM个业务分类子模型,具体如图4所示。
步骤S106具体可如下:针对步骤S104生成的4KM个业务分类子模型,分别采用每个随机取样中剩余的模型验证数据进行评估,得到每个业务分类子模型的模型评估数据。
步骤S107具体可如下:根据所述模型评估数据调整模型参数,然后重复步骤S105和步骤S106,直至确定最佳超参使得获得的业务分类子模型符合预设条件,并固化该超参组合。将评估指标最高的业务分类子模型进行保存,作为最终的正式可用模型,共生成4K个符合预设条件的业务分类子模型。
得到最终可用的正式模型后,请参阅图5,对步骤S108展开具体说明:
步骤S107还包括步骤:所述待预测文本在所述4K个符合预设条件的业务分类子模型属于分类i的结果个数分别为:a、b、c、d,所述4个深度学习框架对应的得分权重分别为:T、K、V、W,则所述待预测文本属于分类i的概率为:
Pi=(aT+bK+cV+dW)/(4K);
计算所述待预测文本的所有的分类概率,得最终的分类结果。
其中权重为根据以往经验,结合业务分类子模型的性能,设四个电力预训练模型的得分权重分别为:T、K、V、W,取值范围均在0-1之间,并满足T+K+V+W=1。
得到最终的分类结果后,输出最终的文本分类结果。
通过构建电力预训练模型;在后续模型训练过程中特地使用的就是该电力预训练模型,使得训练所得的业务分类字模型更适用于电力领域的文本分类,大大提高文本分类精确度,再紧接着获取待训练数据,对所述待训练数据进行预处理;选取L个深度学习框架,所述L值大于等于2;对预处理后的待训练数据进行随机取样生成K组训练数据,所述训练数据包括:模型训练数据和模型验证数据;设置M个超参组合,结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型;根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证,得每个业务分类子模型的模型评估数据;根据所述模型评估数据调整模型参数,直至确定最佳超参使得获得的业务分类子模型符合预设条件,共生成L*K个符合预设条件的业务分类子模型;输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果。在上述步骤中,采用不同的深度学习框架进行模型训练,并且对于待训练数据经过预处理,且根据所述模型评估数据调整模型参数,直至确定最佳超参使得获得的业务分类子模型符合预设条件,最后用符合预设条件的业务分类子模型来获得文本分类,大大提高电力领域文本分类准确率。
请参阅图6,一种存储设备600的具体实施方式如下:
一种存储设备600,其中存储有指令集,所述指令集用于执行:构建电力预训练模型;获取待训练数据,对所述待训练数据进行预处理;选取L个深度学习框架,所述L值大于等于2;对预处理后的待训练数据进行随机取样生成K组训练数据,所述训练数据包括:模型训练数据和模型验证数据;设置M个超参组合,结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型;根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证,得每个业务分类子模型的模型评估数据;根据所述模型评估数据调整模型参数,直至确定最佳超参使得获得的业务分类子模型符合预设条件,共生成L*K个符合预设条件的业务分类子模型;输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果。
请参阅图2,进一步的,所述指令集还用于执行:所述指令集还用于执行:所述“构建电力预训练模型”,还包括步骤:
获取电力语料;获取预设的预训练模型;通过预设的预训练模型对所述电力语料进行训练得电力预训练模型。具体可如下:在本实施方式中,电力语料的获取来自于几个部分。一部分是从网络上爬取的各个电力领域站点的新闻数据,如:北极星电力网、能源网、中国电力网等。第二部分是电力类核心期刊、杂志、论文等电子文章数据,如:《电网技术》、《电力***自动化》、《电工技术学报》等。第三类是百科类站点中关于电力领域的相关数据,如百度百科电力相关栏目、***电力相关栏目。将收集到的数据进行汇总处理、存储。
此步骤将基于上述过程中收集的电力领域语料,通过公开的预训练模型生成方式(如:*** bert、百度paddle),构建并生成电力领域的中文电力预训练模型。
请参阅图3,进一步的,所述指令集还用于执行:对所述待训练数据进行初步处理,所述初步处理包括:去除特殊字符、删除重复数据;对所述初步处理后的待训练数据进行数据扩增操作,所述数据扩增操作包括以下中的一种或多种:同义词替换、随机***、随机交换、随机删除。具体可如下:
同义词替换:在句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换。
随机***:随机抽取一个词,然后在该词的同义词集合中随机选择一个,***原句子中的随机位置。该过程可以重复n次。
随机交换:句子中,随机选择两个词,位置交换。该过程可以重复n次。
随机删除:句子中的每个词,以概率p随机删除。
在本实施方式中选取深度学习框架的原则是采用差异化程度较大的不同深度学习框架,可根据实际业务场景需要来决定具体要选择几个,在本实施方式中以四个来做说明,四个分别是:Bert、paddle、xlnet和albert。通过这四个深度学习框架对所述电力语料进行训练得到4个专属于电力领域的业务分类子模型。
选定好后,对预处理后的待训练数据进行随机取样,取样的数据作为模型训练数据,未取样到的数据作为验证数据。在本实施方式中以待训练总数的70%作为模型训练数据,以总数的30%作为模型验证数据。共执行K次以上步骤,生成K组训练数据。
针对生成的K组训练数据,设置M个超参组合,共生成K*M个子模型,因本实施方式中共选取了4种不同的深度学习框架,故共生成4KM个业务分类子模型,具体如图4所示。
针对上述生成的4KM个业务分类子模型,分别采用每个随机取样中剩余的模型验证数据进行评估,得到每个业务分类子模型的模型评估数据。
根据所述模型评估数据调整模型参数,然后上述步骤,直至确定最佳超参使得获得的业务分类子模型符合预设条件,并固化该超参组合。将评估指标最高的业务分类子模型进行保存,作为最终的正式可用模型,共生成4K个符合预设条件的业务分类子模型。
得到最终可用的正式模型后,请参阅图5,进一步的,所述指令集还用于执行:所述“构建电力预训练模型”,还包括步骤:
获取四个电力预训练模型;
所述待预测文本在所述4K个符合预设条件的业务分类子模型属于分类i的结果个数分别为:a、b、c、d,所述4个深度学习框架对应的得分权重分别为:T、K、V、W,则所述待预测文本属于分类i的概率为:
Pi=(aT+bK+cV+dW)/(4K);
计算所述待预测文本的所有的分类概率,得最终的分类结果。
其中权重为根据以往经验,结合业务分类子模型的性能,设四个电力预训练模型的得分权重分别为:T、K、V、W,取值范围均在0-1之间,并满足T+K+V+W=1。
得到最终的分类结果后,输出最终的文本分类结果。
其中权重为根据以往经验,结合业务分类子模型的性能,设四个电力预训练模型的得分权重分别为:T、K、V、W,取值范围均在0-1之间,并满足T+K+V+W=1。
得到最终的分类结果后,输出最终的文本分类结果。
进一步的,所述深度学习框架包括以下中的一种或多种:Bert、paddle、xlnet、albert。
通过构建电力预训练模型;在后续模型训练过程中特地使用的就是该电力预训练模型,使得训练所得的业务分类字模型更适用于电力领域的文本分类,大大提高文本分类精确度,再紧接着获取待训练数据,对所述待训练数据进行预处理;选取L个深度学习框架,所述L值大于等于2;对预处理后的待训练数据进行随机取样生成K组训练数据,所述训练数据包括:模型训练数据和模型验证数据;设置M个超参组合,结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型;根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证,得每个业务分类子模型的模型评估数据;根据所述模型评估数据调整模型参数,直至确定最佳超参使得获得的业务分类子模型符合预设条件,共生成L*K个符合预设条件的业务分类子模型;输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果。在上述步骤中,采用不同的深度学习框架进行模型训练,并且对于待训练数据经过预处理,且根据所述模型评估数据调整模型参数,直至确定最佳超参使得获得的业务分类子模型符合预设条件,最后用符合预设条件的业务分类子模型来获得文本分类,大大提高电力领域文本分类准确率。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。
Claims (10)
1.一种电力领域文本分类的方法,其特征在于,包括步骤:
构建电力预训练模型;
获取待训练数据,对所述待训练数据进行预处理;
选取L个深度学习框架,所述L值大于等于2;
对预处理后的待训练数据进行随机取样生成K组训练数据,所述训练数据包括:模型训练数据和模型验证数据;
设置M个超参组合,结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型;
根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证,得每个业务分类子模型的模型评估数据;
根据所述模型评估数据调整模型参数,直至确定最佳超参使得获得的业务分类子模型符合预设条件,共生成L*K个符合预设条件的业务分类子模型;
输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果。
2.根据权利要求1所述的一种电力领域文本分类的方法,其特征在于,所述“构建电力预训练模型”,还包括步骤:
获取电力语料;
获取预设的预训练模型;
通过预设的预训练模型对所述电力语料进行训练得电力预训练模型。
3.根据权利要求1所述的一种电力领域文本分类的方法,其特征在于,所述“对所述待训练数据进行预处理”,还包括步骤:
对所述待训练数据进行初步处理,所述初步处理包括:去除特殊字符、删除重复数据;
对所述初步处理后的待训练数据进行数据扩增操作,所述数据扩增操作包括以下中的一种或多种:同义词替换、随机***、随机交换、随机删除。
4.根据权利要求1所述的一种电力领域文本分类的方法,其特征在于,所述“选取L个深度学习框架”,还包括步骤:
选取4个深度学习框架;
所述“输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果”,还包括步骤:
所述待预测文本在所述4K个符合预设条件的业务分类子模型属于分类i的结果个数分别为:a、b、c、d,所述4个深度学习框架对应的得分权重分别为:T、K、V、W,则所述待预测文本属于分类i的概率为:
Pi=(aT+bK+cV+dW)/(4K);
计算所述待预测文本的所有的分类概率,得最终的分类结果。
5.根据权利要求1所述的一种电力领域文本分类的方法,其特征在于,所述深度学习框架包括以下中的一种或多种:Bert、paddle、xlnet、albert。
6.一种存储设备,其中存储有指令集,其特征在于,所述指令集用于执行:构建电力预训练模型;
获取待训练数据,对所述待训练数据进行预处理;
选取L个深度学习框架,所述L值大于等于2;
对预处理后的待训练数据进行随机取样生成K组训练数据,所述训练数据包括:模型训练数据和模型验证数据;
设置M个超参组合,结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型;
根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证,得每个业务分类子模型的模型评估数据;
根据所述模型评估数据调整模型参数,直至确定最佳超参使得获得的业务分类子模型符合预设条件,共生成L*K个符合预设条件的业务分类子模型;
输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果。
7.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“构建电力预训练模型”,还包括步骤:
获取电力语料;
获取预设的预训练模型;
通过预设的预训练模型对所述电力语料进行训练得电力预训练模型。
8.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“对所述待训练数据进行预处理”,还包括步骤:
对所述待训练数据进行初步处理,所述初步处理包括:去除特殊字符、删除重复数据;
对所述初步处理后的待训练数据进行数据扩增操作,所述数据扩增操作包括以下中的一种或多种:同义词替换、随机***、随机交换、随机删除。
9.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“选取L个深度学习框架”,还包括步骤:
选取4个深度学习框架;
所述“输入待预测文本至符合预设条件的业务分类子模型,得文本分类结果”,还包括步骤:
所述待预测文本在所述4K个符合预设条件的业务分类子模型属于分类i的结果个数分别为:a、b、c、d,所述4个深度学习框架对应的得分权重分别为:T、K、V、W,则所述待预测文本属于分类i的概率为:
Pi=(aT+bK+cV+dW)/(4K);
计算所述待预测文本的所有的分类概率,得最终的分类结果。
10.根据权利要求6所述的一种存储设备,其特征在于,所述深度学习框架包括以下中的一种或多种:Bert、paddle、xlnet、albert。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011070721.1A CN112328785A (zh) | 2020-10-09 | 2020-10-09 | 一种电力领域文本分类的方法和存储设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011070721.1A CN112328785A (zh) | 2020-10-09 | 2020-10-09 | 一种电力领域文本分类的方法和存储设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112328785A true CN112328785A (zh) | 2021-02-05 |
Family
ID=74314595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011070721.1A Pending CN112328785A (zh) | 2020-10-09 | 2020-10-09 | 一种电力领域文本分类的方法和存储设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112328785A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170039951A (ko) * | 2015-10-02 | 2017-04-12 | 네이버 주식회사 | 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템 |
CN109697232A (zh) * | 2018-12-28 | 2019-04-30 | 四川新网银行股份有限公司 | 一种基于深度学习的中文文本情感分析方法 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
CN110084374A (zh) * | 2019-04-24 | 2019-08-02 | 第四范式(北京)技术有限公司 | 构建基于pu学习的模型的方法、装置及预测方法、装置 |
CN111079447A (zh) * | 2020-03-23 | 2020-04-28 | 深圳智能思创科技有限公司 | 一种面向中文的预训练方法及*** |
CN111143560A (zh) * | 2019-12-26 | 2020-05-12 | 厦门市美亚柏科信息股份有限公司 | 一种短文本分类方法、终端设备及存储介质 |
CN111522958A (zh) * | 2020-05-28 | 2020-08-11 | 泰康保险集团股份有限公司 | 文本分类方法和装置 |
EP3695327A4 (en) * | 2017-10-09 | 2020-08-19 | Yodlee, Inc. | HIERARCHICAL CLASSIFICATION OF TRANSACTION DATA |
CN111680160A (zh) * | 2020-06-16 | 2020-09-18 | 西北师范大学 | 一种用于文本情感分类的深度迁移学习方法 |
-
2020
- 2020-10-09 CN CN202011070721.1A patent/CN112328785A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170039951A (ko) * | 2015-10-02 | 2017-04-12 | 네이버 주식회사 | 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템 |
EP3695327A4 (en) * | 2017-10-09 | 2020-08-19 | Yodlee, Inc. | HIERARCHICAL CLASSIFICATION OF TRANSACTION DATA |
CN109697232A (zh) * | 2018-12-28 | 2019-04-30 | 四川新网银行股份有限公司 | 一种基于深度学习的中文文本情感分析方法 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
CN110084374A (zh) * | 2019-04-24 | 2019-08-02 | 第四范式(北京)技术有限公司 | 构建基于pu学习的模型的方法、装置及预测方法、装置 |
CN111143560A (zh) * | 2019-12-26 | 2020-05-12 | 厦门市美亚柏科信息股份有限公司 | 一种短文本分类方法、终端设备及存储介质 |
CN111079447A (zh) * | 2020-03-23 | 2020-04-28 | 深圳智能思创科技有限公司 | 一种面向中文的预训练方法及*** |
CN111522958A (zh) * | 2020-05-28 | 2020-08-11 | 泰康保险集团股份有限公司 | 文本分类方法和装置 |
CN111680160A (zh) * | 2020-06-16 | 2020-09-18 | 西北师范大学 | 一种用于文本情感分类的深度迁移学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111143536B (zh) | 基于人工智能的信息抽取方法及存储介质和相关装置 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN109582794A (zh) | 基于深度学习的长文分类方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN110502742B (zh) | 一种复杂实体抽取方法、装置、介质及*** | |
WO2023108991A1 (zh) | 模型的训练方法、知识分类方法、装置、设备、介质 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN114092742B (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
CN111078546B (zh) | 一种表达页面特征的方法和电子设备 | |
CN112052687B (zh) | 基于深度可分离卷积的语义特征处理方法、装置及介质 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN116127060A (zh) | 一种基于提示词的文本分类方法及*** | |
CN117668181A (zh) | 信息处理方法、装置、终端设备以及存储介质 | |
CN114254077A (zh) | 一种基于自然语言对稿件完整性的评估方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN112287667A (zh) | 一种文本生成方法及设备 | |
CN111581386A (zh) | 多输出文本分类模型的构建方法、装置、设备及介质 | |
CN111538893A (zh) | 一种从非结构化数据中提取网络安全新词的方法 | |
CN110929506A (zh) | 一种垃圾信息检测方法、装置、设备及可读存储介质 | |
CN116186259A (zh) | 一种会话线索评分方法、装置、设备及存储介质 | |
CN112328785A (zh) | 一种电力领域文本分类的方法和存储设备 | |
CN115169293A (zh) | 一种文本隐写分析方法、***、装置及存储介质 | |
CN113761874A (zh) | 事件事实性预测方法、装置、电子设备与存储介质 | |
CN114943224A (zh) | 基于词向量的警情文本关键词提取方法、***、介质及设备 | |
CN114330319A (zh) | 实体处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210205 |