CN112328785A

CN112328785A - 一种电力领域文本分类的方法和存储设备

Info

Publication number: CN112328785A
Application number: CN202011070721.1A
Authority: CN
Inventors: 陈江海; 梁懿; 苏江文; 宋立华
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-02-05

Abstract

本发明涉及数据处理技术领域，特别涉及一种电力领域文本分类的方法和存储设备。所述一种电力领域文本分类的方法，包括步骤：构建电力预训练模型；获取待训练数据，对待训练数据进行预处理；对预处理后的待训练数据进行随机取样生成K组训练数据；设置M个超参组合，生成L*K*M个业务分类子模型；对L*K*M个业务分类子模型进行验证，得每个业务分类子模型的模型评估数据；根据模型评估数据调整模型参数，直至确定最佳超参使得获得的业务分类子模型符合预设条件，共生成L*K个符合预设条件的业务分类子模型；输入待预测文本至符合预设条件的业务分类子模型，得文本分类结果。通过上述步骤，大大提高电力领域文本分类准确率。

Description

一种电力领域文本分类的方法和存储设备

技术领域

本发明涉及数据处理技术领域，特别涉及一种电力领域文本分类的方法和存储设备。

背景技术

近年来，随着人工智能技术的快速发展，各行各业对人工智能、自然语言处理技术的利用越来越广泛。因此文本分类技术作为自然语言处理技术，受到越来越多的关注。

文本分类是一种通过技术手段并按照一定的分类体系或标准对文本进行自动分类标记的方法。文本分类有着极其广泛的应用场景，如针对网络上大量的新闻，手动归档显然难度很大，因此可以用分类技术判断某个新闻是经济的，还是文化的；电商领域中，可以对商品的评价进行分类，比如分为差评，中评、好评；邮件***中，可以用文本分类器快速判断是否是垃圾邮件。

文本分类应用的广泛兴起、大数据时代带来的数据***性的增长，势必对文本分类的技术提出更进一步的要求，如：更高的准确率、更高的召回率、更贴合垂直领域的分类技术、更强大的分类性能等。

目前，针对通用的文本分类或行业领域的文本分类均存在的一定的方法，如申请号为：CN201811068951.7和申请号为：CN201710832802.2的两篇申请文件中的技术方案均未常见的文本分类方法，而这两种方案都是基于向量空间的技术路线出发，延伸而出的一系列解决方案，这些方案均停留在文档字词本身。这些方案均未考虑到文档的语义，特别是不同领域很多文字的语义是完全不一样的，目前还未有针对电力领域的好的文本分类方法，若直接使用现有模型效果和性能都会大幅度下降，这是因为电力领域具有强烈的领域特征，存在大量的电力专业术语，现有技术均未能很好地解决该技术问题。

发明内容

为此，需要提供一种电力领域文本分类的方法，用以解决现有技术中电力领域文本分类性能低、准确率低的问题。具体技术方案如下：

一种电力领域文本分类的方法，包括步骤：

构建电力预训练模型；

获取待训练数据，对所述待训练数据进行预处理；

选取L个深度学习框架，所述L值大于等于2；

对预处理后的待训练数据进行随机取样生成K组训练数据，所述训练数据包括：模型训练数据和模型验证数据；

设置M个超参组合，结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型；

根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证，得每个业务分类子模型的模型评估数据；

根据所述模型评估数据调整模型参数，直至确定最佳超参使得获得的业务分类子模型符合预设条件，共生成L*K个符合预设条件的业务分类子模型；

输入待预测文本至符合预设条件的业务分类子模型，得文本分类结果。

进一步的，所述“构建电力预训练模型”，还包括步骤：

获取电力语料；

获取预设的预训练模型；

通过预设的预训练模型对所述电力语料进行训练得电力预训练模型。

进一步的，所述“对所述待训练数据进行预处理”，还包括步骤：

对所述待训练数据进行初步处理，所述初步处理包括：去除特殊字符、删除重复数据；

对所述初步处理后的待训练数据进行数据扩增操作，所述数据扩增操作包括以下中的一种或多种：同义词替换、随机***、随机交换、随机删除。

进一步的，所述“选取L个深度学习框架”，还包括步骤：

选取4个深度学习框架；

所述“输入待预测文本至符合预设条件的业务分类子模型，得文本分类结果”，还包括步骤：

所述待预测文本在所述4K个符合预设条件的业务分类子模型属于分类i的结果个数分别为：a、b、c、d，所述4个深度学习框架对应的得分权重分别为：T、K、V、W，则所述待预测文本属于分类i的概率为：

P_i＝(aT+bK+cV+dW)/(4K)；

计算所述待预测文本的所有的分类概率，得最终的分类结果。

进一步的，所述深度学习框架包括以下中的一种或多种：Bert、paddle、xlnet、albert。

为解决上述技术问题，还提供了一种存储设备，具体技术方案如下：

一种存储设备，其中存储有指令集，所述指令集用于执行：构建电力预训练模型；

获取待训练数据，对所述待训练数据进行预处理；

选取L个深度学习框架，所述L值大于等于2；

进一步的，所述指令集还用于执行：所述“构建电力预训练模型”，还包括步骤：

获取电力语料；

获取预设的预训练模型；

进一步的，所述指令集还用于执行：所述“对所述待训练数据进行预处理”，还包括步骤：

进一步的，所述指令集还用于执行：所述“选取L个深度学习框架”，还包括步骤：

选取4个深度学习框架；

P_i＝(aT+bK+cV+dW)/(4K)；

本发明的有益效果是：通过构建电力预训练模型；在后续模型训练过程中特地使用的就是该电力预训练模型，使得训练所得的业务分类字模型更适用于电力领域的文本分类，大大提高文本分类精确度，再紧接着获取待训练数据，对所述待训练数据进行预处理；选取L个深度学习框架，所述L值大于等于2；对预处理后的待训练数据进行随机取样生成K组训练数据，所述训练数据包括：模型训练数据和模型验证数据；设置M个超参组合，结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型；根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证，得每个业务分类子模型的模型评估数据；根据所述模型评估数据调整模型参数，直至确定最佳超参使得获得的业务分类子模型符合预设条件，共生成L*K个符合预设条件的业务分类子模型；输入待预测文本至符合预设条件的业务分类子模型，得文本分类结果。在上述步骤中，采用不同的深度学习框架进行模型训练，并且对于待训练数据经过预处理，且根据所述模型评估数据调整模型参数，直至确定最佳超参使得获得的业务分类子模型符合预设条件，最后用符合预设条件的业务分类子模型来获得文本分类，大大提高电力领域文本分类准确率。

附图说明

图1为具体实施方式所述一种电力领域文本分类的方法的流程图；

图2为具体实施方式所述电力预训练模型构建示意图；

图3为具体实施方式所述模型训练示意图；

图4为具体实施方式所述业务分类子模型生成示意图；

图5为具体实施方式所述模型预测示意图；

图6为具体实施方式所述一种存储设备的模块示意图；

附图标记说明：

600、存储设备。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，在本实施方式中，一种电力领域文本分类的方法可应用在一种存储设备上，所述存储设备包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端等。

本方案的核心技术在于构建了属于电力领域自己的电力预训练模型，同时采用了多个差异化程度较大的不同深度学习框架构建属于电力领域自己的业务分类子模型，其中深度学习框架如：Bert、paddle、xlnet、albert。如此可以在后续步骤进行模型融合时，起到的促进程度越大，即：使得最后文本分类结果越佳(具体原理为某待检测文本，通过差异化程度较大的深度学习框架最后得出来的分类结果指向都相同，该结果会更有代表性，准确度更高)。

步骤S101：构建电力预训练模型。

步骤S102：获取待训练数据，对所述待训练数据进行预处理。

步骤S103：选取L个深度学习框架，所述L值大于等于2。

步骤S104：对预处理后的待训练数据进行随机取样生成K组训练数据，所述训练数据包括：模型训练数据和模型验证数据。

步骤S105：设置M个超参组合，结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型。

步骤S106：根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证，得每个业务分类子模型的模型评估数据。

步骤S107：根据所述模型评估数据调整模型参数，直至确定最佳超参使得获得的业务分类子模型符合预设条件，共生成L*K个符合预设条件的业务分类子模型。

步骤S108：输入待预测文本至符合预设条件的业务分类子模型，得文本分类结果。

请参阅图2，对步骤S101展开具体说明：

步骤S101还包括步骤：获取电力语料；获取预设的预训练模型；通过预设的预训练模型对所述电力语料进行训练得电力预训练模型。具体可如下：在本实施方式中，电力语料的获取来自于几个部分。一部分是从网络上爬取的各个电力领域站点的新闻数据，如：北极星电力网、能源网、中国电力网等。第二部分是电力类核心期刊、杂志、论文等电子文章数据，如：《电网技术》、《电力***自动化》、《电工技术学报》等。第三类是百科类站点中关于电力领域的相关数据，如百度百科电力相关栏目、***电力相关栏目。将收集到的数据进行汇总处理、存储。

此步骤将基于上述过程中收集的电力领域语料，通过公开的预训练模型生成方式(如：*** bert、百度paddle)，构建并生成电力领域的中文电力预训练模型。

请参阅图3，对步骤S102至步骤S106展开具体说明：

步骤S102还包括步骤：对所述待训练数据进行初步处理，所述初步处理包括：去除特殊字符、删除重复数据；对所述初步处理后的待训练数据进行数据扩增操作，所述数据扩增操作包括以下中的一种或多种：同义词替换、随机***、随机交换、随机删除。具体可如下：

同义词替换：在句子中随机抽取n个词，然后从同义词词典中随机抽取同义词，并进行替换。

随机***：随机抽取一个词，然后在该词的同义词集合中随机选择一个，***原句子中的随机位置。该过程可以重复n次。

随机交换：句子中，随机选择两个词，位置交换。该过程可以重复n次。

随机删除：句子中的每个词，以概率p随机删除。

选定好后，执行步骤S103，具体可如下：在本实施方式中选取深度学习框架的原则是采用差异化程度较大的不同深度学习框架，可根据实际业务场景需要来决定具体要选择几个，在本实施方式中以四个来做说明，四个分别是：Bert、paddle、xlnet和albert。通过这四个深度学习框架对所述电力语料进行训练得到4个专属于电力领域的业务分类子模型。

步骤S104具体可如下：对预处理后的待训练数据进行随机取样，取样的数据作为模型训练数据，未取样到的数据作为验证数据。在本实施方式中以待训练总数的70％作为模型训练数据，以总数的30％作为模型验证数据。共执行K次以上步骤，生成K组训练数据。

步骤S105具体可如下：针对生成的K组训练数据，设置M个超参组合，共生成K*M个子模型，因本实施方式中共选取了4种不同的深度学习框架，故共生成4KM个业务分类子模型，具体如图4所示。

步骤S106具体可如下：针对步骤S104生成的4KM个业务分类子模型，分别采用每个随机取样中剩余的模型验证数据进行评估，得到每个业务分类子模型的模型评估数据。

步骤S107具体可如下：根据所述模型评估数据调整模型参数，然后重复步骤S105和步骤S106，直至确定最佳超参使得获得的业务分类子模型符合预设条件，并固化该超参组合。将评估指标最高的业务分类子模型进行保存，作为最终的正式可用模型，共生成4K个符合预设条件的业务分类子模型。

得到最终可用的正式模型后，请参阅图5，对步骤S108展开具体说明：

步骤S107还包括步骤：所述待预测文本在所述4K个符合预设条件的业务分类子模型属于分类i的结果个数分别为：a、b、c、d，所述4个深度学习框架对应的得分权重分别为：T、K、V、W，则所述待预测文本属于分类i的概率为：

P_i＝(aT+bK+cV+dW)/(4K)；

其中权重为根据以往经验，结合业务分类子模型的性能，设四个电力预训练模型的得分权重分别为：T、K、V、W，取值范围均在0-1之间，并满足T+K+V+W＝1。

得到最终的分类结果后，输出最终的文本分类结果。

通过构建电力预训练模型；在后续模型训练过程中特地使用的就是该电力预训练模型，使得训练所得的业务分类字模型更适用于电力领域的文本分类，大大提高文本分类精确度，再紧接着获取待训练数据，对所述待训练数据进行预处理；选取L个深度学习框架，所述L值大于等于2；对预处理后的待训练数据进行随机取样生成K组训练数据，所述训练数据包括：模型训练数据和模型验证数据；设置M个超参组合，结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型；根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证，得每个业务分类子模型的模型评估数据；根据所述模型评估数据调整模型参数，直至确定最佳超参使得获得的业务分类子模型符合预设条件，共生成L*K个符合预设条件的业务分类子模型；输入待预测文本至符合预设条件的业务分类子模型，得文本分类结果。在上述步骤中，采用不同的深度学习框架进行模型训练，并且对于待训练数据经过预处理，且根据所述模型评估数据调整模型参数，直至确定最佳超参使得获得的业务分类子模型符合预设条件，最后用符合预设条件的业务分类子模型来获得文本分类，大大提高电力领域文本分类准确率。

请参阅图6，一种存储设备600的具体实施方式如下：

一种存储设备600，其中存储有指令集，所述指令集用于执行：构建电力预训练模型；获取待训练数据，对所述待训练数据进行预处理；选取L个深度学习框架，所述L值大于等于2；对预处理后的待训练数据进行随机取样生成K组训练数据，所述训练数据包括：模型训练数据和模型验证数据；设置M个超参组合，结合所述电力预训练模型、所述L个深度学习框架和所述模型训练数据生成L*K*M个业务分类子模型；根据所述模型验证数据对所述L*K*M个业务分类子模型进行验证，得每个业务分类子模型的模型评估数据；根据所述模型评估数据调整模型参数，直至确定最佳超参使得获得的业务分类子模型符合预设条件，共生成L*K个符合预设条件的业务分类子模型；输入待预测文本至符合预设条件的业务分类子模型，得文本分类结果。

请参阅图2，进一步的，所述指令集还用于执行：所述指令集还用于执行：所述“构建电力预训练模型”，还包括步骤：

获取电力语料；获取预设的预训练模型；通过预设的预训练模型对所述电力语料进行训练得电力预训练模型。具体可如下：在本实施方式中，电力语料的获取来自于几个部分。一部分是从网络上爬取的各个电力领域站点的新闻数据，如：北极星电力网、能源网、中国电力网等。第二部分是电力类核心期刊、杂志、论文等电子文章数据，如：《电网技术》、《电力***自动化》、《电工技术学报》等。第三类是百科类站点中关于电力领域的相关数据，如百度百科电力相关栏目、***电力相关栏目。将收集到的数据进行汇总处理、存储。

请参阅图3，进一步的，所述指令集还用于执行：对所述待训练数据进行初步处理，所述初步处理包括：去除特殊字符、删除重复数据；对所述初步处理后的待训练数据进行数据扩增操作，所述数据扩增操作包括以下中的一种或多种：同义词替换、随机***、随机交换、随机删除。具体可如下：

随机删除：句子中的每个词，以概率p随机删除。

在本实施方式中选取深度学习框架的原则是采用差异化程度较大的不同深度学习框架，可根据实际业务场景需要来决定具体要选择几个，在本实施方式中以四个来做说明，四个分别是：Bert、paddle、xlnet和albert。通过这四个深度学习框架对所述电力语料进行训练得到4个专属于电力领域的业务分类子模型。

选定好后，对预处理后的待训练数据进行随机取样，取样的数据作为模型训练数据，未取样到的数据作为验证数据。在本实施方式中以待训练总数的70％作为模型训练数据，以总数的30％作为模型验证数据。共执行K次以上步骤，生成K组训练数据。

针对生成的K组训练数据，设置M个超参组合，共生成K*M个子模型，因本实施方式中共选取了4种不同的深度学习框架，故共生成4KM个业务分类子模型，具体如图4所示。

针对上述生成的4KM个业务分类子模型，分别采用每个随机取样中剩余的模型验证数据进行评估，得到每个业务分类子模型的模型评估数据。

根据所述模型评估数据调整模型参数，然后上述步骤，直至确定最佳超参使得获得的业务分类子模型符合预设条件，并固化该超参组合。将评估指标最高的业务分类子模型进行保存，作为最终的正式可用模型，共生成4K个符合预设条件的业务分类子模型。

得到最终可用的正式模型后，请参阅图5，进一步的，所述指令集还用于执行：所述“构建电力预训练模型”，还包括步骤：

获取四个电力预训练模型；

P_i＝(aT+bK+cV+dW)/(4K)；

得到最终的分类结果后，输出最终的文本分类结果。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种电力领域文本分类的方法，其特征在于，包括步骤：

构建电力预训练模型；

获取待训练数据，对所述待训练数据进行预处理；

选取L个深度学习框架，所述L值大于等于2；

2.根据权利要求1所述的一种电力领域文本分类的方法，其特征在于，所述“构建电力预训练模型”，还包括步骤：

获取电力语料；

获取预设的预训练模型；

3.根据权利要求1所述的一种电力领域文本分类的方法，其特征在于，所述“对所述待训练数据进行预处理”，还包括步骤：

4.根据权利要求1所述的一种电力领域文本分类的方法，其特征在于，所述“选取L个深度学习框架”，还包括步骤：

选取4个深度学习框架；

P_i＝(aT+bK+cV+dW)/(4K)；

5.根据权利要求1所述的一种电力领域文本分类的方法，其特征在于，所述深度学习框架包括以下中的一种或多种：Bert、paddle、xlnet、albert。

6.一种存储设备，其中存储有指令集，其特征在于，所述指令集用于执行：构建电力预训练模型；

获取待训练数据，对所述待训练数据进行预处理；

选取L个深度学习框架，所述L值大于等于2；

7.根据权利要求6所述的一种存储设备，其特征在于，所述指令集还用于执行：所述“构建电力预训练模型”，还包括步骤：

获取电力语料；

获取预设的预训练模型；

8.根据权利要求6所述的一种存储设备，其特征在于，所述指令集还用于执行：所述“对所述待训练数据进行预处理”，还包括步骤：

9.根据权利要求6所述的一种存储设备，其特征在于，所述指令集还用于执行：所述“选取L个深度学习框架”，还包括步骤：

选取4个深度学习框架；

P_i＝(aT+bK+cV+dW)/(4K)；

10.根据权利要求6所述的一种存储设备，其特征在于，所述深度学习框架包括以下中的一种或多种：Bert、paddle、xlnet、albert。