CN109002561A

CN109002561A - 基于样本关键词学习的文本自动分类方法、***及介质

Info

Publication number: CN109002561A
Application number: CN201810980279.2A
Authority: CN
Inventors: 刘丽; 刘怀泉; 张龙; 李晓双; 陈思琦
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2018-12-14

Abstract

本发明公开了基于样本关键词学习的文本自动分类方法、***及介质，利用多标记学习技术对样本集中的各领域文本语义关联关系进行学习，自动提取对应领域筛选关键词和信息判定关键词，进行文本分类。该方法可以应用于异构多媒体对象的检索，所提取的筛选关键词用于在监管业务***海量信息中筛选出对应领域相关文档，筛选结果具有高召回率。信息判定关键词用于在对应领域文档中判定信息，判定结果具有高召回率和高准确率。最后用召回率和准确率来验证本发明的有效性。

Description

基于样本关键词学习的文本自动分类方法、***及介质

技术领域

本发明涉及机器学习和数据挖掘领域技术领域，特别是涉及基于样本关键词学习的文本自动分类方法、***及介质。

背景技术

在当今信息时代，网络发展迅猛，网上的信息量***式地增加，互联网已经成为世界上最为巨大的信息资源库，渐渐成为人们获取各种信息资源的重要途径。在这个背景下，大量的新闻网站、商品网站以及微博应运而生，每天都会产生巨量的文本信息。面对此等数量的文本数据，如何对文本信息进行准确地分类，同时如何有效地组织和管理这些信息，同时快速、准确地找到用户所需要的信息是当前信息技术领域所面临的难题。

目前文本分类所涉及的技术有很多如KNN、奇异值分解和最大熵分类器等，但它们都存在一些问题，如分类的数据相对较慢，而且分类的精度低，文本精度低也就没有了使用价值。

发明内容

为了解决现有技术的不足，本发明提供了基于样本关键词学习的文本自动分类方法、***及介质，其具有分类速度快且分类精度高的效果；

本发明通过借鉴数据挖掘、自然语言处理和文本挖掘等领域的最新研究成果，研发基于样本关键词学习的文件自动分类***，实现文件的正确分析及快速信息检索。

本发明所采用的技术方案如下：

作为本发明的第一方面，提供了基于样本关键词学习的文本自动分类方法，通过对样本进行训练，从海量训练样本中学习词语之间的潜在语义规则和联系，自动提取对应领域筛选关键词和信息判定关键词，通过关键词包含的语义进行文本分类。

基于样本关键词学习的文本自动分类方法，包括：

获取训练样本和测试样本；

对训练样本进行类别标记，从已标记的训练样本中提取关键词，对提取的关键词进行训练特征提取，建立训练特征集合；

建立神经网络，初始化神经网络的权值；

利用训练特征集合和训练样本的类别标记对神经网络进行训练，得到训练好的神经网络；

从测试样本中提取测试关键词，对提取的测试关键词进一步提取测试特征，将提取的测试特征输入到已经训练好的神经网络中，输出测试样本的类别。

进一步的，从已标记的训练样本中提取关键词，对提取的关键词进行训练特征提取，建立训练特征集合具体步骤，包括：

采用中科院汉语词法分析***对已标记的训练样本的文本进行分词预处理；

对分词预处理的结果，利用LDA主题模型提取关键词；

对LDA主题模型提取的关键词，利用Word2Vec提取训练特征，建立训练特征集合。

进一步的，所述初始化神经网络的权值是使用受限玻尔兹曼机初始化神经网络的权值。

作为本发明的第二方面，提供了基于样本关键词学习的文本自动分类***；

基于样本关键词学习的文本自动分类***，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

作为本发明的第三方面，提供了一种计算机可读存储介质；

一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

与现有技术相比，本发明的有益效果是：

基于样本关键词的文本自动分类可以大大提高信息检索精度以及速度，并且节省了大量的人力物力，可广泛应用于多个领域，如电子读书馆、专利分类、垃圾邮件过滤等等。因此，基于样本关键词的文本自动分类方法的研究具有深远而重大的意义。

本发明利用LDA主图模型和Word2Vec相结合的方法建立候选词集，并将多个特征进行融合，用得到的融合特征代替传统的词频特征。使用限制的玻尔兹曼机初始化神经网络的权值。本发明没有局限于文本模态，使用卷积神经网络提取文本数据特征。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是训练投影矩阵模型流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

正如背景技术所介绍的，本发明为了解决上述问题，提出了一种基于样本关键词学习的文本自动分类方法。可以应用于异构多媒体对象的检索，所提取的筛选关键词用于在监管业务***海量信息中筛选出对应领域相关文档，筛选结果具有高召回率。信息判定关键词用于在对应领域文档中判定信息，判定结果具有高召回率和高准确率。最后用召回率和准确率来验证本发明的有效性。

本申请的一种典型实施方式，提出的一种基于样本关键词学习的文本自动分类方法，如图1所示，该方法包括以下步骤：

基于样本关键词学习的文本自动分类方法，包括：

获取训练样本和测试样本；

建立神经网络，初始化神经网络的权值；

本发明提出了一种基于样本关键词学习的文本自动分类方法。利用多标记学习技术对样本集中的各领域标注文档进行学习，自动提取对应领域筛选关键词和信息判定关键词，进行文本分类。该方法可以应用于异构多媒体对象的检索，所提取的筛选关键词用于在监管业务***海量信息中筛选出对应领域相关文档，筛选结果具有高召回率。信息判定关键词用于在对应领域文档中判定信息，判定结果具有高召回率和高准确率。最后用召回率和准确率来验证本发明的有效性。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于样本关键词学习的文本自动分类方法，其特征是，包括：

获取训练样本和测试样本；

建立神经网络，初始化神经网络的权值；

2.如权利要求1所述的基于样本关键词学习的文本自动分类方法，其特征是，

从已标记的训练样本中提取关键词，对提取的关键词进行训练特征提取，建立训练特征集合具体步骤，包括：

对分词预处理的结果，利用LDA主题模型提取关键词；

3.如权利要求1所述的基于样本关键词学习的文本自动分类方法，其特征是，

所述初始化神经网络的权值是使用受限玻尔兹曼机初始化神经网络的权值。

4.基于样本关键词学习的文本自动分类***，其特征是，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-3任一方法所述的步骤。

5.一种计算机可读存储介质，其特征是，其上存储有计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-3任一方法所述的步骤。