CN109002561A - 基于样本关键词学习的文本自动分类方法、***及介质 - Google Patents

基于样本关键词学习的文本自动分类方法、***及介质 Download PDF

Info

Publication number
CN109002561A
CN109002561A CN201810980279.2A CN201810980279A CN109002561A CN 109002561 A CN109002561 A CN 109002561A CN 201810980279 A CN201810980279 A CN 201810980279A CN 109002561 A CN109002561 A CN 109002561A
Authority
CN
China
Prior art keywords
keyword
sample
training
neural network
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810980279.2A
Other languages
English (en)
Inventor
刘丽
刘怀泉
张龙
李晓双
陈思琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201810980279.2A priority Critical patent/CN109002561A/zh
Publication of CN109002561A publication Critical patent/CN109002561A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于样本关键词学习的文本自动分类方法、***及介质,利用多标记学习技术对样本集中的各领域文本语义关联关系进行学习,自动提取对应领域筛选关键词和信息判定关键词,进行文本分类。该方法可以应用于异构多媒体对象的检索,所提取的筛选关键词用于在监管业务***海量信息中筛选出对应领域相关文档,筛选结果具有高召回率。信息判定关键词用于在对应领域文档中判定信息,判定结果具有高召回率和高准确率。最后用召回率和准确率来验证本发明的有效性。

Description

基于样本关键词学习的文本自动分类方法、***及介质
技术领域
本发明涉及机器学习和数据挖掘领域技术领域,特别是涉及基于样本关键词学习的文本自动分类方法、***及介质。
背景技术
在当今信息时代,网络发展迅猛,网上的信息量***式地增加,互联网已经成为世界上最为巨大的信息资源库,渐渐成为人们获取各种信息资源的重要途径。在这个背景下,大量的新闻网站、商品网站以及微博应运而生,每天都会产生巨量的文本信息。面对此等数量的文本数据,如何对文本信息进行准确地分类,同时如何有效地组织和管理这些信息,同时快速、准确地找到用户所需要的信息是当前信息技术领域所面临的难题。
目前文本分类所涉及的技术有很多如KNN、奇异值分解和最大熵分类器等,但它们都存在一些问题,如分类的数据相对较慢,而且分类的精度低,文本精度低也就没有了使用价值。
发明内容
为了解决现有技术的不足,本发明提供了基于样本关键词学习的文本自动分类方法、***及介质,其具有分类速度快且分类精度高的效果;
本发明通过借鉴数据挖掘、自然语言处理和文本挖掘等领域的最新研究成果,研发基于样本关键词学习的文件自动分类***,实现文件的正确分析及快速信息检索。
本发明所采用的技术方案如下:
作为本发明的第一方面,提供了基于样本关键词学习的文本自动分类方法,通过对样本进行训练,从海量训练样本中学习词语之间的潜在语义规则和联系,自动提取对应领域筛选关键词和信息判定关键词,通过关键词包含的语义进行文本分类。
基于样本关键词学习的文本自动分类方法,包括:
获取训练样本和测试样本;
对训练样本进行类别标记,从已标记的训练样本中提取关键词,对提取的关键词进行训练特征提取,建立训练特征集合;
建立神经网络,初始化神经网络的权值;
利用训练特征集合和训练样本的类别标记对神经网络进行训练,得到训练好的神经网络;
从测试样本中提取测试关键词,对提取的测试关键词进一步提取测试特征,将提取的测试特征输入到已经训练好的神经网络中,输出测试样本的类别。
进一步的,从已标记的训练样本中提取关键词,对提取的关键词进行训练特征提取,建立训练特征集合具体步骤,包括:
采用中科院汉语词法分析***对已标记的训练样本的文本进行分词预处理;
对分词预处理的结果,利用LDA主题模型提取关键词;
对LDA主题模型提取的关键词,利用Word2Vec提取训练特征,建立训练特征集合。
进一步的,所述初始化神经网络的权值是使用受限玻尔兹曼机初始化神经网络的权值。
作为本发明的第二方面,提供了基于样本关键词学习的文本自动分类***;
基于样本关键词学习的文本自动分类***,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
作为本发明的第三方面,提供了一种计算机可读存储介质;
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
与现有技术相比,本发明的有益效果是:
基于样本关键词的文本自动分类可以大大提高信息检索精度以及速度,并且节省了大量的人力物力,可广泛应用于多个领域,如电子读书馆、专利分类、垃圾邮件过滤等等。因此,基于样本关键词的文本自动分类方法的研究具有深远而重大的意义。
本发明利用LDA主图模型和Word2Vec相结合的方法建立候选词集,并将多个特征进行融合,用得到的融合特征代替传统的词频特征。使用限制的玻尔兹曼机初始化神经网络的权值。本发明没有局限于文本模态,使用卷积神经网络提取文本数据特征。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是训练投影矩阵模型流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
正如背景技术所介绍的,本发明为了解决上述问题,提出了一种基于样本关键词学习的文本自动分类方法。可以应用于异构多媒体对象的检索,所提取的筛选关键词用于在监管业务***海量信息中筛选出对应领域相关文档,筛选结果具有高召回率。信息判定关键词用于在对应领域文档中判定信息,判定结果具有高召回率和高准确率。最后用召回率和准确率来验证本发明的有效性。
本申请的一种典型实施方式,提出的一种基于样本关键词学习的文本自动分类方法,如图1所示,该方法包括以下步骤:
基于样本关键词学习的文本自动分类方法,包括:
获取训练样本和测试样本;
对训练样本进行类别标记,从已标记的训练样本中提取关键词,对提取的关键词进行训练特征提取,建立训练特征集合;
建立神经网络,初始化神经网络的权值;
利用训练特征集合和训练样本的类别标记对神经网络进行训练,得到训练好的神经网络;
从测试样本中提取测试关键词,对提取的测试关键词进一步提取测试特征,将提取的测试特征输入到已经训练好的神经网络中,输出测试样本的类别。
本发明提出了一种基于样本关键词学习的文本自动分类方法。利用多标记学习技术对样本集中的各领域标注文档进行学习,自动提取对应领域筛选关键词和信息判定关键词,进行文本分类。该方法可以应用于异构多媒体对象的检索,所提取的筛选关键词用于在监管业务***海量信息中筛选出对应领域相关文档,筛选结果具有高召回率。信息判定关键词用于在对应领域文档中判定信息,判定结果具有高召回率和高准确率。最后用召回率和准确率来验证本发明的有效性。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (5)

1.基于样本关键词学习的文本自动分类方法,其特征是,包括:
获取训练样本和测试样本;
对训练样本进行类别标记,从已标记的训练样本中提取关键词,对提取的关键词进行训练特征提取,建立训练特征集合;
建立神经网络,初始化神经网络的权值;
利用训练特征集合和训练样本的类别标记对神经网络进行训练,得到训练好的神经网络;
从测试样本中提取测试关键词,对提取的测试关键词进一步提取测试特征,将提取的测试特征输入到已经训练好的神经网络中,输出测试样本的类别。
2.如权利要求1所述的基于样本关键词学习的文本自动分类方法,其特征是,
从已标记的训练样本中提取关键词,对提取的关键词进行训练特征提取,建立训练特征集合具体步骤,包括:
采用中科院汉语词法分析***对已标记的训练样本的文本进行分词预处理;
对分词预处理的结果,利用LDA主题模型提取关键词;
对LDA主题模型提取的关键词,利用Word2Vec提取训练特征,建立训练特征集合。
3.如权利要求1所述的基于样本关键词学习的文本自动分类方法,其特征是,
所述初始化神经网络的权值是使用受限玻尔兹曼机初始化神经网络的权值。
4.基于样本关键词学习的文本自动分类***,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-3任一方法所述的步骤。
5.一种计算机可读存储介质,其特征是,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-3任一方法所述的步骤。
CN201810980279.2A 2018-08-27 2018-08-27 基于样本关键词学习的文本自动分类方法、***及介质 Pending CN109002561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810980279.2A CN109002561A (zh) 2018-08-27 2018-08-27 基于样本关键词学习的文本自动分类方法、***及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810980279.2A CN109002561A (zh) 2018-08-27 2018-08-27 基于样本关键词学习的文本自动分类方法、***及介质

Publications (1)

Publication Number Publication Date
CN109002561A true CN109002561A (zh) 2018-12-14

Family

ID=64594042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810980279.2A Pending CN109002561A (zh) 2018-08-27 2018-08-27 基于样本关键词学习的文本自动分类方法、***及介质

Country Status (1)

Country Link
CN (1) CN109002561A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766715A (zh) * 2018-12-24 2019-05-17 贵州航天计量测试技术研究所 一种面向大数据环境隐私信息防泄露自动识别方法及***
CN109947947A (zh) * 2019-03-29 2019-06-28 北京泰迪熊移动科技有限公司 一种文本分类方法、装置及计算机可读存储介质
CN111739521A (zh) * 2020-06-19 2020-10-02 腾讯科技(深圳)有限公司 电子设备唤醒方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294568A (zh) * 2016-07-27 2017-01-04 北京明朝万达科技股份有限公司 一种基于bp网络的中文文本分类规则生成方法及***
CN106548368A (zh) * 2016-10-14 2017-03-29 五邑大学 基于用户遗忘曲线的消费者意图识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294568A (zh) * 2016-07-27 2017-01-04 北京明朝万达科技股份有限公司 一种基于bp网络的中文文本分类规则生成方法及***
CN106548368A (zh) * 2016-10-14 2017-03-29 五邑大学 基于用户遗忘曲线的消费者意图识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴财贵,唐权华: "基于深度学习的图片敏感文字检测", 《计算机工程与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766715A (zh) * 2018-12-24 2019-05-17 贵州航天计量测试技术研究所 一种面向大数据环境隐私信息防泄露自动识别方法及***
CN109947947A (zh) * 2019-03-29 2019-06-28 北京泰迪熊移动科技有限公司 一种文本分类方法、装置及计算机可读存储介质
CN109947947B (zh) * 2019-03-29 2021-11-23 北京泰迪熊移动科技有限公司 一种文本分类方法、装置及计算机可读存储介质
CN111739521A (zh) * 2020-06-19 2020-10-02 腾讯科技(深圳)有限公司 电子设备唤醒方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Helmstetter et al. Weakly supervised learning for fake news detection on Twitter
CN106570148B (zh) 一种基于卷积神经网络的属性抽取方法
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其***
CN108536870A (zh) 一种融合情感特征和语义特征的文本情感分类方法
CN109255119A (zh) 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及***
US20160350288A1 (en) Multilingual embeddings for natural language processing
CN107808011A (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN108021660B (zh) 一种基于迁移学习的话题自适应的微博情感分析方法
Colace et al. Towards labour market intelligence through topic modelling
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
AlGhamdi et al. Intelligent analysis of Arabic tweets for detection of suspicious messages
CN108287911A (zh) 一种基于约束化远程监督的关系抽取方法
CN109002561A (zh) 基于样本关键词学习的文本自动分类方法、***及介质
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Ji et al. Attention based meta path fusion for heterogeneous information network embedding
CN110297902A (zh) 一种基于多任务深度学习的商品评价分析方法
CN110008473A (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN110674297A (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
Azri et al. Calling to cnn-lstm for rumor detection: A deep multi-channel model for message veracity classification in microblogs
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和***
Li Construction of Internet of Things English terms model and analysis of language features via deep learning
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法
Sharafat et al. Legal data mining from civil judgments
Zhao et al. Leveraging Lexical Link Analysis (LLA) to discover new knowledge
Zhang et al. Stock trend forecasting method based on sentiment analysis and system similarity model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination