CN112989052B - 一种基于组合-卷积神经网络的中文新闻长文本分类方法 - Google Patents

一种基于组合-卷积神经网络的中文新闻长文本分类方法 Download PDF

Info

Publication number
CN112989052B
CN112989052B CN202110419616.2A CN202110419616A CN112989052B CN 112989052 B CN112989052 B CN 112989052B CN 202110419616 A CN202110419616 A CN 202110419616A CN 112989052 B CN112989052 B CN 112989052B
Authority
CN
China
Prior art keywords
chinese news
news text
text
chinese
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110419616.2A
Other languages
English (en)
Other versions
CN112989052A (zh
Inventor
张昱
刘开峰
高凯龙
王艳歌
苏仡琳
李继涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Civil Engineering and Architecture
Original Assignee
Beijing University of Civil Engineering and Architecture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Civil Engineering and Architecture filed Critical Beijing University of Civil Engineering and Architecture
Priority to CN202110419616.2A priority Critical patent/CN112989052B/zh
Publication of CN112989052A publication Critical patent/CN112989052A/zh
Application granted granted Critical
Publication of CN112989052B publication Critical patent/CN112989052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于组合‑卷积神经网络的中文新闻文本分类方法,包括:S1、获取中文新闻文本数据集,并对所述数据集进行预处理;S2、基于预处理后的数据集构建词汇表,并通过所述词汇表对预处理后的数据集中的中文新闻文本进行标准化处理,得到中文新闻文本的文本特征表示;S3、构建组合‑卷积神经网络模型,基于标准化处理后的数据集对所述组合‑卷积神经网络模型进行训练,并通过训练好的组合‑卷积神经网络模型完成中文新闻文本分类。本发明能够实现对中文新闻文本精准、有效地分类。

Description

一种基于组合-卷积神经网络的中文新闻长文本分类方法
技术领域
本发明涉及中文新闻文本分类技术领域,特别是涉及一种基于组合-卷积神经网络的中文新闻文本分类方法。
背景技术
如今,互联网和大数据行业蓬勃发展,新闻已经成为人们了解社会动态、获取社会信息资源的重要手段之一。自20世纪90年代末以来,建立了较多的新闻网站,移动端新闻APP也是种类繁多,由此产生了海量新闻数据。为了高效地获取和管理有价值的新闻数据,新闻文本分类俨然成为世界上一个热门的研究领域。新闻文本分类的实现,有助于文本信息的管理、新闻秩序的实现和新闻数据的挖掘。
因全球经济一体化的影响,汉语作为世界上使用最广泛的语言,俨然在世界语言体系中占有重要地位。然而,对中文的新闻文本分类却很少,尤其是对中文长文本的分类。一方面,研究中文文本分类的相关语料库较少,另一方面,汉语比西方语言复杂得多,很难用传统的方法提取特征,这也是中文新闻文本分类发展缓慢的原因。
目前,文本分类作为自然语言处理的基础问题之一,解决这一问题为自然语言处理打开了许多大门,如信息检索、机器翻译和自动文摘等。新闻文本分类常用的机器学习算法有:朴素贝叶斯(NB)、最近邻(KNN)、决策树(DT)、神经网络(NNs)、最大熵模型(ME)和支持向量机(SVM)等。
2003年词的分布式表示首次被Bengio等人运用于统计语言模型,神经语言模型开始获得广泛关注。2008年Collobert等人提出并采用神经网络的方法将文本词汇表示成张量数据,即相似的词映射到向量空间中相近的位置,一个词的含义由其上下文的词汇决定,但是其共享单词嵌入的方式只能在矩阵协作低级信息。2013年Mikolov等人提出来两个模型,连续词袋模型(CBOW)和连续Skip-gram模型。CBOW是以先验概率的方式,输入某一个特征词上下文相关的词向量,输出该特定词的词向量。而连续Skip-gram模型的预测方式与CBOW相反,通过输入中间词的向量来预测上下文的词向量。连续Skip-gram模型能够更好地处理生僻词,但是当数据量较大时,存在训练耗时太长的问题。针对解决在百万数量级的词典和上亿的数据集上进行高效地训练的问题,Google开源了一款用于词向量计算的工具——word2vec。该工具主要将单词映射到低维空间,使用这些较低维的词嵌入向量放入分类器。并且,word2vec得到的训练结果词向量(word embedding)可以很好地度量词与词之间的相似性。同年,Barakat等人在发表的论文中提到多层神经网络有较为强大的特征学习能力,经过训练可以更加准确地映射出原始数据的真实含义。
卷积神经网络模型最初是为计算机视觉而发明的,后来被Meek证明对NLP是有效的,并在语义分析上取得了很好的效果。此后,LeCun等人提出了一种字符级卷积神经网络模型,用不同的分类数据集进行语义分析和话题分类任务。但该方法用于中文文本分类的训练和工作非常缓慢,因为中文文本分类的术语集和词的N-gram要比英文文本分类要大得多。而且,字符级的特征处理放弃了词所具有的语义信息,对于汉语来说,词与字符之间存在很多重叠语义,该特征提取的方式存在缺陷。
因此,提供一种基于组合-卷积神经网络的中文新闻文本分类方法显得尤为必要。
发明内容
本发明的目的是提供一种基于组合-卷积神经网络的中文新闻文本分类方法,以解决现有技术中的问题,能够实现对中文新闻文本精准、有效地分类。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于组合-卷积神经网络的中文新闻文本分类方法,包括如下步骤:
S1、获取中文新闻文本数据集,并对所述数据集进行预处理;
S2、基于预处理后的数据集构建词汇表,并通过所述词汇表对预处理后的数据集中的中文新闻文本进行标准化处理,得到中文新闻文本的文本特征表示;
S3、构建组合-卷积神经网络模型,基于标准化处理后的数据集对所述组合-卷积神经网络模型进行训练,并通过训练好的组合-卷积神经网络模型完成中文新闻文本分类。
优选地,所述S1中,对所述数据集进行预处理的方法包括:
S1.1、构造数据索引:基于大数据可视化分析,设置中文新闻文本的序列长度,基于中文新闻文本的序列长度构造数据索引;
S1.2、数据整合:将所述中文新闻文本转变为二进制数据流。
优选地,所述S2中,基于预处理后的数据集构建词汇表的方法包括:通过去除停用词、词频统计制作用于中文新闻文本分类的词汇表,所述词汇表包括词汇和各词汇所对应的索引号。
优选地,所述S2中,通过所述词汇表对预处理后的数据集中的中文新闻文本进行标准化处理的方法具体包括:中文新闻文本内容的数据标准化、中文新闻文本标签的数据标准化。
优选地,所述中文新闻文本内容的数据标准化的具体方法包括:首先,遍历所述词汇表的索引序列,得到中文新闻文本中相应的词汇以及各词汇所对应的索引号;
其次,采用字典方法将中文新闻文本中的各词汇强制转换为词id,基于词id对中文新闻文本中的词汇进行向量化表示,完成中文新闻文本内容的数据标准化。
优选地,所述中文新闻文本标签的数据标准化的具体方法包括:采用One-Hot编码方法,将各中文新闻文本对应的标签索引设置为1,其余标签索引表示为全零向量,实现文本标签的向量化表示,完成中文新闻文本标签的数据标准化。
优选地,所述S3中,所述组合-卷积神经网络模型为六层模型,包括依次连接的Embedding层、卷积层、池化层、第一隐藏层、第二隐藏层、全连接层;其中,
所述Embedding层用于接收输入的中文新闻文本数据,并采用word2vec将中文新闻文本中的词汇映射成实数向量后嵌入所述中文新闻文本,获得中文新闻文本的词向量表示,作为所述卷积层的输入;
所述卷积层采用若干种不同大小的卷积核分别提取中文新闻文本的特征向量;
所述池化层用于对所述卷积层的输出进行最大池化操作;
所述第一隐藏层用于组合不同所述卷积层中不同大小的卷积核所提取的特征向量;
所述第二隐藏层用于非线性降维;
所述全连接层中添加有Dropout,所述全连接层还连接有Softmax层,通过所述Softmax层对输入的中文新闻文本进行分类预测。
优选地,所述S3中,通过最小化损失函数对所述组合-卷积神经网络模型进行训练,其中,所述损失函数采用多分类交叉熵。
本发明公开了以下技术效果:
(1)本发明采用构造数据索引的方法,制作了适合中文文本分类的术语集,用于新闻长文本分类。同时,通过优化经典卷积神经网络模型结构,提出了一种组合-卷积神经网络模型自动提取文本特征,提升了中文新闻文本的分类效果。此外,本发明采用word2vec词袋模型训练的词向量特征作为原始输入,利用提出的模型算法与传统的新闻文本分类方法进行了多组实验对比,组合-卷积神经网络对中文新闻文本的分类准确率达到93.69%。在进一步的实验中,去除因样本数据集太不均衡造成的影响因素,本发明在准确率上又有所提升。
(2)本发明提出了一种有监督学习的组合-卷积神经网络模型,以分别卷积再组合的方式改进经典卷积神经网络模型结构,增加卷积操作却没有加深神经网络层,最终取得了较好的文本分类效果,解决了中文文本分类器训练缓慢的问题,并增强了对文本局部特征的提取。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于组合-卷积神经网络的中文新闻文本分类方法流程图;
图2为本发明实施例中文本长度的出现频数统计图;
图3为本发明实施例中文本长度的累积分布函数图;
图4为本发明实施例中组合-卷积神经网络模型结构示意图;
图5为本发明实施例中组合-卷积神经网络模型的训练精度和验证精度示意图;
图6为本发明实施例中组合-卷积神经网络模型的训练损失和验证损失示意图;
图7为本发明实施例中分类结果混淆矩阵示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1所示,本实施例提供一种基于组合-卷积神经网络的中文新闻文本分类方法,包括如下步骤:
S1、获取中文新闻文本数据集,并对所述数据集进行预处理;
本实施例中所使用的数据集是THUCnews,源于新浪新闻RSS订阅频道的历史数据筛选过滤生成,包含836075篇新闻文档(2.04GB),均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上,整合划分出14个类别:科技、股票、体育、娱乐、时政、社会、教育、财经、家居、游戏、房产、时尚、彩票、星座。
对数据集进行预处理的方法为:基于大数据可视化分析,设置文本序列长度,基于文本序列长度构造数据索引,同时将文本信息转变为二进制数据流,实现数据读写的批处理。
为了更好更方便构造整个数据索引,本实施例对THUCnews进行大数据可视化分析,从而确定并设置最优的文本序列长度,其也作为后面模型中句子填充长度的标准。经统计,平均每篇新闻字数为941。由图2所示的直方图可以看出,绝大部分文本都在2000以内,而且如图3所示的出现频数的累计分布函数图可知,90%的分位点对应的文本长度为1857,所以根据可视化分析结果,本实施例设置读取文本长度为2000。
因为处理80多万个文本文件,读取时间较长,所以编程中采用Python的pickle标准模块存储复杂数据类型,将文本信息转变为二进制数据流。二进制文件的加载速度非常快,加载速度是文本文件的50倍以上。这样的信息存储在硬盘中,当实验读取文件数据的时候就很方便,将其反序列化即可得到原始的数据。为避免内存溢出,所以每整合一定数量的文件保存一次。
S2、基于预处理后的数据集构建词汇表,并通过所述词汇表对预处理后的数据集中的中文新闻文本进行标准化处理,得到中文新闻文本的文本特征表示;
其中,构建词汇表的方法具体包括:通过去除停用词、词频统计制作用于中文新闻文本分类的词汇表,所述词汇表包括词汇和各词汇所对应的索引号。
制作词汇表是为了中文新闻文本数据的标准化做准备。首先去除中文新闻文本中的停用词;词汇表中去除停用词的原因在于,这些词的使用频率过高,且语义影响不大,如果词汇表中存在大量这样的词语,相当于浪费了很多资源;添加一个关键词,特征提取就越好,所以词汇表该给予关键词更多的空间。
本实施例中,词汇表中剔除了中文新闻文本中的20个使用最频繁的停用词,包括:“的”、“了”、“在”、“是”、“我”、“有”、“和”、“就”、“都”、“一”、“个”、“上”、“也”、“到”、“要”、“去”、“你”、“会”、“着”、“这”。
汉字的数量很多,是很难说出准确的数字。据北京国安咨讯设备公司统计,汉字字库收入有出处汉字91251个,常用汉字只有几千字,分为常用字表和次常用字表,常用字表大约是2500到7000之间,简体与繁体的统计结果相差不大。因此,本实施例中,对所有中文新闻文本的字做统计计数,出现频率排名前7000的字作为词汇表语料库。
通过所述词汇表对预处理后的数据集中的中文新闻文本进行标准化处理,将中文新闻文本转换成计算机能够识别的标准形式,标准化处理的方法具体包括:
1)中文新闻文本内容的数据标准化:
首先,遍历所述词汇表的索引序列,得到中文新闻文本中相应的词汇以及各词汇所对应的索引号;
其次,采用字典方法将中文新闻文本中的各词汇强制转换为词id;具体为,使用列表推导式和lambda匿名函数实现词汇和词id的映射;将词id嵌入到所述中文新闻文本,实现中文新闻文本的向量化表示,完成中文新闻文本内容的数据标准化。
2)中文新闻文本标签的数据标准化:采用分类数据广泛使用的One-Hot编码,将各中文新闻文本对应的标签索引设置为1,其余标签索引表示为全零向量,实现文本标签的向量化表示,完成中文新闻文本标签的数据标准化。
S3、构建组合-卷积神经网络模型,基于标准化处理后的数据集对所述组合-卷积神经网络模型进行训练,并通过训练好的组合-卷积神经网络模型完成中文新闻文本分类。
本实施例中,所述组合-卷积神经网络模型为六层模型,如图4所示,具体为:
第一层为Embedding层,用于接收输入数据;因为新闻分类的输入数据为文本数据,文本数据需转化为实数向量数据才能进行输入,因此,Embedding层采用word2vec将中文新闻文本中的词汇映射成实数向量后嵌入所述中文新闻文本,获得中文新闻文本的词向量表示,作为所述卷积层的输入;即,对步骤S2标准化后处理后的中文新闻文本进行二次向量映射。
第二层和第三层分别为卷积层和池化层;相比于经典卷积神经网络模型,组合-卷积神经网络模型主要改进了卷积和池化操作的方式。经典卷积神经网络模型有单层卷积和多层卷积的不同情况,单层卷积方面,一个卷积核提取的局部文本特征信息有限,并且不够完整;多层卷积方面,多层卷积操作以叠加方式提取的文本特征往往过于抽象,不利于表达文本真实的涵义。因此,为了提取更加完善的局部文本块特征,组合-卷积神经网络模型中,卷积层利用三种不同大小的卷积核分别提取文本特征。同时,为了抽取主要特征和减少特征参数的个数,利用最大池化层降采样的特点,对卷积层的输出分别进行最大池化操作,从而,在没有加深神经网络深度的情况下,提取到更多更重要的文本特征。
第四层和第五层均属于中间隐藏层,分别为第一隐藏层、第二隐藏层;在经典卷积神经网络中没有这两个隐藏层。因为第三层的输出是三个池化操作的结果,所以采用第一隐藏层组合不同卷积核提取的特征向量。本实施例组合-卷积神经网络模型中,对每种卷积核的数量设置较多,且经过第一隐藏层组合特征向量输出的向量维数太大,从而添加第二隐藏层用于降维。
第六层为全连接层。首先,在全连接层中添加Dropout层,防止模型过拟合,提升模型泛化能力;其次,模型采用ReLU作为激活函数,增加神经网络模型的非线性,避免出现神经网络梯度消失的问题;最后,利用Softmax对新闻文本进行分类预测。
所述组合-卷积神经网络模型的工作原理如下:
Embdding层是一种字典查找,将整数索引映射为密集向量。该层接收整数作为输入,然后在内部字典中查找这些整数相关联的向量,并返回用于输出。该层内部词向量映射用Google的词向量计算工具word2vec将输入数据做词嵌入,得到输入卷积层的词向量。
映射后向量化的中文新闻文本,是一个k维的词向量
Figure 984114DEST_PATH_IMAGE001
,假设
Figure 632264DEST_PATH_IMAGE002
是第i个 字的向量表示,所以长度为n的句子如式(1)所示:
Figure 438546DEST_PATH_IMAGE003
其中,
Figure 737809DEST_PATH_IMAGE004
表示连接操作,
Figure 604134DEST_PATH_IMAGE005
表示输入的第1个到第n个窗口内的词向量矩阵。
卷积层利用不同大小卷积核对宽度为k的连续窗口进行卷积运算,卷积核为
Figure 739580DEST_PATH_IMAGE006
的矩阵,本实施例中三种卷积核的高度h值分别设为3、5、7,每种尺寸的卷积核有r 个,值设置为256。权值矩阵
Figure 349553DEST_PATH_IMAGE007
,对h个字的文本块进行特征提取,由
Figure 503323DEST_PATH_IMAGE008
提 取的一个特征
Figure 806128DEST_PATH_IMAGE009
如式(2)所示:
Figure 163292DEST_PATH_IMAGE010
其中,
Figure 576955DEST_PATH_IMAGE011
是非线性的激活函数,
Figure 195018DEST_PATH_IMAGE012
为偏置项,R为矩阵。卷积操作应用于一 个完整新闻文本的词向量
Figure 61868DEST_PATH_IMAGE013
,得到一个特征图
Figure 906327DEST_PATH_IMAGE014
, 如式(3)所示:
Figure 858103DEST_PATH_IMAGE015
式中,
Figure 986464DEST_PATH_IMAGE016
。为了抽取主要特征同时减少特征参数和计算量,采用最 大池化方法取每个特征图中的最大值,作为该卷积核在文本向量上提取到的最重要特征, 得到一个维度为
Figure 631072DEST_PATH_IMAGE017
的特征向量。
Figure 962828DEST_PATH_IMAGE018
表示最大池化运算后的结果,池化操作如式(4)所示:
Figure 718294DEST_PATH_IMAGE019
以上内容为一种尺寸的卷积核进行特征提取的过程。本实施例组合-卷积神经网 络模型使用多个不同大小的卷积核来获取多个特征,所以将不同卷积核经最大池化后的结 果拼接起来,得到特征向量
Figure 435583DEST_PATH_IMAGE020
,具体如式(5)所示:
Figure 251093DEST_PATH_IMAGE021
式中,
Figure 70144DEST_PATH_IMAGE022
分别表示高度为3、5、7的卷积核经最大池化后输出的特征 向量。
然后,添加一个隐藏层,用于非线性降维,变成特征向量
Figure 629301DEST_PATH_IMAGE023
,其中,d为隐 藏层神经元节点数,本实施例中,d设置为128。
最后,这些特征传递到全连接层,通过Softmax层输出14个类别标签的概率分布, 取最大概率对应的类别,得到预测类别的标签值
Figure 466676DEST_PATH_IMAGE024
,如式(6)所示:
Figure 187508DEST_PATH_IMAGE025
式中,
Figure 493855DEST_PATH_IMAGE026
,m为类别数,
Figure 591124DEST_PATH_IMAGE027
为偏置项。为了加快收敛速度,采用小批 量样本梯度下降,本实施例中设置批量样本数为64。另外,在全连接层引入Dropout层和 ReLU激活函数的处理。
在深度学习领域,合理划分训练集、验证集和测试集很重要。本实施例中,数据量陡增将近百万级别,此时应将更多的样本数据给训练集,不需要太多的验证集和测试集,因此,本实施例中将训练集、验证集、测试集比例调整为82:6:12,采用随机划分的方法,得到686075条中文新闻样本用于训练、50000条验证集用于模型验证和优化,以及利用100000条测试集评估模型的分类效果。
其中,验证集用于验证模型精度和损失,寻找模型开始过拟合的迭代轮次,模型每迭代100轮次输出一组精度值和损失值,绘制的精度曲线和损失曲线,如图5和图6所示。网络总的迭代次数为20000轮次,在训练第10000轮左右开始过拟合,即训练精度和训练损失相对稳定,且验证精度不再提高、验证损失也不再下降。因此,去除此后的迭代训练既能减轻电脑计算负载,也能避免模型过拟合。
同时,在神经网络的全连接层中添加正则化方法Dropout层减少过拟合,Dropout层是卷积神经网络中防止过拟合提升效果的重要方法,在每个训练批次中以一定概率1-p将隐含层节点的输出值清零。以这种方式减少特征检测器(隐藏层节点)间的相互作用,可以有效地减轻过拟合现象,一定程度上达到正则化的效果。
基于所述术语集对所述组合-卷积神经网络模型进行训练的过程包括:
通过最小化训练集上的损失函数来训练组合-卷积神经网络模型,损失函数使用多分类交叉熵,即对数损失函数,如式(7)所示:
Figure 551514DEST_PATH_IMAGE028
式中,L为损失函数,Y为输出变量;
Figure 443247DEST_PATH_IMAGE029
为一个二值指标,表示类别m是否为输入 实例
Figure 236891DEST_PATH_IMAGE030
的真实类别;
Figure 137851DEST_PATH_IMAGE031
表示在N个实例中第j个实例预测为第t个类别的概率;损失值用 于衡量网络输出的概率分布于标签真实概率分布之间的距离,训练网络可使输出结果更尽 可能接近真实标签;优化器调用Adam优化算法,引入了二次方梯度校正,计算每个参数的自 适应学习率,是一个寻找全局最优点的优化算法;模型训练共迭代10000次,训练完成大约 20分钟。因此,采用TensorFlow中模型保存和加载的方法,通过加载预先训练好的模型,在 该模型基础上再次训练,从而在实验中节省大量时间。
本实施例通过实验对本发明基于组合-卷积神经网络的中文新闻文本分类方法的准确性和有效性进行验证:
实验环境的设置和实验平台的搭建如下:
(1)硬件方面:Windows10***、CPU Inter(R)Core(TM) i7-8750H 2.20GHz、内存8GB。
(2)软件和依赖的库:Python3.7、Jupyter notebook、Tensorflow_gpu-1.13.1、sklearn等。
实验过程中,组合-卷积神经网络模型可调参数的设置如表1所示,数据被分批加载用于训练,每个批次为64,全连接层中隐藏神经元个数为128。
Figure 684238DEST_PATH_IMAGE033
为了验证本发明组合-卷积神经网络模型算法的有效性,本实施例进行了多组不同模型的中文新闻文本分类实验,将其与传统且具有代表性的分类算法进行实验对比,使用各分类整体平均的精确率(Precision)、召回率(Recall)和F1值(F-Measure)评价不同模型的分类效果,并作为衡量分类器的性能指标。
(1)为验证组合-卷积神经网络模型的分类性能,本实施例选择多个基准进行比较,分别将组合-卷积神经网络与经典卷积神经网络、传统的机器学习方法进行对比试验。其中,经典卷积神经网络包括单层卷积神经网络(CNN-1)和多层卷积神经网络(CNN-3),传统机器学习方法包括朴素贝叶斯(NB)、最近邻(KNN)和支持向量机(SVM)。
(2)为了进一步测试模型的有效性,减少因样本数据不均衡对分类结果产生的影响,将数据集均衡化处理。各类新闻样本原始占比如下:“星座”、“彩票”、“时尚”、“房产”、“游戏”、“家居”、“财经”、“教育”、“社会”、“时政”、“娱乐”、“体育”、“股票”、“科技”占比分别为:0.45%、0.9%、1.6%、2.4%、2.9%、3.9%、4.4%、5.0%、6.1%、7.5%、11.1%、15.7%、18.5%、19.5%;其中,“星座”、“彩票”、“时尚”类别样本太少,不到总样本数的3%,而“科技”、“股票”、“体育”类别样本又太多,仅三个类别就超过总样本数的50%。因此,会导致前者分类效果较差,通过图7混淆矩阵中标示出的数据可以看出,前者的部分样本会被归类于后者。混淆矩阵的每一行代表了数据的真实归属类别,每一列代表了预测类别。再次经过随机划分均衡化的数据集共有65000个样本数据,分为10个类别,其中训练集5000×10个,验证集500×10个,测试集1000×10个。基于不同的数据集,利用本发明组合-卷积神经网络模型的分类结果进行对比.
在实验中,以实现特征构建的方法均以预训练好的词向量作为输入,不同分类模型的分类结果如表2所示:
Figure 12452DEST_PATH_IMAGE035
通过表2对比可以发现,第一:采用word2vec词袋模型预训练词向量,进行特征构建作为模型输入,在相同的数据集上各个分类模型均取得了80%以上的精确率,说明词向量能够很好地描述文本特征。第二:不论是单层卷积神经网络还是多层卷积神经网络,取得的分类效果都优于三种传统机器学习算法,说明卷积神经网络模型可以学习到更多的分类特征,相比传统的机器学习模型更有优势。第三:多个卷积层的CNN-3模型比单个卷积层的CNN-1模型取得的分类效果差,说明在经典卷积神经网络模型的基础上加深卷积层并没有取得预期的效果;第四:组合-卷积神经网络模型对中文新闻文本分类的精确率达到93.69%,相比NB、KNN、SVM的分类效果,分别在分类精确率上提高了11.82%、8.21%、6.34%,且相比于经典CNN-1模型的分类效果,在精确率也有1.19%的提升,同时召回率和F1值两项指标也优于对比模型,说明采用词向量分别卷积再组合的方式,能够提取更加全面的局部文本块特征信息,在文本分类效果上有很好的提升。
本实施例进一步设计了不同数据集的分类实验。分析分类结果的混淆矩阵发现,样本占比少的类别往往被错误分类成样本占比多的类别。因此,在实验中进一步划分数据集,采用相同模型,在不同数据集上进行分类结果比较,如表3所示:
Figure 27812DEST_PATH_IMAGE037
根据表3可知,同样使用组合-卷积神经网络模型的情况下,在均衡的数据集上,取得的精确率高达95.57%。使用均衡数据集相比不均衡的数据集,取得的分类效果更好,精确率提升了1.88%,召回率提升了1.76%,F1值提升了1.72%,说明对全部的不均衡数据集再次处理获得均衡数据集,可以很好地解决样本数据占比极端造成的问题,防止样本占比少的类别被错误分类成样本占比多的类别。因此,数据集太不均衡对分类结果的影响较大,对数据集的均衡化处理可以进一步提升新闻分类的精确率。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (2)

1.一种基于组合-卷积神经网络的中文新闻长文本分类方法,其特征在于,包括如下步骤:
S1、获取中文新闻文本数据集,并对所述数据集进行预处理;
S2、基于预处理后的数据集构建词汇表,并通过所述词汇表对预处理后的数据集中的中文新闻文本进行标准化处理,得到中文新闻文本的文本特征表示;
S3、构建组合-卷积神经网络模型,基于标准化处理后的数据集对所述组合-卷积神经网络模型进行训练,并通过训练好的组合-卷积神经网络模型完成中文新闻文本分类;所述组合-卷积神经网络模型为六层模型,包括依次连接的Embedding层、卷积层、池化层、第一隐藏层、第二隐藏层、全连接层;其中,
所述Embedding层用于接收输入的中文新闻文本数据,并采用word2vec将中文新闻文本中的词汇映射成实数向量后嵌入所述中文新闻文本,获得中文新闻文本的词向量表示,作为所述卷积层的输入,即对步骤S2标准化后的中文新闻文本进行二次向量映射;
所述卷积层采用若干种不同大小的卷积核分别提取中文新闻文本的特征向量;
所述池化层用于对所述卷积层的输出进行最大池化操作;
所述第一隐藏层用于组合不同所述卷积层中不同大小的卷积核所提取的特征向量;
所述第二隐藏层用于非线性降维;
所述全连接层中添加有Dropout,所述全连接层还连接有Softmax层,通过所述Softmax层对输入的中文新闻文本进行分类预测;
所述S1中,对所述数据集进行预处理包括:
S1.1、构造数据索引:基于大数据可视化分析,设置中文新闻文本的序列长度,基于中文新闻文本的序列长度构造数据索引;
S1.2、数据整合:将所述中文新闻文本转变为二进制数据流;
所述S2中,基于预处理后的数据集构建词汇表包括:通过去除停用词、词频统计制作用于中文新闻文本分类的词汇表,所述词汇表包括词汇和各词汇所对应的索引号;
所述S2中,通过所述词汇表对预处理后的数据集中的中文新闻文本进行标准化处理的方法具体包括:中文新闻文本内容的数据标准化、中文新闻文本标签的数据标准化;
所述中文新闻文本内容的数据标准化的具体方法包括:首先,遍历所述词汇表的索引序列,得到中文新闻文本中相应的词汇以及各词汇所对应的索引号;
其次,采用字典方法将中文新闻文本中的各词汇强制转换为词id,基于词id对中文新闻文本中的词汇进行向量化表示,完成中文新闻文本内容的数据标准化;具体为,使用列表推导式和lambda匿名函数实现词汇和词id的映射;将词id嵌入到所述中文新闻文本,实现中文新闻文本的向量化表示;
所述中文新闻文本标签的数据标准化的具体方法包括:采用One Hot编码方法,将各中文新闻文本对应的标签索引设置为1,其余标签索引表示为全零向量,实现文本标签的向量化表示,完成中文新闻文本标签的数据标准化。
2.根据权利要求1所述的基于组合-卷积神经网络的中文新闻长 文本分类方法,其特征在于,所述S3中,通过最小化损失函数对所述组合-卷积神经网络模型进行训练,其中,所述损失函数采用多分类交叉熵。
CN202110419616.2A 2021-04-19 2021-04-19 一种基于组合-卷积神经网络的中文新闻长文本分类方法 Active CN112989052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110419616.2A CN112989052B (zh) 2021-04-19 2021-04-19 一种基于组合-卷积神经网络的中文新闻长文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110419616.2A CN112989052B (zh) 2021-04-19 2021-04-19 一种基于组合-卷积神经网络的中文新闻长文本分类方法

Publications (2)

Publication Number Publication Date
CN112989052A CN112989052A (zh) 2021-06-18
CN112989052B true CN112989052B (zh) 2022-03-08

Family

ID=76341131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110419616.2A Active CN112989052B (zh) 2021-04-19 2021-04-19 一种基于组合-卷积神经网络的中文新闻长文本分类方法

Country Status (1)

Country Link
CN (1) CN112989052B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638558B (zh) * 2022-05-19 2022-08-23 天津市普迅电力信息技术有限公司 一种综合能源***运行事故分析的数据集分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595602A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于浅层模型与深度模型结合的问句文本分类方法
CN109840279A (zh) * 2019-01-10 2019-06-04 山东亿云信息技术有限公司 基于卷积循环神经网络的文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10963652B2 (en) * 2018-12-11 2021-03-30 Salesforce.Com, Inc. Structured text translation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595602A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于浅层模型与深度模型结合的问句文本分类方法
CN109840279A (zh) * 2019-01-10 2019-06-04 山东亿云信息技术有限公司 基于卷积循环神经网络的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于特征融合分段卷积神经网络的情感分析";周泳东等;《计算机工程与设计》;20190604;第3009-3013页 *

Also Published As

Publication number Publication date
CN112989052A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN111221944B (zh) 文本意图识别方法、装置、设备和存储介质
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN112417153B (zh) 文本分类方法、装置、终端设备和可读存储介质
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN113315789B (zh) 一种基于多级联合网络的Web攻击检测方法及***
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、***及设备
CN112784532A (zh) 用于短文本情感分类的多头注意力记忆网络
CN110263343A (zh) 基于短语向量的关键词抽取方法及***
CN113553510A (zh) 一种文本信息推荐方法、装置及可读介质
CN116756303A (zh) 一种多主题文本摘要自动生成方法及***
CN112989052B (zh) 一种基于组合-卷积神经网络的中文新闻长文本分类方法
CN114610838A (zh) 文本情感分析方法、装置、设备及存储介质
CN112527959B (zh) 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
CN110348497B (zh) 一种基于WT-GloVe词向量构建的文本表示方法
Yildiz A comparative study of author gender identification
CN112232079A (zh) 一种微博评论数据分类方法及***
CN111881667A (zh) 一种敏感文本审核方法
CN111460817A (zh) 一种刑事法律文书相关法条的推荐方法和***
Vikas et al. User gender classification based on Twitter Profile Using machine learning
CN114386425B (zh) 用于对自然语言文本内容进行处理的大数据体系建立方法
Liu et al. Chinese news text classification and its application based on combined-convolutional neural network
CN115358340A (zh) 一种信贷催收短信判别方法、***、设备及存储介质
CN113987536A (zh) 数据表中字段安全等级确定方法、装置、电子设备及介质
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
Deebadi Understanding Impact of Twitter Feed on Bitcoin Price and Trading Patterns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210618

Assignee: Beijing Zhongke Chaocai Information Consulting Co.,Ltd.

Assignor: Beijing University of Civil Engineering and Architecture

Contract record no.: X2023980034081

Denomination of invention: A Chinese News Long Text Classification Method Based on Combination Convolutional Neural Network

Granted publication date: 20220308

License type: Common License

Record date: 20230327

EE01 Entry into force of recordation of patent licensing contract