CN108595429A - 基于深度卷积神经网络进行文本特征提取的方法 - Google Patents

基于深度卷积神经网络进行文本特征提取的方法 Download PDF

Info

Publication number
CN108595429A
CN108595429A CN201810379548.XA CN201810379548A CN108595429A CN 108595429 A CN108595429 A CN 108595429A CN 201810379548 A CN201810379548 A CN 201810379548A CN 108595429 A CN108595429 A CN 108595429A
Authority
CN
China
Prior art keywords
convolutional neural
neural networks
carrying
depth convolutional
text character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810379548.XA
Other languages
English (en)
Inventor
张黎
邹开红
宗旭
肖增辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Flash Press Information Polytron Technologies Inc
Original Assignee
Hangzhou Flash Press Information Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Flash Press Information Polytron Technologies Inc filed Critical Hangzhou Flash Press Information Polytron Technologies Inc
Priority to CN201810379548.XA priority Critical patent/CN108595429A/zh
Publication of CN108595429A publication Critical patent/CN108595429A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供基于深度卷积神经网络进行文本特征提取的方法,属于文本特征提取技术领域。该基于深度卷积神经网络进行文本特征提取的方法包括以下步骤:S1:将句子样本中的词转换为词向量;S2:通过深度卷积神经网络扫描所述词向量得到扫描特征;S3:通过对扫描特征进行采样生成深度特征;S4:将深度特征输入至分类层得到分类结果。本发明中将句子样本中的词转换为词向量,通过深度卷积神经网络扫描词向量得到扫描特征,通过对扫描特征进行采样生成深度特征,将深度特征输入至分类层得到分类结果,则完成对文本的特征提取,解决了句子长短不一的问题,提高了文本特征提取的准确率和性能,消耗资源更少,效率更高。

Description

基于深度卷积神经网络进行文本特征提取的方法
技术领域
本发明属于文本特征提取技术领域,涉及基于深度卷积神经网络进行文本特征提取的方法。
背景技术
随着互联网的快速发展,互联网已经成为了人们获取信息的主要渠道,互联网上的文本数据内容呈现着指数增长的趋势。互联网上的文本数据包括丰富的信息,这些信息对于我们构建知识库或知识图谱非常有用;但是人工进行相关知识提取的工作量过大,如果能够通过计算机理解并提取出有用的信息,这样就可以节省大量的人力。但互联网上的文本数据几乎都是以自然语言的形式存在,即无结构化的,计算机无法直接进行处理。为了解决这个问题,信息抽取技术应运而生,信息抽取技术从无结构化的文本数据中抽取出结构化数据。文本挖掘技术可以帮助人们快速有效的从海量数据中获取关键信息,而文本特征提取则是文本挖掘的关键步骤。
发明内容
本发明针对现有的技术存在的上述问题,提供基于深度卷积神经网络进行文本特征提取的方法,本发明所要解决的技术问题是:如何通过深度卷积神经网络对文本中的特征进行提取。
本发明的目的可通过下列技术方案来实现:
基于深度卷积神经网络进行文本特征提取的方法,包括以下步骤:
S1:将句子样本中的词转换为词向量;
S2:通过深度卷积神经网络扫描所述词向量得到扫描特征;
S3:通过对扫描特征进行采样生成深度特征;
S4:将深度特征输入至分类层得到分类结果。
优选的,步骤S1中根据词典将句子样本分隔成词。
优选的,步骤S1中通过embedding将词转换为词向量。
优选的,步骤S2中具体包括:
S21:将词向量进行计算分权得到特征矩阵;
S22:通过深度卷积神经网络的滤波器扫描特征矩阵得到扫描特征。
优选的,步骤S3中具体包括:
S31:通过max-pool对扫描特征进行采样得到采样特征;
S32:从采样特征中筛选出深度特征。
优选的,步骤S32中从采样特征中筛选出最大值作为深度特征。
优选的,所述滤波器扫描特征矩阵时每次移动的距离相等。
优选的,步骤S4中分类层将深度特征全连接生成连接特征,将连接特征输入分类层中将连接特征与类别库进行对比生成分类结果。
优选的,所述分类层为softmax分类层。
优选的,所述滤波器的宽度和特征矩阵的宽度相等。
本发明中将句子样本中的词转换为词向量,通过深度卷积神经网络扫描词向量得到扫描特征,准确率高,通过对扫描特征进行采样生成深度特征,防止过度拟合,方便优化,将深度特征输入至分类层得到分类结果,则完成对文本的特征提取,解决了句子长短不一的问题,提高了文本特征提取的准确率和性能,消耗资源更少,效率更高。
附图说明
图1是本发明的流程示意图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
请参阅图1,本实施例中的基于深度卷积神经网络进行文本特征提取的方法,可以包括以下步骤:
S1:将句子样本中的词转换为词向量;
S2:通过深度卷积神经网络扫描词向量得到扫描特征;
S3:通过对扫描特征进行采样生成深度特征;
S4:将深度特征输入至分类层得到分类结果。
步骤S1中可以根据词典将句子样本分隔成词。这样就可以根据词典将句子样本分隔成单个有语义的词,减小因为句子样本分隔不正确影响深度特征的提取,进而影响分类层的分类结果,导致提取的文本特征不正确,影响整个句子样本提取的结果。步骤S1中对句子样本进行预处理后将句子样本中的词转换为词向量,预处理包括:将句子样本中的表情符号用相对应的文字替代和删除句子样本中的重复的词。这样就可以避免在将词转换为词向量时转换不成功,减少深度特征提取的不全导致分类的结果不全,最后文本特征提取的不完整。
步骤S1中可以通过embedding将词映射到embedding层可以转换为词向量。Embedding是词嵌入,可以将文本和词语转换为机器能够接受的数值向量。词嵌入使用低维、稠密、实值的词向量来表示每一个词,从而赋予词语丰富的语义含义,并使得计算词语相关度成为可能。以最简单的情况为例,如果使用二维向量来表示词语,那么可以将每个词看作平面上的一个点,点的位置即横纵坐标由对应的二维向量确定,可以是任意且连续的。如果希望点的位置中蕴含词的语义,那么平面上位置相邻的点应当具有相关或相似的语义。用数学的语言来说,两个词具有语义相关或相似,则它们所对应的词向量之间距离相近,度量向量之间的距离可以使用经典的欧拉距离和余弦相似度等。
步骤S2中可以具体包括:
S21:将词向量进行计算分权得到特征矩阵,通过将词向量出现的概率进行计算分权得到特征矩阵;
S22:通过深度卷积神经网络的滤波器扫描特征矩阵得到扫描特征,使用深度卷积神经网络的滤波器扫描特征矩阵,准确率较高,效率较高。
此处,特征矩阵中每个神经元连接数据窗的权重可以是固定的,每个神经元只关注一个特性。神经元可以是滤波器,每个滤波器有自己关注的一个文本特征,所有的神经元加起来就是整个句子样本的特征提取器集合。将扫描特征可以做非线性映射,深度特征卷积神经网络的激励函数可以采用ReLU(修正线性单元),这个激励函数收敛快,求梯度简单。扫描特征的列数可以为1。
步骤S3中可以具体包括:
S31:通过max-pool对扫描特征进行采样得到采样特征;
S32:从采样特征中筛选出深度特征。
步骤S32中可以从采样特征中筛选出最大值作为深度特征,使用max-pool进行采样,得到样本,将样本中的最大值作为深度特征,防止过度拟合,方便优化。这样就可以实现对采样特征的降维处理,使得max-pool的输出为各个Feature Map的最大值们,即一个一维的向量,即可以得到一个一维的深度特征。
此处,通过max-pool对扫描特征进行采样可以得到采样特征,将获取的采样特征中的最大值可以作为深度特征。Max-pool可以用于压缩数据和参数的量,进行降维处理,防止过度拟合,更加方便优化。Max-pool可以保留文本中最重要的特征,去掉一些无关紧要的信息,将重复或者没有太多用途的这类冗余信息去除,把最重要的特征抽取出来。Max-pool的输出为各个Feature Map的最大值们,即一个一维的向量,深度特征可以为一个一维的向量。
滤波器扫描特征矩阵时每次移动的距离可以相等。这样可以,提高分类的效率,避免滤波器扫描特征矩阵时遗漏部分词向量,导致生成的扫描特征不全,影响后续的操作,导致最后的分类结果不准确,分类效率也较低。
滤波器的宽度可以和特征矩阵的宽度相等。特征矩阵的宽度可以与词向量的长度相等,这样滤波器的宽度可以与词向量的长度相等,这样就可以保证滤波器扫描所有的词向量,保证扫描结果的准确性,保证扫描特征的准确性。
步骤S4中分类层可以将深度特征全连接生成连接特征,将连接特征输入分类层中将连接特征与类别库进行对比生成分类结果。将深度特征输入分类器中与现有的类别库进行对比实现文本的分类,从而实现文本特征提取。将深度特征通过全连接的方式连接分类层中。每个输入都对应一个输出,这样就可以实现全连接。全连接可以使用Dropout技术,Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重得保留下来,因为下次样本输入时它可能又得工作了,对深度特征的权值参数给予L2正则化的限制,这样做的好处是防止隐藏层单元自适应(或者对称),从而减轻过拟合的程度。
分类层可以为softmax分类层。Softmax分类层可以提高分类标记序列的准确性,保证分类结果准确性高,使得文本特征提取的准确率高,效率较高,消耗资源也较少。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.基于深度卷积神经网络进行文本特征提取的方法,其特征在于,包括以下步骤:
S1:将句子样本中的词转换为词向量;
S2:通过深度卷积神经网络扫描所述词向量得到扫描特征;
S3:通过对扫描特征进行采样生成深度特征;
S4:将深度特征输入至分类层得到分类结果。
2.如权利要求1所述的基于深度卷积神经网络进行文本特征提取的方法,其特征在于:步骤S1中根据词典将句子样本分隔成词。
3.如权利要求1或2所述的基于深度卷积神经网络进行文本特征提取的方法,其特征在于:步骤S1中通过embedding将词转换为词向量。
4.如权利要求3所述的基于深度卷积神经网络进行文本特征提取的方法,其特征在于,步骤S2中具体包括:
S21:将词向量进行计算分权得到特征矩阵;
S22 :通过深度卷积神经网络的滤波器扫描特征矩阵得到扫描特征。
5.如权利要求4所述的基于深度卷积神经网络进行文本特征提取的方法,其特征在于,步骤S3中具体包括:
S31:通过max-pool对扫描特征进行采样得到采样特征;
S32:从采样特征中筛选出深度特征。
6.如权利要求4所述的基于深度卷积神经网络进行文本特征提取的方法,其特征在于:步骤S32中从采样特征中筛选出最大值作为深度特征。
7.如权利要求4所述的基于深度卷积神经网络进行文本特征提取的方法,其特征在于:所述滤波器扫描特征矩阵时每次移动的距离相等。
8.如权利要求1或2所述的基于深度卷积神经网络进行文本特征提取的方法,其特征在于:步骤S4中分类层将深度特征全连接生成连接特征,将连接特征输入分类层中将连接特征与类别库进行对比生成分类结果。
9.如权利要求8所述的基于深度卷积神经网络进行文本特征提取的方法,其特征在于:所述分类层为softmax分类层。
10.如权利要求4所述的基于深度卷积神经网络进行文本特征提取的方法,其特征在于:所述滤波器的宽度和特征矩阵的宽度相等。
CN201810379548.XA 2018-04-25 2018-04-25 基于深度卷积神经网络进行文本特征提取的方法 Pending CN108595429A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810379548.XA CN108595429A (zh) 2018-04-25 2018-04-25 基于深度卷积神经网络进行文本特征提取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810379548.XA CN108595429A (zh) 2018-04-25 2018-04-25 基于深度卷积神经网络进行文本特征提取的方法

Publications (1)

Publication Number Publication Date
CN108595429A true CN108595429A (zh) 2018-09-28

Family

ID=63609681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810379548.XA Pending CN108595429A (zh) 2018-04-25 2018-04-25 基于深度卷积神经网络进行文本特征提取的方法

Country Status (1)

Country Link
CN (1) CN108595429A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6038337A (en) * 1996-03-29 2000-03-14 Nec Research Institute, Inc. Method and apparatus for object recognition
CN105740349A (zh) * 2016-01-25 2016-07-06 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN106649275A (zh) * 2016-12-28 2017-05-10 成都数联铭品科技有限公司 基于词性信息和卷积神经网络的关系抽取方法
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
US20170150235A1 (en) * 2015-11-20 2017-05-25 Microsoft Technology Licensing, Llc Jointly Modeling Embedding and Translation to Bridge Video and Language
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取***
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6038337A (en) * 1996-03-29 2000-03-14 Nec Research Institute, Inc. Method and apparatus for object recognition
US20170150235A1 (en) * 2015-11-20 2017-05-25 Microsoft Technology Licensing, Llc Jointly Modeling Embedding and Translation to Bridge Video and Language
CN105740349A (zh) * 2016-01-25 2016-07-06 重庆邮电大学 一种结合Doc2vec和卷积神经网络的情感分类方法
CN106649275A (zh) * 2016-12-28 2017-05-10 成都数联铭品科技有限公司 基于词性信息和卷积神经网络的关系抽取方法
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取***
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法

Similar Documents

Publication Publication Date Title
WO2021135193A1 (zh) 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN106570148B (zh) 一种基于卷积神经网络的属性抽取方法
CN106383816B (zh) 基于深度学习的中文少数民族地区地名的识别方法
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN107992764B (zh) 一种敏感网页识别与检测方法及装置
CN110413319A (zh) 一种基于深度语义的代码函数味道检测方法
CN108287911A (zh) 一种基于约束化远程监督的关系抽取方法
CN109582794A (zh) 基于深度学习的长文分类方法
CN103279478A (zh) 一种基于分布式互信息文档特征提取方法
CN109918649B (zh) 一种基于微博文本的***风险识别方法
CN107357785A (zh) 主题特征词抽取方法及***、情感极性判断方法及***
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN108920446A (zh) 一种工程文本的处理方法
CN109815485A (zh) 一种微博短文本情感极性识别的方法、装置及存储介质
CN108829810A (zh) 面向健康舆情的文本分类方法
CN109446299B (zh) 基于事件识别的搜索电子邮件内容的方法及***
CN108319518A (zh) 基于循环神经网络的文件碎片分类方法及装置
CN113806548A (zh) 基于深度学习模型的信访要素抽取方法及抽取***
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN115062727A (zh) 一种基于多阶超图卷积网络的图节点分类方法及***
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN111008285B (zh) 一种基于论文关键属性网络的作者消歧方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 612, Building 5, No. 998 Wenyi West Road, Yuhang District, Hangzhou City, Zhejiang Province, 311100

Applicant after: HANGZHOU SECSMART INFORMATION TECHNOLOGY CO.,LTD.

Address before: Room 612, Building 5, No. 998 Wenyi West Road, Yuhang District, Hangzhou City, Zhejiang Province, 311100

Applicant before: HANGZHOU SECSMART INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310000 Room 608, Building No. 998 Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: HANGZHOU SECSMART INFORMATION TECHNOLOGY CO.,LTD.

Address before: Room 612, Building 5, No. 998 Wenyi West Road, Yuhang District, Hangzhou City, Zhejiang Province, 311100

Applicant before: HANGZHOU SECSMART INFORMATION TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310000 Room 608, building 5, No. 998, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: Flash it Co.,Ltd.

Address before: 310000 Room 608, building 5, No. 998, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant before: HANGZHOU SECSMART INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180928

RJ01 Rejection of invention patent application after publication