CN107357895A - 一种基于词袋模型的文本表示的处理方法 - Google Patents
一种基于词袋模型的文本表示的处理方法 Download PDFInfo
- Publication number
- CN107357895A CN107357895A CN201710569638.0A CN201710569638A CN107357895A CN 107357895 A CN107357895 A CN 107357895A CN 201710569638 A CN201710569638 A CN 201710569638A CN 107357895 A CN107357895 A CN 107357895A
- Authority
- CN
- China
- Prior art keywords
- words
- feature
- text
- weight
- bag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机应用领域,公开了一种基于词袋模型的文本表示的处理方法,本方法对采集到的文本数据集进行分词,去停顿词,去低频词,特征选择等处理过程;然后运用空间向量模型表示处理后的文本;同时对处理后的文本运用神经网络的方法训练词向量;根据词向量的相似性修改词袋模型的特征词的权重,得到新的文本表示模型。用以处理文本表示问题,提高了分类的准确性。
Description
技术领域
本发明属于计算机应用领域,特别涉及一种基于词袋模型的文本表示的处理方法。
背景技术
目前,文本处理已经被广泛的应用于各个领域,一般的,需要对文本进行分词、去停顿词、低频词、特征选择,然后表示文本,最后进行分类处理。不同的国家对于文本处理的研究,所取得成果同样不一致。相对于其他国家,我国对文本处理的研究探索相对落后,起步也比较晚。
分词处理,英文单词之间由于有空格作为自然分界符,因此不再需要分词。然而,当计算机处理中文文本时,首先需要对文本进行分词,自动分词是需要计算机根据语意将句子切分为合理的词语。在对自然语言进行处理时,都是以词作为最小的单位,分词的准确性直接影响文本分类的好坏。
特征选择,如果用文本中的所有特征词来表示该文本,那么特征空间的维数通常超过十万,如此高维的空间会使计算效率非常低,甚至无法完成计算。实际上,在文本中有些词的贡献非常弱,如副词“的”在几乎所有文本中都会出现,无法作为特定文本的特征,因此它对接下来的分类没有意义。因此需要从文本中选取能够代表文本的词语组成新的特征空间,从而达到降维的目的。
文本表示,人类理解的文本是字符编码形式,而计算机体系是二进制编码形式,文本表示的作用是如何将文本编码转化为计算机编码,并且使得计算机能够对文本信息进行计算。文本表示的选取直接影响到文本分类的效果。常用的文本表示模型为向量空间模型。但是空间向量模型中有很多特征词的权重为零,造成分类效果不是那么理想,本发明提出修改空间向量模型中的特征权重,提高了分类的准确度。
词向量是运用神经网络自然语言处理模型训练文本预料得到每个词的向量表示,谷歌开发的一个叫做Word2Vec的方法运用了神经网络语言模型,该方法可以在捕捉语境信息的同时压缩数据规模。Word2Vec实际上包括两种不同的方法:Continuous Bag of Words(CBOW)和Skip-gram。CBOW的目标是根据上下文来预测当前词语的概率。Skip-gram刚好相反:根据当前词语来预测上下文的概率(如图2所示)。这两种方法都利用人工神经网络作为它们的分类算法。起初,每个单词都是一个随机N维向量。经过训练之后,该算法利用CBOW或者Skip-gram的方法获得了每个单词的最优向量。现在这些词向量已经捕捉到上下文的信息,可以用来预测未知数据的情感状况。
发明内容
为了解决现有技术文本处理过程中文本表示的问题,提高文本分类的准确性。本发明提供了一种基于词袋模型的文本表示的处理方法,本发明利用空间向量模型结合词向量的方法来建立文本模型,从而对整个文本文档进行分类处理,提高了分类的准确性。本发明的技术方案为:
第一步,预处理;
对文本数据集进行分词、去停顿词、去低频词,再进行特征词选择;
第二步,经预处理后的文本数据集,运用词袋模型表示;所述的词袋模型是以TFIDF(term frequency-inverse document frequency)为权重的文本表示模型;
第三步,经预处理后的文本数据集,运用神经网络自然语言处理模型训练得到词向量;
第四步,根据第三步得到的词向量的相似性修改第二步得到的词袋模型的特征词的权重,得到新的文本表示模型。在该空间向量模型的TFIDF权重矩阵中,每个特征对应特征空间中的一维,每个文本表示成矩阵中的一行,每一列代表一个特征词。这个矩阵中会有很多特征词的TFIDF权重值为零,这些为零的特征权重影响分类的效果。针对某个为零的项,根据神经网络训练的词向量的相似性用n个相近的词的TFIDF值来修改这个为零的项。具体修改方式为:对于第二步得到的TFIDF为权重的文本表示模型,其对应的特征权重矩阵的某一行中的某个特征词t,若它的特征权重Wt为零;
一种情况,则特征权重Wt用特征词t的相近词t1,t2,t3,...,tn的权重Wt1,Wt2,Wt3,...,Wtn来近似表示Wt,,相似词的数量n通过控制特征词的相似性阈值m的大小来控制。
其中,S(t,tn)中为特征词t与特征词tn的相似度。
另一种情况,则特征权重Wt用特征词t的相近词t1,t2,t3,...,tn中最相近词的权重Wi来近似表示Wt。
Wt=Wi*S(t,i) (2)
其中,S(t,i)中为特征词t与特征词i的相似度。
进一步地,对于较小的数据集,把经预处理后的文本数据集复制n倍,n为正整数,用于扩大数据集的大小,再运用神经网络自然语言处理模型训练得到词向量,如此得到的词向量效果更优。
本发明的有益效果在于,利用空间向量模型结合词向量的方法来建立文本模型,从而对整个文本文档进行分类处理,提高了分类的准确性。
附图说明
图1基于词袋模型和词向量的文本表示处理过程示意图。
图2训练词向量的CBOW模型和Skip-gram模型。
图3使用RandomForest分类器的分类效果对比图。
具体实施方式
所述的具体实施例仅用于说明本发明的实现方式,而不限制本发明的范围。下面结合附图对本发明的实施方式进行详细说明,具体包括以下步骤:
1、数据集的格式化。对于数据集形式各异,有采用txt文件存储数据,有采用pkl文件存储数据。本发明实施提供文本处理***,数据集统一转化为CSV文件,CSV是一种通用的、相对简单的文件格式纯文本,它使用某个字符集,比如ASCII、Unicode、GB2312、UTF-8;它是由记录组成(典型的是每行一条记录);每条记录被分隔符分隔为字段(典型分隔符有逗号、分号、制表符或者空格);每条记录都有同样的字段序列。
2、数据的预处理。通常需要对文本进行分词、去停顿词、低频词。
(1)分词处理,英文单词之间有空格作为自然分界符,因此不再需要分词,只需要把标点和数字去掉就可以。然而中文的每个词是由不同个数的字组成,在处理中文文本时首先需要对文本进行分词。自动分词是需要计算机根据语意将句子切分为合理的词语。在对自然语言进行处理时,都是以词作为最小的单位,分词的准确性直接影响文本分类的好坏,因此首先需要对文本进行分词,本发明实施使用了结巴分词包进行中文分词。
(2)去停顿词,文中的“的”,“了”,“吗”,“我”等词在每个文本中出现,这些词对于区分文档的类别不会产生影响,因而要去掉它们。对于英文NLTK中有标准的stopwords库,很容易去掉停顿词,得到良好的效果。但对于中文,由于没有标准的停顿词库,需要查找下载停顿词表,去掉停顿词。
(3)低频词对于文档的影响较小,某些情况下需要去掉低频词;但有些情况下正是这些特定的词区别于其他文档。
(4)英文由于存在时态、语态的情况,需要在这种情况下词干化,还原其词原型。
3、特征选择。特征空间的维数通常超过十万,如此高维的空间将使计算效率非常低,甚至计算无法进行。而在文本中有些词的贡献非常弱,在几乎所有文本中都会出现,无法作为特定文本的特征,因此它对接下来的分类没有意义。因此需要从文本中选取能够代表文本的词语组成新的特征空间,从而达到降维的目的。常用的特征选择方法有文本频率法(Document frequency,DF)、互信息法(Mutual information,MI)、信息增益法(Information gain,IG)、X2统计法(CHI)等,其中在文本分类中使用最为广泛的是信息增益法,本发明使用了信息增益法进行特征选择。
4、文本表示。文本表示就是对文本进行形式化处理,表示成为计算机能够用于计算的数字,以达到计算机能够理解自然语言文本的目的。现在采用的一般文本表示模型为空间向量模型(VSM),在文本分类中最为有效的是向量空间模型。文本表示的选取直接影响到文本分类的效果。VSM的基本思想是将大量的文本表示为特征词矩阵,从而把对文本相似度的比较转化为特征向量在空间上的相似度比较,比较清晰且容易理解。在该特征词矩阵中,每个特征对应特征空间中的一维,矩阵的行数表示所有待分类的文本数,将每个文本表示成矩阵中的一行,每一列代表一个特征词。在实际应用中,空间向量模型经常采用TFIDF为权重值。TFIDF权重计算公式如下:
5、运用神经网络语言模型(Google开源的Word2vec架构)去训练步骤1预处理后的数据集,本发明实施的采用的数据集相对较小,采用复制数据集n倍来扩大数据集的数量。训练得到一个词库,词库中每个词是一个向量,这些词向量已经捕捉到上下文的信息。本发明运用向量空间模型结合词向量,这种文本表示方法,提高了分类效果。
6、对于步骤4中得到空间向量模型的TFIDF权重矩阵,在该特征词矩阵中,每个特征对应特征空间中的一维,矩阵的行数表示所有待分类的文本数,将每个文本表示成矩阵中的一行,每一列代表一个特征词。这个矩阵中会有很多特征词的TFIDF权重值为零,这些为零的特征权重影响分类的效果。本发明考虑使用步骤5得到的词向量,提出了对于TFIDF权重为零的特征词,运用词向量查找它的相似词,用这些TFIDF值不为零的相似词的权重值来近似表示这个TFIDF值为零的特征词。具体的实施如下:对于得到的空间向量模型,其对应的TFIDF权重矩阵,其某一行中的某个特征词t,如果它的特征权重Wt为零,可采用:
(1)特征权重Wt用特征词t的相近词t1,t2,t3,...,tn的权重Wt1,Wt2,Wt3,...,Wtn来近似表示Wt,至于相似词n的数量可通过控制特征词的相似性阈值m的大小来控制,如公式(1)所示。
(2)特征权重Wt用特征词t的相近词t1,t2,t3,...,tn中最相近词的权重Wi来近似表示Wt,如公式(2)所示。
7、对于本发明建立的文本模型使用RandomForest分类器进行分类,随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。对于分类数据集采用SST(Standfordsentiment treebankdataset),对比词袋模型和本发明修改的模型的分类准确性,本发明提出的基于词袋模型的文本表示的处理方法的分类准确度更高。
Claims (3)
1.一种基于词袋模型的文本表示的处理方法,其特征在于,包括如下步骤:
第一步,预处理;
对文本数据集进行分词、去停顿词、去低频词,再进行特征词选择;
第二步,经预处理后的文本数据集,运用词袋模型表示;所述的词袋模型是以TFIDF为权重的文本表示模型;
第三步,经预处理后的文本数据集,运用神经网络自然语言处理模型训练得到词向量;
第四步,根据第三步得到的词向量的相似性修改第二步得到的词袋模型的特征词的权重,得到新的文本表示模型;具体修改方式为:对于第二步得到的TFIDF为权重的文本表示模型,其对应的特征权重矩阵的某一行中的某个特征词t,若它的特征权重Wt为零,则特征权重Wt用特征词t的相近词t1,t2,t3,...,tn的权重Wt1,Wt2,Wt3,...,Wtn来近似表示Wt,,相似词的数量n通过控制特征词的相似性阈值m的大小来控制。
2.根据权利要求1所述的一种基于词袋模型的文本表示的处理方法,其特征在于,第二步中,把经预处理后的文本数据集复制n倍,n为正整数,用于扩大数据集的大小,再运用神经网络自然语言处理模型训练得到词向量。
3.根据权利要求1或2所述的一种基于词袋模型的文本表示的处理方法,其特征在于,第四步,根据第三步得到的词向量的相似性修改第二步得到的词袋模型的特征词的权重,得到新的文本表示模型;具体修改方式为:对于第二步得到的TFIDF为权重的文本表示模型,其对应的特征权重矩阵的某一行中的某个特征词t,若它的特征权重Wt为零,则特征权重Wt用特征词t的相近词t1,t2,t3,...,tn中最相近词的权重Wi来近似表示Wt。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710005310 | 2017-01-05 | ||
CN2017100053106 | 2017-01-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107357895A true CN107357895A (zh) | 2017-11-17 |
CN107357895B CN107357895B (zh) | 2020-05-19 |
Family
ID=60292842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710569638.0A Expired - Fee Related CN107357895B (zh) | 2017-01-05 | 2017-07-14 | 一种基于词袋模型的文本表示的处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107357895B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284382A (zh) * | 2018-09-30 | 2019-01-29 | 武汉斗鱼网络科技有限公司 | 一种文本分类方法及计算装置 |
CN109543036A (zh) * | 2018-11-20 | 2019-03-29 | 四川长虹电器股份有限公司 | 基于语义相似度的文本聚类方法 |
CN110362815A (zh) * | 2018-04-11 | 2019-10-22 | 北京京东尚科信息技术有限公司 | 文本向量生成方法和装置 |
WO2020199595A1 (zh) * | 2019-04-04 | 2020-10-08 | 平安科技(深圳)有限公司 | 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质 |
CN111859901A (zh) * | 2020-07-15 | 2020-10-30 | 大连理工大学 | 一种英文重复文本检测方法、***、终端及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
CN103927302A (zh) * | 2013-01-10 | 2014-07-16 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和*** |
US20150026104A1 (en) * | 2013-07-17 | 2015-01-22 | Christopher Tambos | System and method for email classification |
CN104778158A (zh) * | 2015-03-04 | 2015-07-15 | 新浪网技术(中国)有限公司 | 一种文本表示方法及装置 |
CN104809131A (zh) * | 2014-01-27 | 2015-07-29 | 董靖 | 电子文档的自动分类***和方法 |
CN104881400A (zh) * | 2015-05-19 | 2015-09-02 | 上海交通大学 | 基于联想网络的语义相关性计算方法 |
-
2017
- 2017-07-14 CN CN201710569638.0A patent/CN107357895B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
CN103927302A (zh) * | 2013-01-10 | 2014-07-16 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和*** |
US20150026104A1 (en) * | 2013-07-17 | 2015-01-22 | Christopher Tambos | System and method for email classification |
CN104809131A (zh) * | 2014-01-27 | 2015-07-29 | 董靖 | 电子文档的自动分类***和方法 |
CN104778158A (zh) * | 2015-03-04 | 2015-07-15 | 新浪网技术(中国)有限公司 | 一种文本表示方法及装置 |
CN104881400A (zh) * | 2015-05-19 | 2015-09-02 | 上海交通大学 | 基于联想网络的语义相关性计算方法 |
Non-Patent Citations (1)
Title |
---|
朱雪梅: "基于Word2Vec主题提取的微博推荐", 《中国优秀硕士学位论文全文数据库 信息科技辑 2016年第03期》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362815A (zh) * | 2018-04-11 | 2019-10-22 | 北京京东尚科信息技术有限公司 | 文本向量生成方法和装置 |
CN109284382A (zh) * | 2018-09-30 | 2019-01-29 | 武汉斗鱼网络科技有限公司 | 一种文本分类方法及计算装置 |
CN109284382B (zh) * | 2018-09-30 | 2021-05-28 | 武汉斗鱼网络科技有限公司 | 一种文本分类方法及计算装置 |
CN109543036A (zh) * | 2018-11-20 | 2019-03-29 | 四川长虹电器股份有限公司 | 基于语义相似度的文本聚类方法 |
WO2020199595A1 (zh) * | 2019-04-04 | 2020-10-08 | 平安科技(深圳)有限公司 | 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质 |
CN111859901A (zh) * | 2020-07-15 | 2020-10-30 | 大连理工大学 | 一种英文重复文本检测方法、***、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107357895B (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jain et al. | Application of machine learning techniques to sentiment analysis | |
CN108197098B (zh) | 一种关键词组合策略的生成及关键词扩展方法、装置和设备 | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN105335352A (zh) | 基于微博情感的实体识别方法 | |
CN110580292A (zh) | 一种文本标签生成方法、装置和计算机可读存储介质 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN105389379A (zh) | 一种基于文本分布式特征表示的垃圾稿件分类方法 | |
Gomes et al. | A comparative approach to email classification using Naive Bayes classifier and hidden Markov model | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN107944014A (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN110069627A (zh) | 短文本的分类方法、装置、电子设备和存储介质 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN106446230A (zh) | 一种优化机器学习文本中词语分类的方法 | |
CN109582794A (zh) | 基于深度学习的长文分类方法 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN107688630B (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN107180084A (zh) | 词库更新方法及装置 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断***及方法 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及*** | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN113505200A (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN115238040A (zh) | 一种钢铁材料学知识图谱构建方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200519 Termination date: 20210714 |