CN111159410A - 一种文本情感分类方法、***、装置及存储介质 - Google Patents

一种文本情感分类方法、***、装置及存储介质 Download PDF

Info

Publication number
CN111159410A
CN111159410A CN201911410177.8A CN201911410177A CN111159410A CN 111159410 A CN111159410 A CN 111159410A CN 201911410177 A CN201911410177 A CN 201911410177A CN 111159410 A CN111159410 A CN 111159410A
Authority
CN
China
Prior art keywords
text
feature
vector
vectors
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911410177.8A
Other languages
English (en)
Inventor
寇永娴
占太雄
陈惠芳
黄娇燕
余嘉昇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GRG Banking Equipment Co Ltd
GRG Banking IT Co Ltd
Original Assignee
GRG Banking Equipment Co Ltd
GRG Banking IT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GRG Banking Equipment Co Ltd, GRG Banking IT Co Ltd filed Critical GRG Banking Equipment Co Ltd
Priority to CN201911410177.8A priority Critical patent/CN111159410A/zh
Publication of CN111159410A publication Critical patent/CN111159410A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本情感分类方法、***、装置及存储介质,该方法包括:对文本进行预处理;对预处理后的文本进行统计量计算,得到文本向量;采用卡方统计方法对文本向量进行特征选择,提取出特征向量;对特征向量进行权重计算,得到各个特征向量的权重;结合各个特征向量的权重,基于支持向量机对文本进行分类。该***包括:预处理模块,统计模块、特征模块、权重模块和分类模块。该装置包括存储器以及用于执行上述文本情感分类方法的处理器。通过使用本发明,可提高文本分类的准确率。本发明作为一种文本情感分类方法、***、装置及存储介质,可广泛应用于文本分类领域。

Description

一种文本情感分类方法、***、装置及存储介质
技术领域
本发明涉及文本分类领域,尤其涉及一种文本情感分类方法、***、装置及存储介质。
背景技术
情感分类是自然语言处理领域的一个任务,又称倾向性分析,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。它可以分析文本中作者对特定主体的情感偏好和观点,用于预测电影票房、股票趋势、舆情分析、改进服务及产品、及了解用户的体验等,文本情感分类目前主要研究方法分为基于字典和基于语料库两种,对语料库或字典进行信息挖掘,识别词语的情感倾向,从而得到统计数据并对其极性做出判断,但这两种方法对新词没有词性判别能力,而且由于不是从语义层面判断,分类得到的结果准确率低。
发明内容
为了解决上述技术问题,本发明的目的是提供一种文本情感分类方法、***、装置及存储介质,可提高文本分类的准确率。
本发明所采用的第一技术方案是:一种文本情感分类方法,包括以下步骤:
对文本进行预处理;
对预处理后的文本进行统计量计算,得到文本向量;
采用卡方统计方法对文本向量进行特征选择,提取出特征向量;
对特征向量进行权重计算,得到各个特征向量的权重;
结合各个特征向量的权重,基于支持向量机对文本进行分类。
进一步,所述对文本进行预处理这一步骤,其具体包括:
获取文本,过滤文本的非法字符并对文本进行分词处理;
去除无关词并统计词频,得到预处理后的文本。
进一步,所述采用卡方统计方法对文本向量进行特征选择具体采用下述公式:
Figure BDA0002349760790000011
所述ti是特征项,所述Cj是类别,所述N是文本总数,所述A是包含ti且属于Cj的数量,所述B是包含ti但不属于Cj的数量,所述C是属于Cj但不包含ti的数量,所述D是不属于Cj且不包含ti的数量。
进一步,所述对特征向量进行权重计算,得到各个特征向量的权重具体采用下述公式:
Figure BDA0002349760790000021
所述wij表示权重,所述tfij表示ti在文本出现的次数,所述ni表示包含ti的文本数。
进一步,所述对特征向量进行权重计算,得到各个特征向量的权重还包括对权重进行归一化处理,具体采用下述公式:
Figure BDA0002349760790000022
所述M表示向量数。
进一步,所述采用卡方统计方法对文本向量进行特征选择,提取出特征向量这一步骤,其具体包括:
对文本向量的特征项进行评分并按照评分大小对特征项进行排序;
按照预设数量获得文本特征项,采用卡方统计方法提取该文本的特征向量。
进一步,所述无关词包括停用词、代词、量词、助词、连词和拟声词。
本发明所采用的第二技术方案是:一种文本情感分类***,包括:
预处理模块,用于对文本进行预处理;
统计模块,用于对预处理后的文本进行统计量计算,得到文本向量;
特征模块,用于采用卡方统计方法对文本向量进行特征选择,提取出特征向量;
权重模块,用于对特征向量进行权重计算,得到各个特征向量的权重;
分类模块,用于结合各个特征向量的权重,基于支持向量机对文本进行分类。
本发明所采用的第三技术方案是:一种文本情感分类装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述所述一种文本情感分类方法。
本发明所采用的第四技术方案是:一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如上所述一种文本情感分类方法。
本发明方法、***、装置及存储介质的有益效果是:本发明将文本以向量形式表示,通过对文本的特征提取和对提取出来的特征进行权重计算,实现对文本的情感分类,并通过将文本的向量空间模型结合特征权重输入到支持向量机进行分类,进而提高文本情感分类的准确率。
附图说明
图1是本发明一种文本情感分类方法的步骤流程图;
图2是本发明一种文本情感分类***的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
对文本进行情感分类,有利于企业改进服务及产品,例如在某些针对产品的评论,企业直接提取所有用户的评论文本,将这些大量的评论文本通过本方法进行情感分类,有利于企业快速指导用户是否认可该产品。
如图1所示,本发明提供了一种文本情感分类方法,该方法包括以下步骤:
S101、对文本进行预处理;
具体地,文本预处理的目的是从文本语料库中规范地提取出主要内容,去除与文本情感分类不相关的信息,主要操作包括过滤非法字符,分词处理,去除停用词等步骤,分词处理后可对词语进行情感标识。
S102、对预处理后的文本进行统计量计算,得到文本向量;
具体地,文本是一种非结构化的数据,由大量字符构成,计算机无法直接处理字符类型的数据,因此需要将普通文本的内容转变为计算机能够读懂的数据形式,即将文本进行形式化表示,本发明采用向量来表示文本,向量空间模型对文本的表示效果较好,可以将文本表示成空间向量进行运算,且具有较强的可计算性和可操作性。
S103、采用卡方统计方法对文本向量进行特征选择,提取出特征向量;
S104、对特征向量进行权重计算,得到各个特征向量的权重;
S105、结合各个特征向量的权重,基于支持向量机对文本进行分类。
具体地,对特征向量进行权重计算即根据特征项对分类的贡献程度赋予一定权值的过程,本算法中主要使用支持向量机来进行分类,是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。
进一步作为本方法的优选实施例,所述对文本进行预处理这一步骤,其具体包括:
获取文本,过滤文本的非法字符并对文本进行分词处理;
去除无关词并统计词频,得到预处理后的文本。
具体地,对过滤非法字符的文本数据进行分词,将一系列的长句分割成词语,可对这些词语进行情感标识。
进一步作为本方法的优选实施例,采用卡方统计方法对文本向量进行特征选择具体采用下述公式:
Figure BDA0002349760790000041
所述ti是特征项,所述Cj是类别,所述N是文本总数,所述A是包含ti且属于Cj的数量,所述B是包含ti但不属于Cj的数量,所述C是属于Cj但不包含ti的数量,所述D是不属于Cj且不包含ti的数量。
具体地,本算法采用卡方统计方法来进行特征选择。卡方统计方法用来衡量特征ti和文档类别Cj之间的统计相关强度,统计值越高,则其含有的信息量越多,与该类的相关性越大。
进一步作为本方法优选实施例,所述对特征向量进行权重计算,得到各个特征向量的权重具体采用下述公式:
Figure BDA0002349760790000042
所述wij表示权重,所述tfij表示ti在文本出现的次数,所述ni表示包含ti的文本数。
具体地,特征选择过程中选择了最能代表文本内容的特征向量,但是这些特征对文本分类的影响不尽相同,有必要对经过选择的特征进行加权,对表征能力强的特征赋予较大权重,对具有较弱类别区分能力的特征赋予较小的权重,这样可以有效抑制噪声。
进一步作为本方法优选实施例,所述对特征向量进行权重计算,得到各个特征向量的权重还包括对权重进行归一化处理,具体采用下述公式:
Figure BDA0002349760790000043
所述M表示向量数。
具体地,为了消除文本长度对特征权重的影响,要对特征的权重进行归一化处理。
进一步作为本方法优选实施例,所述采用卡方统计方法对文本向量进行特征选择,提取出特征向量这一步骤,其具体包括:
对文本向量的特征项进行评分并按照评分大小对特征项进行排序;
按照预设数量获得文本特征项,采用卡方统计方法提取该文本的特征向量。
具体地,特征的数量可以达到几万维,不仅使得运算时间变长,而且会在很大程度上降低分类的准确度。特征选择就是从原始的高维特征集合中选择一小部分特征作为分类器的分类特征,特征选择过程需要通过构造好的评估函数对每个特征进行评分,然后按照评分的大小对特征向量进行降序排序,最后选择一定数量的特征作为分类特征集合
进一步作为本方法优选实施例,所述无关词包括停用词、代词、量词、助词、连词和拟声词。
具体地,还可根据需要设置无关词的类型,增加介词、纯数字等选项。
本发明的具体实施例如下:
获取用户的评论文本,将评论文本进行过滤非法字符和分词处理,并去除无关词,得到主要的文本数据信息,并统计文本中的出现的词语的次数,对这些词语进行情感标识,结合预处理结果、词频信息以及情感标签,使用卡方统计方法对文本进行特征选择并对这些特征进行评分,按照评分的大小对特征向量进行降序排序,按照预设数量选择特征,对选择出来的特征进行权值计算并归一化权值,最后以向量空间模型的形式表示文本,结合归一化后的特征权值向量,利用支持向量机分类器对大批量的文本进行分类。
如图2所示,一种文本情感分类***,包括:
预处理模块,用于对文本进行预处理;
统计模块,用于对预处理后的文本进行统计量计算,得到文本向量;
特征模块,用于采用卡方统计方法对文本向量进行特征选择,提取出特征向量;
权重模块,用于对特征向量进行权重计算,得到各个特征向量的权重;
分类模块,用于结合各个特征向量的权重,基于支持向量机对文本进行分类。
进一步作为本***的优选实施例,所述预处理模块还包括:
分词子模块,用于获取文本,过滤文本的非法字符并对文本进行分词处理;
去除子模块,用于去除无关词并统计词频,得到预处理后的文本;
进一步作为本***的优选实施例,所述特征模块还包括:
排序子模块,用于对文本向量的特征项进行评分并按照评分大小对特征项进行排序;
提取子模块,用于按照预设数量获得文本特征项,采用卡方统计方法提取该文本的特征向量。
上述方法实施例中的内容均适用于本***实施例中,本***实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种认证文本情感分类装置:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种文本情感分类方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如上所述一种文本情感分类方法。
上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种文本情感分类方法,其特征在于,包括:
对文本进行预处理;
对预处理后的文本进行统计量计算,得到文本向量;
采用卡方统计方法对文本向量进行特征选择,提取出特征向量;
对特征向量进行权重计算,得到各个特征向量的权重;
结合各个特征向量的权重,基于支持向量机对文本进行分类。
2.根据权利要求1所述的一种文本情感分类方法,其特征在于,所述对文本进行预处理这一步骤,其具体包括:
获取文本,过滤文本的非法字符并对文本进行分词处理;
去除无关词并统计词频,得到预处理后的文本。
3.根据权利要求1所述的一种文本情感分类方法,其特征在于,所述采用卡方统计方法对文本向量进行特征选择具体采用下述公式:
Figure FDA0002349760780000011
所述ti是特征项,所述Cj是类别,所述N是文本总数,所述A是包含ti且属于Cj的数量,所述B是包含ti但不属于Cj的数量,所述C是属于Cj但不包含ti的数量,所述D是不属于Cj且不包含ti的数量。
4.根据权利要求3所述的一种文本情感分类方法,其特征在于,所述对特征向量进行权重计算,得到各个特征向量的权重具体采用下述公式:
Figure FDA0002349760780000012
所述wij表示权重,所述tfij表示ti在文本出现的次数,所述ni表示包含ti的文本数。
5.根据权利要求4所述的一种文本情感分类方法,其特征在于,所述对特征向量进行权重计算,得到各个特征向量的权重还包括对权重进行归一化处理,具体采用下述公式:
Figure FDA0002349760780000013
所述M表示向量数。
6.根据权利要求1所述的一种文本情感分类方法,其特征在于,所述采用卡方统计方法对文本向量进行特征选择,提取出特征向量这一步骤,其具体包括:
对文本向量的特征项进行评分并按照评分大小对特征项进行排序;
按照预设数量获得文本特征项,采用卡方统计方法提取该文本的特征向量。
7.根据权利要求1所述的一种文本情感分类方法,其特征在于:所述无关词包括停用词、代词、量词、助词、连词和拟声词。
8.一种文本情感分类***,其特征在于,包括:
预处理模块,用于对文本进行预处理;
统计模块,用于对预处理后的文本进行统计量计算,得到文本向量;
特征模块,用于采用卡方统计方法对文本向量进行特征选择,提取出特征向量;
权重模块,用于对特征向量进行权重计算,得到各个特征向量的权重;
分类模块,用于结合各个特征向量的权重,基于支持向量机对文本进行分类。
9.一种文本情感分类装置,其特征在于,还包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一项所述一种文本情感分类方法。
10.一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7任一项所述一种文本情感分类方法。
CN201911410177.8A 2019-12-31 2019-12-31 一种文本情感分类方法、***、装置及存储介质 Pending CN111159410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911410177.8A CN111159410A (zh) 2019-12-31 2019-12-31 一种文本情感分类方法、***、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911410177.8A CN111159410A (zh) 2019-12-31 2019-12-31 一种文本情感分类方法、***、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111159410A true CN111159410A (zh) 2020-05-15

Family

ID=70559884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911410177.8A Pending CN111159410A (zh) 2019-12-31 2019-12-31 一种文本情感分类方法、***、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111159410A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408652A (zh) * 2023-12-15 2024-01-16 江西驱动交通科技有限公司 一种档案数据分析管理方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995876A (zh) * 2014-05-26 2014-08-20 上海大学 一种基于卡方统计和smo算法的文本分类方法
CN107590134A (zh) * 2017-10-26 2018-01-16 福建亿榕信息技术有限公司 文本情感分类方法、存储介质及计算机
CN109543037A (zh) * 2018-11-21 2019-03-29 南京安讯科技有限责任公司 一种基于改进的tf-idf的文章分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995876A (zh) * 2014-05-26 2014-08-20 上海大学 一种基于卡方统计和smo算法的文本分类方法
CN107590134A (zh) * 2017-10-26 2018-01-16 福建亿榕信息技术有限公司 文本情感分类方法、存储介质及计算机
CN109543037A (zh) * 2018-11-21 2019-03-29 南京安讯科技有限责任公司 一种基于改进的tf-idf的文章分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408652A (zh) * 2023-12-15 2024-01-16 江西驱动交通科技有限公司 一种档案数据分析管理方法及***

Similar Documents

Publication Publication Date Title
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
US20200311113A1 (en) Method and device for extracting core word of commodity short text
US7689531B1 (en) Automatic charset detection using support vector machines with charset grouping
CN108509629B (zh) 一种基于情感词典和支持向量机的文本情感分析方法
CN109101478B (zh) 一种面向电商评论文本的Aspect级情感分析方法
US7711673B1 (en) Automatic charset detection using SIM algorithm with charset grouping
CN110705286A (zh) 一种基于评论信息的数据处理方法及装置
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
Probierz et al. Rapid detection of fake news based on machine learning methods
US8560466B2 (en) Method and arrangement for automatic charset detection
Rasheed et al. Urdu text classification: a comparative study using machine learning techniques
CN111144106A (zh) 一种不平衡数据集下的两阶段文本特征选择方法
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及***
CN111310467B (zh) 一种在长文本中结合语义推断的主题提取方法及***
Farhoodi et al. N-gram based text classification for Persian newspaper corpus
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN114896398A (zh) 一种基于特征选择的文本分类***及方法
CN114722198A (zh) 产品分类编码确定方法、***及相关装置
Karo et al. Karonese sentiment analysis: a new dataset and preliminary result
CN113626604A (zh) 基于最大间隔准则的网页文本分类***
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
CN111159410A (zh) 一种文本情感分类方法、***、装置及存储介质
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
Singla et al. Machine learning techniques to detect cyber-bullying
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200515

RJ01 Rejection of invention patent application after publication