CN107885849A - 一种基于文本分类的情绪指数分析*** - Google Patents

一种基于文本分类的情绪指数分析*** Download PDF

Info

Publication number
CN107885849A
CN107885849A CN201711113724.7A CN201711113724A CN107885849A CN 107885849 A CN107885849 A CN 107885849A CN 201711113724 A CN201711113724 A CN 201711113724A CN 107885849 A CN107885849 A CN 107885849A
Authority
CN
China
Prior art keywords
mrow
text
mtd
model
mood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711113724.7A
Other languages
English (en)
Inventor
周楠
张劲松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Blue Scene Information Technology Co Ltd
Original Assignee
Chengdu Blue Scene Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Blue Scene Information Technology Co Ltd filed Critical Chengdu Blue Scene Information Technology Co Ltd
Priority to CN201711113724.7A priority Critical patent/CN107885849A/zh
Publication of CN107885849A publication Critical patent/CN107885849A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本分类的情绪指数分析***;其主要解决了自动识别文本情绪倾向的问题,从网络文本内容中,分析识别出文本所包含的情绪倾向,并将文本倾向分为积极,消极和中性三种情况。使用训练的集成模型可以自动化处理文本,能在短时间内处理海量文本,可以实时掌握网络用户整体情绪倾向的变化情况。本发明通过实施具有如下的有益效果:该方法克服了现有专利没有充分利用互联网海量文本信息的缺点;将文本内容向量化,使得针对文本内容可以方便的使用各种分类算法;使用聚合模型可以使分类的结果比单一模型更准确。

Description

一种基于文本分类的情绪指数分析***
技术领域
本发明涉及一种分析***,具体讲是一种基于文本分类的情绪指数分析***。
背景技术
现有专利计算的情绪指数主要是通过互联网或股市数据间接计算,使用股市数据,得到的结果比较片面笼统,只能得到一个整体的数值结果,无法清晰表述各种不同平台的不同情绪的比例。而使用文本数据,所用方法也比较粗糙,对文本做简单分词然后统计表示各种情绪的词语数,这样会损失较多信息。
发明内容
因此,本发明在此提供一种基于文本分类的情绪指数分析***;其主要解决了自动识别文本情绪倾向的问题,从网络文本内容中,分析识别出文本所包含的情绪倾向,并将文本倾向分为积极,消极和中性三种情况。使用训练的集成模型可以自动化处理文本,能在短时间内处理海量文本,可以实时掌握网络用户整体情绪倾向的变化情况。
本发明是这样实现的,构造一种基于文本分类的情绪指数分析***,其特征在于:
构建分词模块:首先将文本分词,然后将文本内容转化为单词向量的形式。我们遍历分词的结果列表,如果该文本内包含某个词,那么对应位置的值为1,否则为0;
构建分类模块:首先人工标注部分样本,将其文本内包含的情绪分为积极(1)、消极(-1)、中性(0)三种;将标注好的标注集中,选取k%作为训练集,剩余的1-k%作为预测集;
使用训练集,训练出分类模型,预测集用来检验模型效果,并适当调整模型参数。我们分别训练出逻辑回归、支持向量机、贝叶斯分类等分类模型,然后使用了集成学习,对之前训练出的模型聚合,这里使用投票聚合的方式,对各个不同模型预测的结果进行投票,占多数的模型分类结果就是聚合模型的结果。然后使用聚合模型,对于已经向量化的待分类文本进行分类,得到每个文本的情绪分类结果;
构建情绪指数模块:得到每条文本的情绪倾向,然后可以计算积极倾向的文本数占所有文本的比例,将其定义为情绪指数;计算公式如下:
其中Postijn表示第i个社团在第j天所发的编号为n的帖子的情绪倾向,函数ε识别出发布文本中持积极情绪的那部分结果,Indexik表示第i个社团在第k天的情绪指数。
本发明具有如下优点:本发明在此提供一种基于文本分类的情绪指数分析***;其主要解决了自动识别文本情绪倾向的问题,从网络文本内容中,分析识别出文本所包含的情绪倾向,并将文本倾向分为积极,消极和中性三种情况。使用训练的集成模型可以自动化处理文本,能在短时间内处理海量文本,可以实时掌握网络用户整体情绪倾向的变化情况。本发明通过实施具有如下的有益效果:该方法克服了现有专利没有充分利用互联网海量文本信息的缺点;将文本内容向量化,使得针对文本内容可以方便的使用各种分类算法;使用聚合模型可以使分类的结果比单一模型更准确。
附图说明
图1是本发明文本分类算法流程图。
具体实施方式
下面将结合附图1对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明通过改进在此提供一种基于文本分类的情绪指数分析***,按照如下方式予以实施;其流程如图1;
首先,构建分词模块:首先将文本分词,然后将文本内容转化为单词向量的形式。我们遍历分词的结果列表,如果该文本内包含某个词,那么对应位置的值为1,否则为0。
例如:原句:$新华医疗(SH600587)$前期低点有主力资金介入,经过一个多月的回调洗盘,现介入比较安全,短线有反弹上攻意愿!此所谓进可攻退可守!$上证指数(SH000001)$$中国平安(SH601318)$
分词后结果:$/新华/医疗/(/SH600587/)/$//前期/低点/有/主力/资金/介入/,/经过/一个多月/的/回调/洗盘/,/现/介入/比较/安全/,/短线/有/反弹/上攻/意愿/!/此/所谓/进可攻/退可守/!/$/上证指数/(/SH000001/)/$//$/中国/平安/(/SH601318/)/$
同时,构建分类模块:首先人工标注部分样本,将其文本内包含的情绪分为积极(1)、消极(-1)、中性(0)三种。将标注好的标注集中,选取k%作为训练集,剩余的1-k%作为预测集。使用训练集,训练出分类模型,预测集用来检验模型效果,并适当调整模型参数。我们分别训练出逻辑回归、支持向量机、贝叶斯分类等分类模型,然后使用了集成学习,对之前训练出的模型聚合,这里我们使用投票聚合的方式,对各个不同模型预测的结果进行投票,占多数的模型分类结果就是聚合模型的结果。然后使用聚合模型,对于已经向量化的待分类文本进行分类,得到每个文本的情绪分类结果。
同时,构建情绪指数:得到每条文本的情绪倾向,然后可以计算积极倾向的文本数占所有文本的比例,将其定义为情绪指数。计算公式如下:
其中Postijn表示第i个社团在第j天所发的编号为n的帖子的情绪倾向,函数ε识别出发布文本中中持积极情绪的那部分结果,Indexik表示第i个社团在第k天的情绪指数。
本发明具有如下的有益效果:
该方法克服了现有专利没有充分利用互联网海量文本信息的缺点;将文本内容向量化,使得针对文本内容可以方便的使用各种分类算法;使用聚合模型可以使分类的结果比单一模型更准确。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (1)

1.一种基于文本分类的情绪指数分析***,其特征在于:
构建分词模块:首先将文本分词,然后将文本内容转化为单词向量的形式;遍历分词的结果列表,如果该文本内包含某个词,那么对应位置的值为1,否则为0;
构建分类模块:首先人工标注部分样本,将其文本内包含的情绪分为积极(1)、消极(-1)、中性(0)三种;将标注好的标注集中,选取k%作为训练集,剩余的1-k%作为预测集;
使用训练集,训练出分类模型,预测集用来检验模型效果,并适当调整模型参数;分别训练出逻辑回归、支持向量机、贝叶斯分类等分类模型,然后使用了集成学习,对之前训练出的模型聚合,这里使用投票聚合的方式,对各个不同模型预测的结果进行投票,占多数的模型分类结果就是聚合模型的结果;然后使用聚合模型,对于已经向量化的待分类文本进行分类,得到每个文本的情绪分类结果;
构建情绪指数模块:得到每条文本的情绪倾向,然后可以计算积极倾向的文本数占所有文本的比例,将其定义为情绪指数;计算公式如下:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>Index</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>k</mi> </mrow> </munder> <mi>&amp;epsiv;</mi> <mrow> <mo>(</mo> <msub> <mi>Post</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>n</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>Post</mi> <mrow> <mi>i</mi> <mi>k</mi> <mi>n</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> <mtd> <mrow> <mi>&amp;epsiv;</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>t</mi> <mo>&gt;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>t</mi> <mo>&amp;le;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中Postijn表示第i个社团在第j天所发的编号为n的帖子的情绪倾向,函数ε识别出发布文本中持积极情绪的那部分结果,Indexik表示第i个社团在第k天的情绪指数。
CN201711113724.7A 2017-11-13 2017-11-13 一种基于文本分类的情绪指数分析*** Pending CN107885849A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711113724.7A CN107885849A (zh) 2017-11-13 2017-11-13 一种基于文本分类的情绪指数分析***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711113724.7A CN107885849A (zh) 2017-11-13 2017-11-13 一种基于文本分类的情绪指数分析***

Publications (1)

Publication Number Publication Date
CN107885849A true CN107885849A (zh) 2018-04-06

Family

ID=61780208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711113724.7A Pending CN107885849A (zh) 2017-11-13 2017-11-13 一种基于文本分类的情绪指数分析***

Country Status (1)

Country Link
CN (1) CN107885849A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034893A (zh) * 2018-07-20 2018-12-18 成都中科大旗软件有限公司 一种旅游网络评论情感分析及服务质量评价方法
CN109636451A (zh) * 2018-11-30 2019-04-16 深圳信息职业技术学院 一种养老模式自动推荐方法、装置及终端设备
CN109977231A (zh) * 2019-04-10 2019-07-05 上海海事大学 一种基于情感衰变因子的抑郁情绪分析方法
CN110288166A (zh) * 2019-07-02 2019-09-27 国家电网有限公司 一种准确度高的预测用户购电行为的方法
CN110609936A (zh) * 2018-06-11 2019-12-24 广州华资软件技术有限公司 一种模糊地址数据智能分类的方法
CN111414754A (zh) * 2020-03-19 2020-07-14 中国建设银行股份有限公司 一种事件的情感分析方法、装置、服务器及存储介质
CN111723198A (zh) * 2019-03-18 2020-09-29 北京京东尚科信息技术有限公司 一种文本情绪识别方法、装置及存储介质
CN112069316A (zh) * 2020-09-03 2020-12-11 常州微亿智造科技有限公司 情绪识别方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346327A (zh) * 2014-10-23 2015-02-11 苏州大学 一种文本情绪复杂度的确定方法及装置
CN105956770A (zh) * 2016-05-03 2016-09-21 中国科学院大学 一种股市风险预测平台及其文本挖掘方法
CN106022878A (zh) * 2016-05-19 2016-10-12 华南理工大学 基于社区评论情感倾向性分析的手游排行榜构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346327A (zh) * 2014-10-23 2015-02-11 苏州大学 一种文本情绪复杂度的确定方法及装置
CN105956770A (zh) * 2016-05-03 2016-09-21 中国科学院大学 一种股市风险预测平台及其文本挖掘方法
CN106022878A (zh) * 2016-05-19 2016-10-12 华南理工大学 基于社区评论情感倾向性分析的手游排行榜构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SANJIV R. DAS 等: "Yahoo! for Amazon:Sentiment Extraction from Small Talk on the Web", 《MANAGEMENT SCIENCE》 *
薛斐: "《投资者情绪与投资者行为研究》", 31 January 2008, 上海财经大学出版社 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609936A (zh) * 2018-06-11 2019-12-24 广州华资软件技术有限公司 一种模糊地址数据智能分类的方法
CN109034893A (zh) * 2018-07-20 2018-12-18 成都中科大旗软件有限公司 一种旅游网络评论情感分析及服务质量评价方法
CN109636451A (zh) * 2018-11-30 2019-04-16 深圳信息职业技术学院 一种养老模式自动推荐方法、装置及终端设备
CN111723198A (zh) * 2019-03-18 2020-09-29 北京京东尚科信息技术有限公司 一种文本情绪识别方法、装置及存储介质
CN111723198B (zh) * 2019-03-18 2023-09-01 北京汇钧科技有限公司 一种文本情绪识别方法、装置及存储介质
CN109977231A (zh) * 2019-04-10 2019-07-05 上海海事大学 一种基于情感衰变因子的抑郁情绪分析方法
CN109977231B (zh) * 2019-04-10 2021-04-02 上海海事大学 一种基于情感衰变因子的抑郁情绪分析方法
CN110288166A (zh) * 2019-07-02 2019-09-27 国家电网有限公司 一种准确度高的预测用户购电行为的方法
CN111414754A (zh) * 2020-03-19 2020-07-14 中国建设银行股份有限公司 一种事件的情感分析方法、装置、服务器及存储介质
CN112069316A (zh) * 2020-09-03 2020-12-11 常州微亿智造科技有限公司 情绪识别方法和装置
CN112069316B (zh) * 2020-09-03 2021-08-24 常州微亿智造科技有限公司 情绪识别方法和装置

Similar Documents

Publication Publication Date Title
CN107885849A (zh) 一种基于文本分类的情绪指数分析***
CN106919673B (zh) 基于深度学习的文本情绪分析***
CN107038480A (zh) 一种基于卷积神经网络的文本情感分类方法
CN108804612B (zh) 一种基于对偶神经网络模型的文本情感分类方法
CN106528528A (zh) 文本情感分析的方法及装置
CN103324745B (zh) 基于贝叶斯模型的文本垃圾识别方法和***
CN102156885B (zh) 基于级联式码本生成的图像分类方法
CN106529804A (zh) 基于文本挖掘技术的客户投诉预警监测分析方法
CN103729474B (zh) 用于识别论坛用户马甲账号的方法和***
CN106530127A (zh) 基于文本挖掘技术的客户投诉预警监测分析***
CN108108352A (zh) 一种基于机器学习文本挖掘技术的企业投诉风险预警方法
CN103034626A (zh) 情感分析***及方法
CN107291723A (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN107169086B (zh) 一种文本分类方法
CN107403017A (zh) 一种智能分析实时新闻对金融市场影响的方法
CN103150333A (zh) 微博媒体中的意见领袖识别方法
CN107145514B (zh) 基于决策树和svm混合模型的中文句型分类方法
Pong-Inwong et al. Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration
CN108052505A (zh) 文本情感分析方法及装置、存储介质、终端
CN107392241A (zh) 一种基于加权列抽样XGBoost的图像目标分类方法
CN107644057A (zh) 一种基于迁移学***衡文本分类方法
CN107273295A (zh) 一种基于文本混乱度的软件问题报告分类方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN106547866A (zh) 一种基于情感词随机共现网络的细粒度情感分类方法
CN109471932A (zh) 基于学习模型的谣言检测方法、***及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180406