CN112347230B - 一种基于Word2Vec的企业舆情数据分析方法 - Google Patents
一种基于Word2Vec的企业舆情数据分析方法 Download PDFInfo
- Publication number
- CN112347230B CN112347230B CN202011282421.XA CN202011282421A CN112347230B CN 112347230 B CN112347230 B CN 112347230B CN 202011282421 A CN202011282421 A CN 202011282421A CN 112347230 B CN112347230 B CN 112347230B
- Authority
- CN
- China
- Prior art keywords
- text
- emotion
- word
- dictionary
- public opinion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 238000007405 data analysis Methods 0.000 title claims abstract description 10
- 230000008451 emotion Effects 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 239000000919 ceramic Substances 0.000 claims 1
- 230000002996 emotional effect Effects 0.000 abstract description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于Word2Vec的企业舆情数据分析方法,包括如下步骤:收集整理步骤、确定情感词典步骤和得出结论步骤,本发明方法通过Word2Vec扩充情感词典,并结合词频、文本长度和阅读量有效的分析文本情绪倾向,避免了未考虑文本长度和文本阅读量对分析情感倾向的影响。此外,本发明创造性地提出了一种基于Word2Vec的企业舆情数据分析方法,用于分析企业的舆论的情绪倾向,从而帮助企业或管理人员有效的分析舆情,进而避免品牌和客户信任危机。
Description
技术领域
本发明涉及自然语言处理的技术领域,具体是一种基于Word2Vec的企业舆情数据分析方法。
背景技术
随着互联网应用的普及与发展,以及微博等新兴媒体的崛起,舆情的呈现多渠道、传播快和范围广等特点,为企业管理带来了新的挑战。负面舆情不仅会使得企业品牌受损和客户信任下降,更会给企业带来经济损失。因此,如何在海量的信息中分析企业舆情,及时扭转舆论风向,就变得尤为重要。
目前,随着人工智能的兴起和微博等平台的数据积累,催生出使自然语言模型进行舆论情感预测,从而检测企业互联网舆情。因此如何有效的将企业的新闻和评论文本进行分析,从中分析舆论情感值,是十分具有实际意义。
发明内容
本发明的目的在于提供一种基于Word2Vec的企业舆情数据分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于Word2Vec的企业舆情数据分析方法,包括如下步骤:收集整理步骤、确定情感词典步骤和得出结论步骤。
步骤1,收集整理步骤:定义文本训练集合停用词,并对文本数据集中每个中文文本分词和过滤停用词进行预处理,得到预处理后的文本训练集;
其中,步骤1.1:定义文本数据Txt={txt1,txt2,……,txtnum},其中,num为文本总数;
步骤1.2:定义文本停用词集S={st1,st2,……,stsn},其中,sn为停用词数量;
步骤1.3:对Txt中文本分词并过滤停用词S,文本预处理后得ft={ft1,ft2,……,ftnum},其中ftp={fw1,fw2,……,fwm}为第p篇文本分词后的集合,p∈[1,num]。
步骤2,确定情感词典步骤:定义情感词典,并通过Word2Vec对预处理的文本集训练,结合余弦相似度算法对情感词典未收录的词补充,得到扩充情感词典;
其中,步骤2.1:定义初始情感词典,包含情感词集ew={ew1,ew2,……,ews}和
步骤2.2:将文本集ft中每个文本去除重复词,得到词集t={t1,t2,……,tb};
步骤2.3:通过Word2Vec训练文本集ft得到t中各词的词向量,并以余弦相似度计算两两词之间的相似度,从而得到任意词相似度大于β的相似集和其对应的相似度/>其中/>β默认为0.7;
步骤2.4:设c为循环变量,用于遍历词集t,并赋值为1;
步骤2.5:当循环变量c<=b时,则执行步骤2.6,否则执行步骤2.10;
步骤2.6:当且/>时,则执行步骤2.7,否则执行步骤2.9;
步骤2.7:计算词tc的情感值,其公式为:
步骤2.8:将词tc加入情感ew=ew∪{tc},词典中;
步骤2.9:循环变量c=c+1,返回执行步骤2.5;
步骤2.10:得到补充情感词典ew和对应的情感值ev;
步骤3,得出结论步骤:通过扩充的情感词典和改进的情感词典计算方法,计算预处理后文本集的情感值,得到企业舆论的情感值;
步骤3.1:设r为循环变量,用于遍历文本集ft,并赋值为1;
步骤3.2:当循环变量r<=n时,则执行步骤3.3,否则执行步骤3.5;
步骤3.3:计算文本ftr的情感值scorer,其公式为:
式中,fj是词j在文本ftr中的词频,rcr是文本ftr的阅读量,min_rc和max_rc是文本集ft中最小和最大的阅读量,dlr是文本ftr的长度,avgdl是文本集ft中文本的平均长度;
步骤3.4:循环变量r=r+1,返回执行步骤3.2;
步骤3.5:通过公式计算文本集ft中的情感值,得到企业舆论的情感值。
与现有技术相比,本发明的有益效果是:本发明方法通过Word2Vec扩充情感词典,并结合词频、文本长度和阅读量有效的分析文本情绪倾向,避免了未考虑文本长度和文本阅读量对分析情感倾向的影响。此外,本发明创造性地提出了一种基于Word2Vec的企业舆情数据分析方法,用于分析企业的舆论的情绪倾向,从而帮助企业或管理人员有效的分析舆情,进而避免品牌和客户信任危机。
附图说明
图1为本发明的总体流程图。
图2为图1中文本预处理后得到文本训练集的流程图。
图3为图1中得到扩充情感词典的流程图。
图4为图1中对训练文本分析情绪值的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
请参阅图1-2,一种基于Word2Vec的企业舆情数据分析方法,包括如下步骤:收集整理步骤、确定情感词典步骤和得出结论步骤。
,步骤1,收集整理步骤:定义文本训练集合停用词,并对文本数据集中每个中文文本分词和过滤停用词进行预处理,得到预处理后的文本训练集;
其中,步骤1.1:定义文本数据Txt={txt1,txt2,……,txtnum},其中,num为文本总数;
步骤1.2:定义文本停用词集S={st1,st2,……,stsn},其中,sn为停用词数量;
步骤1.3:对Txt中文本分词并过滤停用词S,文本预处理后得ft={ft1,ft2,……,ftnum},其中ftp={fw1,fw2,……,fwm}为第p篇文本分词后的集合,p∈[1,num]。
如图2,步骤2,确定情感词典步骤:定义情感词典,并通过Word2Vec对预处理的文本集训练,结合余弦相似度算法对情感词典未收录的词补充,得到扩充情感词典;
其中,步骤2.1:定义初始情感词典,包含情感词集ew={ew1,ew2,……,ews}和
步骤2.2:将文本集ft中每个文本去除重复词,得到词集t={t1,t2,……,tb};
步骤2.3:通过Word2Vec训练文本集ft得到t中各词的词向量,并以余弦相似度计算两两词之间的相似度,从而得到任意词相似度大于β的相似集和其对应的相似度/>其中/>β默认为0.7;
步骤2.4:设c为循环变量,用于遍历词集t,并赋值为1;
步骤2.5:当循环变量c<=b时,则执行步骤2.6,否则执行步骤2.10;
步骤2.6:当且/>时,则执行步骤2.7,否则执行步骤2.9;
步骤2.7:计算词tc的情感值,其公式为:
步骤2.8:将词tc加入情感ew=ew∪{tc},词典中;
步骤2.9:循环变量c=c+1,返回执行步骤2.5;
步骤2.10:得到补充情感词典ew和对应的情感值ev;
如图3,步骤3,得出结论步骤:通过扩充的情感词典和改进的情感词典计算方法,计算预处理后文本集的情感值,得到企业舆论的情感值;
步骤3.1:设r为循环变量,用于遍历文本集ft,并赋值为1;
步骤3.2:当循环变量r<=n时,则执行步骤3.3,否则执行步骤3.5;
步骤3.3:计算文本ftr的情感值scorer,其公式为:
式中,fj是词j在文本ftr中的词频,rcr是文本ftr的阅读量,min_rc和max_rc是文本集ft中最小和最大的阅读量,dlr是文本ftr的长度,avgdl是文本集ft中文本的平均长度;
步骤3.4:循环变量r=r+1,返回执行步骤3.2;
步骤3.5:通过公式计算文本集ft中的情感值,得到企业舆论的情感值。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (1)
1.一种基于Word2Vec的企业舆情数据分析方法,包括如下步骤:收集整理步骤、确定情感词典步骤和得出结论步骤;具体为,
步骤1,收集整理步骤:定义文本训练集合停用词,并对文本数据集中每个中文文本分词和过滤停用词进行预处理,得到预处理后的文本训练集;
步骤2,确定情感词典步骤:定义情感词典,并通过Word2Vec对预处理的文本集训练,结合余弦相似度算法对情感词典未收录的词补充,得到扩充情感词典;
步骤3,得出结论步骤:通过扩充的情感词典和改进的情感词典计算方法,计算预处理后文本集的情感值,得到企业舆论的情感值;
步骤1中,包括步骤1.1:定义文本数据Txt={txt1,txt2,……,txtnum},其中,num为文本总数;
步骤1.2:定义文本停用词集S={st1,st2,……,stsn},其中,sn为停用词数量;
步骤1.3:对Txt中文本分词并过滤停用词S,文本预处理后得ft=
{ft1,ft2,……,ftnum},其中ftp={fw1,fw2,……,fwm}为第p篇文本分词后的集合,p∈[1,num];
步骤2中,包括步骤2.1:定义初始情感词典,包含情感词集ew=
{ew1,ew2,……,ews}和对应的情感值集
步骤2.2:将文本集ft中每个文本去除重复词,得到词集t=
{t1,t2,……,tb};
步骤2.3:通过Word2Vec训练文本集ft得到t中各词的词向量,并以余弦相似度计算两两词之间的相似度,从而得到任意词相似度大于β的相似集和其对应的相似度/>其中,wb∈t,wb对应的相似度为/>其中/>β默认为0.7;
步骤2.4:设c为循环变量,用于遍历词集t,并赋值为1;
步骤2.5:当循环变量c<=b时,则执行步骤2.6,否则执行步骤2.10;
步骤2.6:当且/>时,则执行步骤2.7,否则执行步骤2.9;
步骤2.7:计算词tc的情感值,其公式为:
步骤2.8:将词tc加入情感ew=ew∪{tc},词典中;
步骤2.9:循环变量c=c+1,返回执行步骤2.5;
步骤2.10:得到补充情感词集ew和对应的情感值集ev;
步骤3中,包括步骤3.1:设r为循环变量,用于遍历文本集ft,并赋值为1;
步骤3.2:当循环变量r<=num时,则执行步骤3.3,否则执行步骤3.5;
步骤3.3:计算文本的情感值,其公式为:
式中,fj是词j在文本ftr中的词频,rcr是文本ftr的阅读量,min_rc和max_rc是文本集ft中最小和最大的阅读量,dlr是文本ftr的长度,avgdl是文本集ft中文本的平均长度;
步骤3.4:循环变量r=r+1,返回执行步骤3.2;
步骤3.5:通过公式计算文本集ft中的情感值,得到企业舆论的情感值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011282421.XA CN112347230B (zh) | 2020-11-16 | 2020-11-16 | 一种基于Word2Vec的企业舆情数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011282421.XA CN112347230B (zh) | 2020-11-16 | 2020-11-16 | 一种基于Word2Vec的企业舆情数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112347230A CN112347230A (zh) | 2021-02-09 |
CN112347230B true CN112347230B (zh) | 2024-04-19 |
Family
ID=74362945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011282421.XA Active CN112347230B (zh) | 2020-11-16 | 2020-11-16 | 一种基于Word2Vec的企业舆情数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347230B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348644B (zh) * | 2020-11-16 | 2024-04-02 | 上海品见智能科技有限公司 | 一种通过建立单调正相关过滤网的异常物流订单检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239439A (zh) * | 2017-04-19 | 2017-10-10 | 同济大学 | 基于word2vec的舆情倾向性分析方法 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、***及存储介质 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN111914096A (zh) * | 2020-07-06 | 2020-11-10 | 同济大学 | 基于舆情知识图谱的公共交通乘客满意度评价方法及*** |
-
2020
- 2020-11-16 CN CN202011282421.XA patent/CN112347230B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239439A (zh) * | 2017-04-19 | 2017-10-10 | 同济大学 | 基于word2vec的舆情倾向性分析方法 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN111143549A (zh) * | 2019-06-20 | 2020-05-12 | 东华大学 | 一种基于主题的舆情情感演化的方法 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、***及存储介质 |
CN111914096A (zh) * | 2020-07-06 | 2020-11-10 | 同济大学 | 基于舆情知识图谱的公共交通乘客满意度评价方法及*** |
Non-Patent Citations (3)
Title |
---|
A Sensitivity and Performance Analysis of Word2Vec Applied to Emotion State Classification Using a Deep Neural Architecture;Rodrigo Pasti等;《Distributed Computing and Artificial Intelligence, 16th International Conference. DCAI 2019. Advances in Intelligent Systems and Computing》;20190622;199-206 * |
基于Word2Vec新词识别的评论情感分析***的研究与实现;***;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115(第01期);I138-5111 * |
股市舆情数据的挖掘与分析研究;张翰垠;《中国优秀硕士学位论文全文数据库信息科技辑》;20190915(第09期);I138-531 * |
Also Published As
Publication number | Publication date |
---|---|
CN112347230A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783639B (zh) | 一种基于特征提取的调解案件智能分派方法及*** | |
CN109033307B (zh) | 基于crp聚类的词语多原型向量表示及词义消歧方法 | |
CN109189901B (zh) | 一种智能客服***中自动发现新分类以及对应语料的方法 | |
CN110334346B (zh) | 一种pdf文件的信息抽取方法和装置 | |
US20140304267A1 (en) | Suffix tree similarity measure for document clustering | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
US20150286702A1 (en) | Adaptive variable selection for data clustering | |
CN113780007A (zh) | 语料筛选方法、意图识别模型优化方法、设备及存储介质 | |
CN112347230B (zh) | 一种基于Word2Vec的企业舆情数据分析方法 | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
CN114780746A (zh) | 基于知识图谱的文档检索方法及其相关设备 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成***及生成方法 | |
CN111859984B (zh) | 意图挖掘方法、装置、设备及存储介质 | |
CN111626050A (zh) | 基于表情词典与情感常识的微博情感分析方法 | |
CN111694961A (zh) | 一种用于敏感数据泄露检测的关键词语义分类方法与*** | |
CN108960772A (zh) | 基于深度学习的企业评审辅助方法及*** | |
Nodarakis et al. | Using hadoop for large scale analysis on twitter: A technical report | |
US20230004715A1 (en) | Method and apparatus for constructing object relationship network, and electronic device | |
CN110597982A (zh) | 一种基于词共现网络的短文本主题聚类算法 | |
CN114742058A (zh) | 一种命名实体抽取方法、装置、计算机设备及存储介质 | |
CN115757776A (zh) | 一种基于sq-lda主题模型的交通安全舆情分析方法 | |
CN114445043A (zh) | 基于开放生态化云erp异质图用户需求精准发现方法及*** | |
CN108491414A (zh) | 一种融合话题特征的新闻内容在线抽取方法及*** | |
CN111177301B (zh) | 一种关键信息识别提取方法及*** | |
CN114385794A (zh) | 企业知识图谱的生成方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |