CN112347230B

CN112347230B - 一种基于Word2Vec的企业舆情数据分析方法

Info

Publication number: CN112347230B
Application number: CN202011282421.XA
Authority: CN
Inventors: 瞿学新; 陈劲
Original assignee: Shanghai Pinjian Intelligent Technology Co ltd
Current assignee: Shanghai Pinjian Intelligent Technology Co ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2024-04-19
Anticipated expiration: 2040-11-16
Also published as: CN112347230A

Abstract

本发明公开了一种基于Word2Vec的企业舆情数据分析方法，包括如下步骤：收集整理步骤、确定情感词典步骤和得出结论步骤，本发明方法通过Word2Vec扩充情感词典，并结合词频、文本长度和阅读量有效的分析文本情绪倾向，避免了未考虑文本长度和文本阅读量对分析情感倾向的影响。此外，本发明创造性地提出了一种基于Word2Vec的企业舆情数据分析方法，用于分析企业的舆论的情绪倾向，从而帮助企业或管理人员有效的分析舆情，进而避免品牌和客户信任危机。

Description

一种基于Word2Vec的企业舆情数据分析方法

技术领域

本发明涉及自然语言处理的技术领域，具体是一种基于Word2Vec的企业舆情数据分析方法。

背景技术

随着互联网应用的普及与发展，以及微博等新兴媒体的崛起，舆情的呈现多渠道、传播快和范围广等特点，为企业管理带来了新的挑战。负面舆情不仅会使得企业品牌受损和客户信任下降，更会给企业带来经济损失。因此，如何在海量的信息中分析企业舆情，及时扭转舆论风向，就变得尤为重要。

目前，随着人工智能的兴起和微博等平台的数据积累，催生出使自然语言模型进行舆论情感预测，从而检测企业互联网舆情。因此如何有效的将企业的新闻和评论文本进行分析，从中分析舆论情感值，是十分具有实际意义。

发明内容

本发明的目的在于提供一种基于Word2Vec的企业舆情数据分析方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于Word2Vec的企业舆情数据分析方法，包括如下步骤：收集整理步骤、确定情感词典步骤和得出结论步骤。

步骤1，收集整理步骤：定义文本训练集合停用词，并对文本数据集中每个中文文本分词和过滤停用词进行预处理，得到预处理后的文本训练集；

其中，步骤1.1：定义文本数据Txt＝{txt₁,txt₂,……,txt_num}，其中，num为文本总数；

步骤1.2：定义文本停用词集S＝{st₁,st₂,……,st_sn}，其中,sn为停用词数量；

步骤1.3：对Txt中文本分词并过滤停用词S，文本预处理后得ft＝{ft₁,ft₂,……,ft_num}，其中ft_p＝{fw₁,fw₂,……,fw_m}为第p篇文本分词后的集合，p∈[1,num]。

步骤2，确定情感词典步骤：定义情感词典，并通过Word2Vec对预处理的文本集训练，结合余弦相似度算法对情感词典未收录的词补充，得到扩充情感词典；

其中，步骤2.1：定义初始情感词典，包含情感词集ew＝{ew₁,ew₂,……,ew_s}和

步骤2.2：将文本集ft中每个文本去除重复词，得到词集t＝{t₁,t₂,……,t_b}；

步骤2.3：通过Word2Vec训练文本集ft得到t中各词的词向量，并以余弦相似度计算两两词之间的相似度，从而得到任意词相似度大于β的相似集和其对应的相似度/>其中/>β默认为0.7；

步骤2.4：设c为循环变量，用于遍历词集t，并赋值为1；

步骤2.5：当循环变量c<＝b时，则执行步骤2.6，否则执行步骤2.10；

步骤2.6：当且/>时，则执行步骤2.7，否则执行步骤2.9；

步骤2.7：计算词tc的情感值，其公式为：

步骤2.8：将词tc加入情感ew＝ew∪{t_c}，词典中；

步骤2.9：循环变量c＝c+1，返回执行步骤2.5；

步骤2.10：得到补充情感词典ew和对应的情感值ev；

步骤3，得出结论步骤：通过扩充的情感词典和改进的情感词典计算方法，计算预处理后文本集的情感值，得到企业舆论的情感值；

步骤3.1：设r为循环变量，用于遍历文本集ft，并赋值为1；

步骤3.2：当循环变量r<＝n时，则执行步骤3.3，否则执行步骤3.5；

步骤3.3：计算文本ftr的情感值scorer，其公式为：

式中，fj是词j在文本ftr中的词频，rcr是文本ftr的阅读量,min_rc和max_rc是文本集ft中最小和最大的阅读量，dlr是文本ftr的长度，avgdl是文本集ft中文本的平均长度；

步骤3.4：循环变量r＝r+1，返回执行步骤3.2；

步骤3.5：通过公式计算文本集ft中的情感值，得到企业舆论的情感值。

与现有技术相比，本发明的有益效果是：本发明方法通过Word2Vec扩充情感词典，并结合词频、文本长度和阅读量有效的分析文本情绪倾向，避免了未考虑文本长度和文本阅读量对分析情感倾向的影响。此外，本发明创造性地提出了一种基于Word2Vec的企业舆情数据分析方法，用于分析企业的舆论的情绪倾向，从而帮助企业或管理人员有效的分析舆情，进而避免品牌和客户信任危机。

附图说明

图1为本发明的总体流程图。

图2为图1中文本预处理后得到文本训练集的流程图。

图3为图1中得到扩充情感词典的流程图。

图4为图1中对训练文本分析情绪值的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

请参阅图1-2，一种基于Word2Vec的企业舆情数据分析方法，包括如下步骤：收集整理步骤、确定情感词典步骤和得出结论步骤。

,步骤1，收集整理步骤：定义文本训练集合停用词，并对文本数据集中每个中文文本分词和过滤停用词进行预处理，得到预处理后的文本训练集；

如图2，步骤2，确定情感词典步骤：定义情感词典，并通过Word2Vec对预处理的文本集训练，结合余弦相似度算法对情感词典未收录的词补充，得到扩充情感词典；

步骤2.4：设c为循环变量，用于遍历词集t，并赋值为1；

步骤2.6：当且/>时，则执行步骤2.7，否则执行步骤2.9；

步骤2.7：计算词tc的情感值，其公式为：

步骤2.8：将词tc加入情感ew＝ew∪{t_c}，词典中；

步骤2.9：循环变量c＝c+1，返回执行步骤2.5；

步骤2.10：得到补充情感词典ew和对应的情感值ev；

如图3，步骤3，得出结论步骤：通过扩充的情感词典和改进的情感词典计算方法，计算预处理后文本集的情感值，得到企业舆论的情感值；

步骤3.1：设r为循环变量，用于遍历文本集ft，并赋值为1；

步骤3.3：计算文本ftr的情感值scorer，其公式为：

步骤3.4：循环变量r＝r+1，返回执行步骤3.2；

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于Word2Vec的企业舆情数据分析方法，包括如下步骤：收集整理步骤、确定情感词典步骤和得出结论步骤；具体为，

步骤1中，包括步骤1.1：定义文本数据Txt＝{txt₁,txt₂,……,txt_num}，其中，num为文本总数；

步骤1.3：对Txt中文本分词并过滤停用词S，文本预处理后得ft＝

{ft₁,ft₂,……,ft_num}，其中ft_p＝{fw₁,fw₂,……,fw_m}为第p篇文本分词后的集合，p∈[1,num]；

步骤2中，包括步骤2.1：定义初始情感词典，包含情感词集ew＝

{ew₁,ew₂,……,ew_s}和对应的情感值集

步骤2.2：将文本集ft中每个文本去除重复词，得到词集t＝

{t₁,t₂,……,t_b}；

步骤2.3：通过Word2Vec训练文本集ft得到t中各词的词向量，并以余弦相似度计算两两词之间的相似度，从而得到任意词相似度大于β的相似集和其对应的相似度/>其中，w_b∈t，w_b对应的相似度为/>其中/>β默认为0.7；

步骤2.4：设c为循环变量，用于遍历词集t，并赋值为1；

步骤2.6：当且/>时，则执行步骤2.7，否则执行步骤2.9；

步骤2.7：计算词t_c的情感值，其公式为：

步骤2.8：将词t_c加入情感ew＝ew∪{t_c}，词典中；

步骤2.9：循环变量c＝c+1，返回执行步骤2.5；

步骤2.10：得到补充情感词集ew和对应的情感值集ev；

步骤3中，包括步骤3.1：设r为循环变量，用于遍历文本集ft，并赋值为1；

步骤3.2：当循环变量r<＝num时，则执行步骤3.3，否则执行步骤3.5；

步骤3.3：计算文本的情感值，其公式为：

式中，f_j是词j在文本ft_r中的词频，rc_r是文本ft_r的阅读量,min_rc和max_rc是文本集ft中最小和最大的阅读量，dl_r是文本ft_r的长度，avgdl是文本集ft中文本的平均长度；

步骤3.4：循环变量r＝r+1，返回执行步骤3.2；