CN109992668A - 一种基于自注意力的企业舆情分析方法和装置 - Google Patents

一种基于自注意力的企业舆情分析方法和装置 Download PDF

Info

Publication number
CN109992668A
CN109992668A CN201910272396.8A CN201910272396A CN109992668A CN 109992668 A CN109992668 A CN 109992668A CN 201910272396 A CN201910272396 A CN 201910272396A CN 109992668 A CN109992668 A CN 109992668A
Authority
CN
China
Prior art keywords
text
attention
text data
words
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910272396.8A
Other languages
English (en)
Other versions
CN109992668B (zh
Inventor
顾凌云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ice Stephen Mdt Infotech Ltd
Original Assignee
Shanghai Ice Stephen Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ice Stephen Mdt Infotech Ltd filed Critical Shanghai Ice Stephen Mdt Infotech Ltd
Priority to CN201910272396.8A priority Critical patent/CN109992668B/zh
Publication of CN109992668A publication Critical patent/CN109992668A/zh
Application granted granted Critical
Publication of CN109992668B publication Critical patent/CN109992668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种基于自注意力的企业舆情分析方法和装置,其中方法包括:从获取的中文企业舆情数据集中提取文本数据,检查情感标签,对文本数据进行预处理,去除停用词、低频词和缺失值,得到处理后的文本数据,其中,文本数据包括舆情数据的标题、摘要和正文;使用双向GRU算法对处理后的文本数据进行词法学习,训练得到语言模型,学习得到相应的字向量;将字向量输入自注意力编码器学习字词间的关系,通过计算自注意力系数学习句法层面文本表示方式;根据句法层面文本表示方式,通过情感分析分类器计算各情感类别的概率,得到企业舆情的分析结果。

Description

一种基于自注意力的企业舆情分析方法和装置
技术领域
本发明涉及情感分析技术领域,尤其涉及一种基于自注意力的企业舆情分析方法和装 置。
背景技术
互联网的普及极大的促进了社交网络的发展,舆情管理得到企业相关部门的日益重视, 在面对汹涌的舆论时,没有处理过类似事件的部门常常显得手足无措,以疏替堵,以表及 里是舆情处置中需要遵循的基本原则。合理的对企业舆情数据进行监测,不仅可以维护企 业良好的口碑,更有利于企业对产品或战略的调整,如何快速地从网络文本中挖掘情感倾 向,为政府、企业以及个人的决策提供有效地帮助已经成为自然语言处理领域研究的热点 问题,情感分析***在此过程中起着十分重要的角色。
情感分析又称为倾向性分析,主要分为两类,粗粒度的情感分析和细粒度的情感分析, 前者属于单一模式,后者针对评价对象及其属性进行分析,商业舆情情感分析大多属于粗 力度的情感分析。现阶段主要的情感分析方法分为两类:基于词典的方法和基于评分的方 法。基于字典的方法通过指定一系列的情感词典和规则,对文本进行段落解析,句法分析, 计算情感值,最后通过情感值作为文本的情感倾向依据,该方法存在明显的缺点:需要人 工进行规则的制定,不同领域的规则不尽相同,工作量十分庞大,语言的多变性导致有些 规则不适用。基于评分的方法很多,使用贝叶斯,支持向量机以及神经网络对文本进行分 类,最终使用评分***输出舆情情感标签,需要事先设定一个阈值范围,若经过评分*** 输出的结果大于该范围,则评判为正向情感,若小于该范围,则判为负向情感,若在该阈 值范围内,则判定为中立情感,这种做法最大的缺点是不灵活,算法存在一定的缺陷,同 一类的情感数据的特征可能相差很大,把不同程度上的特征转化为指定的阈值范围,会出 现一定程度上的偏差,导致最终舆情分析的结果不准确。
发明内容
本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的基于自 注意力的企业舆情分析方法和装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种基于自注意力的企业舆情分析方法,包括:从获取的中 文企业舆情数据集中提取文本数据,检查情感标签,对文本数据进行预处理,去除停用词、 低频词和缺失值,得到处理后的文本数据,其中,文本数据包括舆情数据的标题、摘要和 正文;使用双向GRU算法对处理后的文本数据进行词法学习,训练得到语言模型,学习得到相应的字向量;将字向量输入自注意力编码器学习字词间的关系,通过计算自注意力系数学习句法层面文本表示方式;根据句法层面文本表示方式,通过情感分析分类器计算各情感类别的概率,得到企业舆情的分析结果。
其中,对文本数据进行预处理,去除停用词、低频词和缺失值,得到处理后的文本数 据包括:建立中文停用词词典,去除文本数据中的停用词;根据文本数据建立文本字典,计算各字词出现的频率,设置频率阈值,过滤掉低于频率阈值的字词,形成新的文本字典;删除文本数据中带有缺失值的文本数据。
其中,使用双向GRU算法对处理后的文本数据进行词法学习,训练得到语言模型,学习得到相应的字向量包括:使用双向GRU算法对处理后的文本数据进行预训练操作, 用各层之间的线性组合表示词向量,通过组合前向语言模型与反向语言模型,学习得到字 向量。
其中,将字向量输入自注意力编码器学习字词间的关系,通过计算自注意力系数学习 句法层面文本表示方式包括:根据字向量输入自注意力编码器,按照语句中词语的顺序作 为不同时间步进行输入,使用自注意力编码器训练情感分析模型,计算各处理后的文本数 据内所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间的自注意力 系数,将计算得到的自注意力系数与目标语句进行乘积并求和,得到句法层面文本的向量 表示。
其中,根据句法层面文本表示方式,通过情感分析分类器计算各情感类别的概率,得 到企业舆情的分析结果包括:对向量化的文本进行特征提取,降低特征维度,设置三个情 感标签:正向、中立、负向情感,通过线性变换和softmaxt归一化计算舆情数据所属各情感类别的概率,获取概率最大的情感标签作为舆情分析的分析结果。
本发明另一方面提供了一种基于自注意力的企业舆情分析装置,包括:文本预处理单 元,用于从获取的中文企业舆情数据集中提取文本数据,检查情感标签,对文本数据进行 预处理,去除停用词、低频词和缺失值,得到处理后的文本数据,其中,文本数据包括舆 情数据的标题、摘要和正文;语言模型预学习单元,用于使用双向GRU算法对处理后的文本数据进行词法学习,训练得到语言模型,学习得到相应的字向量;自注意力编码单元,用于将字向量输入自注意力编码器学习字词间的关系,通过计算自注意力系数学习句法层面文本表示方式;情感分析单元,用于根据句法层面文本表示方式,通过情感分析分类器计算各情感类别的概率,得到企业舆情的分析结果。
其中,文本预处理单元通过如下方式对文本数据进行预处理,去除停用词、低频词和 缺失值,得到处理后的文本数据:文本预处理单元,具体用于建立中文停用词词典,去除文本数据中的停用词;根据文本数据建立文本字典,计算各字词出现的频率,设置频率阈值,过滤掉低于频率阈值的字词,形成新的文本字典;删除文本数据中带有缺失值的文本数据。
其中,语言模型预学习单元通过如下方式使用双向GRU算法对处理后的文本数据进 行词法学习,训练得到语言模型,学习得到相应的字向量:语言模型预学习单元,具体用于使用双向GRU算法对处理后的文本数据进行预训练操作,用各层之间的线性组合表示 词向量,通过组合前向语言模型与反向语言模型,学习得到字向量。
其中,自注意力编码单元通过如下方式将字向量输入自注意力编码器学习字词间的关 系,通过计算自注意力系数学习句法层面文本表示方式:自注意力编码单元,具体用于根 据字向量输入自注意力编码器,按照语句中词语的顺序作为不同时间步进行输入,使用自 注意力编码器训练情感分析模型,计算各处理后的文本数据内所有字词间的关系,计算源 语句内的每个字词与目标语句中所有字词之间的自注意力系数,将计算得到的自注意力系 数与目标语句进行乘积并求和,得到句法层面文本的向量表示。
其中,情感分析单元通过如下方式根据句法层面文本表示方式,通过情感分析分类器 计算各情感类别的概率,得到企业舆情的分析结果:情感分析单元,具体用于对向量化的 文本进行特征提取,降低特征维度,设置三个情感标签:正向、中立、负向情感,通过线性变换和softmaxt归一化计算舆情数据所属各情感类别的概率,获取概率最大的情感标签作为舆情分析的分析结果。
由此可见,通过本发明实施例提供的基于自注意力的企业舆情分析方法和装置,将每 个舆情的情感分类设置为三类:正向、中立、负向,分别计算待分析的舆情数据属于三个 情感类别的概率,取概率最大的类别作为该篇舆情数据的情感标签,可以帮助政府或企业 对新闻或金融消息进行文本情感倾向的分析,掌握企业的动态信息。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附 图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领 域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附 图。
图1为本发明实施例提供的基于自注意力的企业舆情分析方法的流程图;
图2为本发明实施例提供的自注意力编码器的实施方式流程图;
图3为本发明实施例提供的基于自注意力的企业舆情分析装置的结构示意图;
图4为本发明实施例提供的基于自注意力的企业舆情分析方法的具体流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示 例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限 制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完 整的传达给本领域的技术人员。
在企业舆情分析过程中,重要的是提取出对最终情感倾向具有决定性的关键字词和语 句,难点在于如何准确地抽取与表达这些词语和语句,中文表达的多样性这一特性导致情 感的倾向性不能直接在语句中通过字词来表示,具有否定词的语句表示不一定是负向的感 情,企业的舆情种类繁多,有公司公告、产品动态、***、财务经营、研究成果等, 中立情感的舆情数据偏多,正向和负向在产品、财务、成果舆情中出现的较多,所以重要 的是在学习词法层面的基础上需要更深层次的学习句法层面的含义,因此本发明的核心是 学习一个能表述文本含义和特征的语言模型。
在一个实施方式中,参见图1,本发明实施方式可以包括以下几个步骤:
步骤101:从获取的舆情数据中提取出标题、摘要和正文三个文本特征代表,检查情 感标签。
步骤102:对特征文本进行清洗,建立整个文本字典库,去除停用词、低频词,删除具有缺失值的记录。
步骤103:使用双向GRU在整个语料集上进行训练,得到一个双向的语言模型,学习词法层面的含义,同时得到向量化的字词表示方法。
步骤104:通过字向量得到向量化的文本表述方式,使用自注意力编码器对向量化的 文本数据进一步编码,学习语句内部字词之间的联系,同时计算自注意力系数,得到最终 的文本特征向量。
步骤105:使用分类器对编码器学习到的文本表示进行情感倾向性分析,计算一舆情 文本属于各情感类别的概率,得到情感分析结果。
具体来讲,本发明具有如下四种处理操作:
1.文本预处理:对获取的企业舆情数据集进行标题、摘要和正文的提取,检查情感标 签;接着对数据进行停用词、低频词过滤和缺失值的处理。
2.语言模型预学习:通过训练双向GRU语言模型,得到一个基于词法层面的语义表示,将文本数据进行向量化。
3.自注意力编码:将预学习的文本表示输入到自注意力编码器中,进一步学习句法层 面的语义表达方式,学习句子内部各词汇之间的关系,得到最终的文本特征向量。
4.情感分析:基于编码器学习到的文本表示,将其输入到分类器中,计算各情感类别 的概率,得到舆情的情感分析结果。
图4示出了本发明实施例提供的基于自注意力的企业舆情分析方法的具体流程图,参 见图4,本发明实施例提供的基于自注意力的企业舆情分析方法,包括:
S1,从获取的中文企业舆情数据集中提取文本数据,检查情感标签,对文本数据进行 预处理,去除停用词、低频词和缺失值,得到处理后的文本数据,其中,文本数据包括舆情数据的标题、摘要和正文。
具体地,从获取的中文企业舆情数据集中提取舆情的标题、摘要和正文三个文本特征 代表,检查情感标签,之后对对特征文本进行清洗,建立中文停用词字典,去除停用词、 低频词,删除具有缺失值的记录。
首先对获取的原始中文企业舆情数据进行标题、摘要和正文的提取,通常情况下,标 题的长度小于摘要,摘要的长度小于正文文本的长度。而标题和摘要则是对正文的总结与 概括,能很好地反应舆情的主题信息,根据主题信息判断情感倾向往往比正文文本要准确, 因为正文中的噪声较大,干扰信息较多,很多与主题无关的语句会直接影响舆情的分析, 导致最终分类的结果不准确。为了提高舆情分析的准确率,除了提取正文外,本发明还使 用标题和摘要两个属性作为舆情的特征。
作为本发明实施例的一个可选实施方式,对文本数据进行预处理,去除停用词、低频 词和缺失值,得到处理后的文本数据包括:建立中文停用词词典,去除文本数据中的停用 词;根据文本数据建立文本字典,计算各字词出现的频率,设置频率阈值,过滤掉低于频率阈值的字词,形成新的文本字典;删除文本数据中带有缺失值的文本数据。具体地,建 立中文停用词词典,去除企业舆情数据中的停用词,接着根据文本数据建立文本字典,计 算各字词出现的频率,同时设置一个频率阈值,过滤掉低于该阈值的所有字词,形成新的 文本字典。该字典用于将字词序列化,接下来对舆情文本进行缺失值的处理,检查舆情数 据中带有缺失值的文本并将其删除。
具体实施时,建立中文停用字典,可以表示为:D_stop={d_1,d_2,…,d_t},对标题和 正文进行停用词表的过滤,过滤后的标题和正文表示为x={x_t,x_a},其中x_t表示标题, x_a表示摘要信息。对x建立文本字典(词库字典),去掉重复的字词以及出现频率较低 的字词,在此设定一个频率阈值th,规定小于th的字词从字典中删除,大于th的字词 保留,处理后的字典可以表示为:D_w={d_1,d_2,…,d_n,},经过以上步骤处理后,得到干 净易使用的样本数据。
其中,通过文本字典进行序列化文本的操作为:将x替换为每个字词在字典D_w里对应的序号,序列化后的x可以表示为x={w_1,w_2,…,w_m},m为样本里标题与摘 要相加最大的长度,亦可以人工设定,不足该长度的以0相补,如此便完成了文本的序列 化。
S2,使用双向GRU算法对处理后的文本数据进行词法学习,训练得到语言模型,学习得到相应的字向量。
具体地,本步骤实质是使用双向GRU算法对上步处理得到的数据进行训练得到相应 的字向量,完成词法级别语言模型的学习;即使用双向GRU在整个语料集上进行训练,得到一个双向的语言模型,学习词法层面的含义,同时得到向量化的字词表示方法。
作为本发明实施例的一个可选实施方式,使用双向GRU算法对处理后的文本数据进 行词法学习,训练得到语言模型,学习得到相应的字向量包括:使用双向GRU算法对处理后的文本数据进行预训练操作,用各层之间的线性组合表示词向量,通过组合前向语言模型与反向语言模型,学习得到字向量。
具体实施时,可以使用Bidirectional GRU预训练一个语言模型,学习词法层面的语言 表示方式。用各层之间的线性组合表示字向量。
前向的语言模型表示为:
反向的语言模型表示为:
优化目标为最大似然函数:
GRU全称为Gated Recurrent Unit,它优化了LSTM的长依赖计算开销的问题,其具体的计算公式如下:
ri=σ(Wr·[ht-1,xt])
zi=σ(Wz·[ht-1,xt])
yi=σ(Wo·ht)
S3,将字向量输入自注意力编码器学习字词间的关系,通过计算自注意力系数学习句 法层面文本表示方式。
在通过上述步骤实现字词向量化后,将其输入基于自注意力机制的编码器中,通过学 习语句自身内部所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间 的自注意力相关系数,经过线性变化学习句法级别的文本表示方法。可见,本步骤中,使 用自注意力编码器对向量化的文本数据进一步编码,学习语句内部字词之间的联系,同时 计算自注意力系数,可以得到最终的文本特征向量。
作为本发明实施例的一个可选实施方式,将字向量输入自注意力编码器学习字词间的 关系,通过计算自注意力系数学习句法层面文本表示方式包括:根据字向量输入自注意力 编码器,按照语句中词语的顺序作为不同时间步进行输入,使用自注意力编码器训练情感 分析模型,计算各处理后的文本数据内所有字词间的关系,计算源语句内的每个字词与目 标语句中所有字词之间的自注意力系数,将计算得到的自注意力系数与目标语句进行乘积 并求和,得到句法层面文本的向量表示。具体地,可以分两步实现:
S31,根据上述步骤获取的字词向量表示,在其基础上加上位置信息编码后作为每个 字的向量,按照语句中词语的顺序作为不同时间步进行输入,使用基于自注意力机制的编 码器训练情感分析模型,该模型主要分为两部分:编码器和分类器;每个编码器由两大构 件组成,首先是自注意力编码器,根据输入的舆情数据计算各文本内所有字词间的关系, 得到源语句每个字词语目标语句中所有字词见的自注意力系数,根据该系数进一步计算输 入数据的文本向量化表示方法,通过自注意力编码后,不仅学习了整个语料集上的词汇含 义,同时学习到了语句内部字词之间的关系,完成文本的向量表示方式。多个编码器可以 堆叠同步计算,分别提取文本的不同特征,分别计算相应的自注意力系数。
S32:将计算得到的自注意力系数与输入的文本向量进行乘积并求和,得到文本的向 量表示,接着进行平滑操作,目的是在特征融合的过程中,提高有效特征的使用率。通过对各个维度的特征值进行标准化,可以降低波动较大的特征对模型的影响,使得数据更加的稳定。在数据的测试过程中,需要用整个训练数据的各特征维度上的期望和方差对测试文本进行标准化,因此需要计算整个输入数据的特征期望和方差,为了降低时间的消耗和空间的开销,使用一阶滞后滤波技术来计算所有训练数据集上的期望和方差,在每一次的期望和方差估计中,只需要用到上一批次计算得到的估计期望和方差即可,而不需要保存整个训练数据集,很大程度上减少了内存的占用情况。
具体实施时,经过双向GRU训练后,输入向量转换成矩阵或张量X,其中d为变换的维度,将上述最后得到的字向量作为预训练的语言向量表示输入到自注意 力编码器中,按照语句中字词的顺序作为不同时间步进行输入,使用基于自注意力机制的 编码器训练情感分析模型,该模型分类两部分:编码器和分类器。编码器可以多个堆叠同 时使用,每个编码器由两大构件组成。
首先是自注意力模型,图2为自注意力编码器的实施方式流程图。
步骤201:输入的字向量为X,其中m为样本n中标题和摘要相加最大 的长度。每个字向量经过双向GRU处理后的维度均为d。自注意力机制的原理是通过计 算目标语句与源语句之间的关系,得到源语句中每个字词对应的目标语句中所有字词的自 注意力系数,可以把源目标语句表示为Q,目标语句拆分成key-value健值对,分别 表示为K、V,其中K的作用是为了与Q计算自注意力系数,三次线性变换计算过程的 具体实现公式如下:
步骤202:得到转换后的源语句与目标语句的表示向量后,使用softmax计算字词间 的自注意力系数,因为需要计算源语句中每个字词对应的目标语句中所有字词,为了保证 自注意力系数的变化范围较为明显,需要对Q和K进行缩放,这里对其同时除以然后使用softmax归一化,得到源语句对应目标语句的自注意力系数,计算公式如下:
步骤203:得到自注意力系数后再与目标语句V做乘积并求和,得到每个编码器学习 到的新的输入文本的向量表示:A。由此可知,Q与K的维度必须一致。经过该步骤操作后,输入的文本数据便完成了语句内所有字词间内部关系的自注意力计算,在基于词法级别的字词表示基础上进一步学习了句法级别的文本表示方式。可由以下公式计算:
其中,Q为输入字向量,K和V均是输出字向量,不同的是其维度不相同,代表的含义是目标语句的向量表示;WQ,WK,WV是模型训练过程中需要学习的参数,因此Q,K,V 本质上是经过线性转换的源语句、目标语句的向量表示,自注意力机制最大的特点在于源 语句、目标语句的向量表示均是根据输入向量X通过线性变换得到的。
步骤204:在进行线性变换后,暂不使用激活函数,此时文本的表示特征可能波动较 大,为了使大部分特征能够进入激活函数的有效范围内,此时需要对特征进行批量标准化 操作,称为batch normalization,此时计算每一批次的训练样本在各特征维度上的期望和方 差,使用该值对每个样本的各维度特征进行标准化,使每一批次的每一维特征均服从正态 分布,具体的实现公式如下所示:
其中,xi为经过编码器编码后的文本向量,n代表batch大小,一个batch即为一次训练过程中输入模型中的文本数量,m表示所有文本中语句的最大长度,dv是经过编码 器编码后的字向量的维度。∈是一个常量,目的是为了保证稳定性,防止分母出现0的情 况从而导致计算出错。由上述公式可以看出,经过标准化的文本向量表示为为了减小 此过程中特征被缩放导致的错误,需要一定程度上对原特征进行还原,还原后的文本特征 向量表示为而w与b则是训练期间需要学习的参数。
经过编码器及标准化处理后,接下来需要对多个编码器编码的结果进行融合,通过一 个线性变换不仅可以将多个向量拼接起来转换成单一特征向量,更重要的是降低了多个编 码结果融合时的特征数量,在此将拼接后的文本特征用Y表示,则上述的操作可以用以 下公式表示:
E=relu(We·Y+b)
最终的文本特征向量则表示为E。其中We和b是需要学习的参数。在测试数据上进行预测时,同样需要对测试数据的文本特征进行标准化操作,因为测试时不存在批量输入的概念,在此依然使用训练数据集对测试数据的文本特征进行标准化,但不同于训练时期使用批量样本数据标准化的操作,测试时期使用的是整个训练样本集,计算整个训练集上每个维度特征的期望和方差,用该值对测试数据各维度特征进行标准化,因此需要计算整个训练样本集上各维度特征的期望和方差,这里使用的是一阶滞后滤波方法,根据训练时每个批次计算的各维度特征上的期望和方差来估计整个训练样本集上各维度特征的期望和方差,计算公式如下:
vt=α·vt-1+(1-α)·θt
其中,vt表示当前时刻的估计值,vt-1表示上一时刻的估计值,θt为当前时刻的计算值,使用该滤波方法最大的优点是可以避免波动较大的数据的影响,平滑了整体的期望和均值,与此同时,每次估计值的计算只需使用上一批次估计的结果,而不必存储所有批次计算的期望和方差的结果,从而减小了内存空间的开销。
S4,根据句法层面文本表示方式,通过情感分析分类器计算各情感类别的概率,得到 企业舆情的分析结果。
具体的,编码器得到的结果作为情感分析分类器的输入,分析得到企业舆情数据最终 的情感标签。使用情感分类器对编码器学习到的文本表示进行情感倾向性分析,计算一舆 情文本属于各情感类别的概率,得到情感分析结果。
作为本发明实施例的一个可选实施方式,根据句法层面文本表示方式,通过情感分析 分类器计算各情感类别的概率,得到企业舆情的分析结果包括:对向量化的文本进行特征 提取,降低特征维度,设置三个情感标签:正向、中立、负向情感,通过线性变换和softmaxt 归一化计算舆情数据所属各情感类别的概率,获取概率最大的情感标签作为舆情分析的分 析结果。将经过多个编码器编码的结果进行线性融合,把多个文本特征向量转变为单一向 量,降低特征的维度,从而可以将平滑后的字向量输入到情感分类器里面,实现舆情的情 感分类。
具体实施时,语言表示模型学习完成后,需要将学习的文本特征向量输入到情感分类 器中进行情感倾向性分析。对向量化的文本进行特征提取,降低特征维度,分为三个情感 标签:正向、中立、负向情感,通过一个线性变换和softmaxt归一化计算舆情所属各情感 类别的概率,取概率最大的情感标签作为舆情分析的最终结果。
由此可见,通过本发明实施例提供的基于自注意力的企业舆情分析方法,对获取的中 文企业舆情数据集通过标题、摘要与正文对其进行标注与检查,基于标注后的数据进行文 本预处理,对处理后的数据进行语言模型的预训练,得到相应的字向量,将训练文本向量 化后输入基于自注意力机制的编码器中进行训练,同时在验证集上进行模型的验证,将编 码器输出的结果输入到分类器中,得到舆情的情感标签。可以帮助政府或企业对新闻或金 融消息进行文本情感倾向的分析,掌握企业的动态信息。
图3示出了本发明实施例提供的基于自注意力的企业舆情分析装置,该基于自注意力 的企业舆情分析装置应用于上述基于自注意力的企业舆情分析方法,以下仅对基于自注意 力的企业舆情分析装置的结构进行简要说明,其他未尽事宜,请参照上述基于自注意力的 企业舆情分析方法的相关说明,在此不再赘述。参见图3,本发明实施例提供的基于自注 意力的企业舆情分析装置,包括:
文本预处理单元301,用于从获取的中文企业舆情数据集中提取文本数据,检查情感 标签,对文本数据进行预处理,去除停用词、低频词和缺失值,得到处理后的文本数据,其中,文本数据包括舆情数据的标题、摘要和正文;
语言模型预学习单元302,用于使用双向GRU算法对处理后的文本数据进行词法学习, 训练得到语言模型,学习得到相应的字向量;
自注意力编码单元303,用于将字向量输入自注意力编码器学习字词间的关系,通过 计算自注意力系数学习句法层面文本表示方式;
情感分析单元304,用于根据句法层面文本表示方式,通过情感分析分类器计算各情 感类别的概率,得到企业舆情的分析结果。
由此可见,通过本发明实施例提供的基于自注意力的企业舆情分析装置,对获取的中 文企业舆情数据集通过标题、摘要与正文对其进行标注与检查,基于标注后的数据进行文 本预处理,对处理后的数据进行语言模型的预训练,得到相应的字向量,将训练文本向量 化后输入基于自注意力机制的编码器中进行训练,同时在验证集上进行模型的验证,将编 码器输出的结果输入到分类器中,得到舆情的情感标签。可以帮助政府或企业对新闻或金 融消息进行文本情感倾向的分析,掌握企业的动态信息。
作为本发明实施例的一个可选实施方式,文本预处理单元301通过如下方式对文本数 据进行预处理,去除停用词、低频词和缺失值,得到处理后的文本数据:文本预处理单元 301,具体用于建立中文停用词词典,去除文本数据中的停用词;根据文本数据建立文本字典,计算各字词出现的频率,设置频率阈值,过滤掉低于频率阈值的字词,形成新的文 本字典;删除文本数据中带有缺失值的文本数据。
作为本发明实施例的一个可选实施方式,语言模型预学习单元302通过如下方式使用 双向GRU算法对处理后的文本数据进行词法学习,训练得到语言模型,学习得到相应的 字向量:语言模型预学习单元302,具体用于使用双向GRU算法对处理后的文本数据进行预训练操作,用各层之间的线性组合表示词向量,通过组合前向语言模型与反向语言模型,学习得到字向量。
作为本发明实施例的一个可选实施方式,自注意力编码单元304通过如下方式将字向 量输入自注意力编码器学习字词间的关系,通过计算自注意力系数学习句法层面文本表示 方式:自注意力编码单元304,具体用于根据字向量输入自注意力编码器,按照语句中词 语的顺序作为不同时间步进行输入,使用自注意力编码器训练情感分析模型,计算各处理 后的文本数据内所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间 的自注意力系数,将计算得到的自注意力系数与目标语句进行乘积并求和,得到句法层面 文本的向量表示。
作为本发明实施例的一个可选实施方式,情感分析单元304通过如下方式根据句法层 面文本表示方式,通过情感分析分类器计算各情感类别的概率,得到企业舆情的分析结果: 情感分析单元304,具体用于对向量化的文本进行特征提取,降低特征维度,设置三个情 感标签:正向、中立、负向情感,通过线性变换和softmaxt归一化计算舆情数据所属各情 感类别的概率,获取概率最大的情感标签作为舆情分析的分析结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产 品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程 序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图 和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流 程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方 式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装 置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个 方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机 或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他 可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个 方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络 接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非 易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的 示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技 术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计 算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、 电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储 器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储 或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按 照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的 数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本 申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、 改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于自注意力的企业舆情分析方法,其特征在于,包括:
从获取的中文企业舆情数据集中提取文本数据,检查情感标签,对所述文本数据进行预处理,去除停用词、低频词和缺失值,得到处理后的文本数据,其中,所述文本数据包括舆情数据的标题、摘要和正文;
使用双向GRU算法对所述处理后的文本数据进行词法学习,训练得到语言模型,学习得到相应的字向量;
将所述字向量输入自注意力编码器学习字词间的关系,通过计算自注意力系数学习句法层面文本表示方式;
根据所述句法层面文本表示方式,通过情感分析分类器计算各情感类别的概率,得到企业舆情的分析结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行预处理,去除停用词、低频词和缺失值,得到处理后的文本数据包括:
建立中文停用词词典,去除所述文本数据中的停用词;
根据所述文本数据建立文本字典,计算各字词出现的频率,设置频率阈值,过滤掉低于所述频率阈值的字词,形成新的文本字典;
删除所述文本数据中带有缺失值的文本数据。
3.根据权利要求1所述的方法,其特征在于,所述使用双向GRU算法对所述处理后的文本数据进行词法学习,训练得到语言模型,学习得到相应的字向量包括:
使用所述双向GRU算法对所述处理后的文本数据进行预训练操作,用各层之间的线性组合表示词向量,通过组合前向语言模型与反向语言模型,学习得到所述字向量。
4.根据权利要求1所述的方法,其特征在于,所述将所述字向量输入自注意力编码器学习字词间的关系,通过计算自注意力系数学习句法层面文本表示方式包括:
根据所述字向量输入自注意力编码器,按照语句中词语的顺序作为不同时间步进行输入,使用自注意力编码器训练情感分析模型,计算各处理后的文本数据内所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间的自注意力系数,将计算得到的所述自注意力系数与所述目标语句进行乘积并求和,得到句法层面文本的向量表示。
5.根据权利要求1所述的方法,其特征在于,所述根据所述句法层面文本表示方式,通过情感分析分类器计算各情感类别的概率,得到企业舆情的分析结果包括:
对向量化的文本进行特征提取,降低特征维度,设置三个情感标签:正向、中立、负向情感,通过线性变换和softmaxt归一化计算舆情数据所属各情感类别的概率,获取概率最大的情感标签作为舆情分析的分析结果。
6.一种基于自注意力的企业舆情分析装置,其特征在于,包括:
文本预处理单元,用于从获取的中文企业舆情数据集中提取文本数据,检查情感标签,对所述文本数据进行预处理,去除停用词、低频词和缺失值,得到处理后的文本数据,其中,所述文本数据包括舆情数据的标题、摘要和正文;
语言模型预学习单元,用于使用双向GRU算法对所述处理后的文本数据进行词法学习,训练得到语言模型,学习得到相应的字向量;
自注意力编码单元,用于将所述字向量输入自注意力编码器学习字词间的关系,通过计算自注意力系数学习句法层面文本表示方式;
情感分析单元,用于根据所述句法层面文本表示方式,通过情感分析分类器计算各情感类别的概率,得到企业舆情的分析结果。
7.根据权利要求6所述的装置,其特征在于,所述文本预处理单元通过如下方式对所述文本数据进行预处理,去除停用词、低频词和缺失值,得到处理后的文本数据:
所述文本预处理单元,具体用于建立中文停用词词典,去除所述文本数据中的停用词;根据所述文本数据建立文本字典,计算各字词出现的频率,设置频率阈值,过滤掉低于所述频率阈值的字词,形成新的文本字典;删除所述文本数据中带有缺失值的文本数据。
8.根据权利要求6所述的装置,其特征在于,所述语言模型预学习单元通过如下方式使用双向GRU算法对所述处理后的文本数据进行词法学习,训练得到语言模型,学习得到相应的字向量:
所述语言模型预学习单元,具体用于使用所述双向GRU算法对所述处理后的文本数据进行预训练操作,用各层之间的线性组合表示词向量,通过组合前向语言模型与反向语言模型,学习得到所述字向量。
9.根据权利要求6所述的装置,其特征在于,所述自注意力编码单元通过如下方式将所述字向量输入自注意力编码器学习字词间的关系,通过计算自注意力系数学习句法层面文本表示方式:
所述自注意力编码单元,具体用于根据所述字向量输入自注意力编码器,按照语句中词语的顺序作为不同时间步进行输入,使用自注意力编码器训练情感分析模型,计算各处理后的文本数据内所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间的自注意力系数,将计算得到的所述自注意力系数与所述目标语句进行乘积并求和,得到句法层面文本的向量表示。
10.根据权利要求6所述的装置,其特征在于,所述情感分析单元通过如下方式根据所述句法层面文本表示方式,通过情感分析分类器计算各情感类别的概率,得到企业舆情的分析结果:
情感分析单元,具体用于对向量化的文本进行特征提取,降低特征维度,设置三个情感标签:正向、中立、负向情感,通过线性变换和softmaxt归一化计算舆情数据所属各情感类别的概率,获取概率最大的情感标签作为舆情分析的分析结果。
CN201910272396.8A 2019-04-04 2019-04-04 一种基于自注意力的企业舆情分析方法和装置 Active CN109992668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910272396.8A CN109992668B (zh) 2019-04-04 2019-04-04 一种基于自注意力的企业舆情分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910272396.8A CN109992668B (zh) 2019-04-04 2019-04-04 一种基于自注意力的企业舆情分析方法和装置

Publications (2)

Publication Number Publication Date
CN109992668A true CN109992668A (zh) 2019-07-09
CN109992668B CN109992668B (zh) 2023-02-21

Family

ID=67132493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910272396.8A Active CN109992668B (zh) 2019-04-04 2019-04-04 一种基于自注意力的企业舆情分析方法和装置

Country Status (1)

Country Link
CN (1) CN109992668B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674783A (zh) * 2019-10-08 2020-01-10 山东浪潮人工智能研究院有限公司 一种基于多级预测架构的视频描述方法及***
CN111145914A (zh) * 2019-12-30 2020-05-12 四川大学华西医院 一种确定肺癌临床病种库文本实体的方法及装置
CN111460833A (zh) * 2020-04-01 2020-07-28 合肥讯飞数码科技有限公司 文本生成方法、装置和设备
CN111581966A (zh) * 2020-04-30 2020-08-25 华南师范大学 一种融合上下文特征方面级情感分类方法和装置
CN111737581A (zh) * 2020-07-24 2020-10-02 网思分析(研究与技术)有限公司 一种针对特定方面的情感分析的半监督多任务学习模型
CN112000800A (zh) * 2020-07-02 2020-11-27 广东华兴银行股份有限公司 基于汉字构词法的中文舆情监测方法
CN112765979A (zh) * 2021-01-15 2021-05-07 西华大学 论文关键词提取***及其方法
CN112905790A (zh) * 2021-02-04 2021-06-04 中国建设银行股份有限公司 监管事件定性指标提取的方法、装置和***
CN113051897A (zh) * 2021-05-25 2021-06-29 中国电子科技集团公司第三十研究所 一种基于Performer结构的GPT2文本自动生成方法
CN113158669A (zh) * 2021-04-28 2021-07-23 河北冀联人力资源服务集团有限公司 一种用工平台正负面评论识别的方法及***
CN113282749A (zh) * 2021-05-20 2021-08-20 北京明略软件***有限公司 一种会话情感分类方法、***、电子设备及存储介质
CN113393832A (zh) * 2021-06-03 2021-09-14 清华大学深圳国际研究生院 一种基于全局情感编码的虚拟人动画合成方法及***
CN113987187A (zh) * 2021-11-09 2022-01-28 重庆大学 基于多标签嵌入的舆情文本分类方法、***、终端及介质
CN115238683A (zh) * 2022-08-09 2022-10-25 平安科技(深圳)有限公司 循环自注意力的停用词识别方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017067153A1 (zh) * 2015-10-22 2017-04-27 腾讯科技(深圳)有限公司 基于文本分析的信用风险评估方法及装置、存储介质
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN108460009A (zh) * 2017-12-14 2018-08-28 中山大学 嵌入情感词典的注意力机制循环神经网络文本情感分析法
CN109543180A (zh) * 2018-11-08 2019-03-29 中山大学 一种基于注意力机制的文本情感分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017067153A1 (zh) * 2015-10-22 2017-04-27 腾讯科技(深圳)有限公司 基于文本分析的信用风险评估方法及装置、存储介质
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN108460009A (zh) * 2017-12-14 2018-08-28 中山大学 嵌入情感词典的注意力机制循环神经网络文本情感分析法
CN109543180A (zh) * 2018-11-08 2019-03-29 中山大学 一种基于注意力机制的文本情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡朝举等: "基于深层注意力的LSTM的特定主题情感分析", 《计算机应用研究》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674783B (zh) * 2019-10-08 2022-06-28 山东浪潮科学研究院有限公司 一种基于多级预测架构的视频描述方法及***
CN110674783A (zh) * 2019-10-08 2020-01-10 山东浪潮人工智能研究院有限公司 一种基于多级预测架构的视频描述方法及***
CN111145914A (zh) * 2019-12-30 2020-05-12 四川大学华西医院 一种确定肺癌临床病种库文本实体的方法及装置
CN111145914B (zh) * 2019-12-30 2023-08-04 四川大学华西医院 一种确定肺癌临床病种库文本实体的方法及装置
CN111460833A (zh) * 2020-04-01 2020-07-28 合肥讯飞数码科技有限公司 文本生成方法、装置和设备
CN111460833B (zh) * 2020-04-01 2023-08-25 合肥讯飞数码科技有限公司 文本生成方法、装置和设备
CN111581966A (zh) * 2020-04-30 2020-08-25 华南师范大学 一种融合上下文特征方面级情感分类方法和装置
CN111581966B (zh) * 2020-04-30 2023-04-21 华南师范大学 一种融合上下文特征方面级情感分类方法和装置
CN112000800A (zh) * 2020-07-02 2020-11-27 广东华兴银行股份有限公司 基于汉字构词法的中文舆情监测方法
CN111737581A (zh) * 2020-07-24 2020-10-02 网思分析(研究与技术)有限公司 一种针对特定方面的情感分析的半监督多任务学习模型
CN112765979B (zh) * 2021-01-15 2023-05-09 西华大学 论文关键词提取***及其方法
CN112765979A (zh) * 2021-01-15 2021-05-07 西华大学 论文关键词提取***及其方法
CN112905790A (zh) * 2021-02-04 2021-06-04 中国建设银行股份有限公司 监管事件定性指标提取的方法、装置和***
CN113158669A (zh) * 2021-04-28 2021-07-23 河北冀联人力资源服务集团有限公司 一种用工平台正负面评论识别的方法及***
CN113282749A (zh) * 2021-05-20 2021-08-20 北京明略软件***有限公司 一种会话情感分类方法、***、电子设备及存储介质
CN113051897A (zh) * 2021-05-25 2021-06-29 中国电子科技集团公司第三十研究所 一种基于Performer结构的GPT2文本自动生成方法
CN113393832A (zh) * 2021-06-03 2021-09-14 清华大学深圳国际研究生院 一种基于全局情感编码的虚拟人动画合成方法及***
CN113393832B (zh) * 2021-06-03 2023-10-10 清华大学深圳国际研究生院 一种基于全局情感编码的虚拟人动画合成方法及***
CN113987187A (zh) * 2021-11-09 2022-01-28 重庆大学 基于多标签嵌入的舆情文本分类方法、***、终端及介质
CN115238683A (zh) * 2022-08-09 2022-10-25 平安科技(深圳)有限公司 循环自注意力的停用词识别方法、装置、设备及介质
CN115238683B (zh) * 2022-08-09 2023-06-20 平安科技(深圳)有限公司 循环自注意力的停用词识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN109992668B (zh) 2023-02-21

Similar Documents

Publication Publication Date Title
CN109992668A (zh) 一种基于自注意力的企业舆情分析方法和装置
Zhang et al. Dependency sensitive convolutional neural networks for modeling sentences and documents
Qaisar Sentiment analysis of IMDb movie reviews using long short-term memory
Ding et al. Densely connected bidirectional lstm with applications to sentence classification
Liu et al. Event detection without triggers
US9547821B1 (en) Deep learning for algorithm portfolios
Dashtipour et al. Exploiting deep learning for Persian sentiment analysis
AU2019219746A1 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
Li et al. Multiview semi-supervised learning with consensus
Bhoir et al. Comparative analysis of different word embedding models
CN115408525B (zh) 基于多层级标签的信访文本分类方法、装置、设备及介质
Zhang et al. Making the relation matters: Relation of relation learning network for sentence semantic matching
CN116775872A (zh) 一种文本处理方法、装置、电子设备及存储介质
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN112434514A (zh) 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
Wang et al. Word vector modeling for sentiment analysis of product reviews
Du et al. A convolutional attentional neural network for sentiment classification
CN111523301B (zh) 合同文档合规性检查方法及装置
CN117725211A (zh) 一种基于自构建提示模板的文本分类方法和***
CN113095063A (zh) 一种基于遮蔽语言模型的两阶段情感迁移方法和***
Zeng et al. Chinese relation extraction with flat-lattice encoding and pretrain-transfer strategy
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
Fallatah et al. Kgmatcher results for oaei 2021
Lou Deep learning-based sentiment analysis of movie reviews
Gapanyuk et al. Architecture and Implementation of an Intelligent News Analysis System.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant