CN110929516A - 文本的情感分析方法、装置、电子设备及可读存储介质 - Google Patents

文本的情感分析方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110929516A
CN110929516A CN201911156648.7A CN201911156648A CN110929516A CN 110929516 A CN110929516 A CN 110929516A CN 201911156648 A CN201911156648 A CN 201911156648A CN 110929516 A CN110929516 A CN 110929516A
Authority
CN
China
Prior art keywords
emotion
intensity value
text
determining
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911156648.7A
Other languages
English (en)
Inventor
韩勇
赵立永
吴新丽
李丹
刘启明
代继涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XINHUA NETWORK CO Ltd
Original Assignee
XINHUA NETWORK CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XINHUA NETWORK CO Ltd filed Critical XINHUA NETWORK CO Ltd
Priority to CN201911156648.7A priority Critical patent/CN110929516A/zh
Publication of CN110929516A publication Critical patent/CN110929516A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种文本的情感分析方法、装置、电子设备及可读存储介质。该方法包括:基于Bi‑directional Long Short‑Term Memory模型,确定待处理文本的第一情感强度值;基于预定的情感表达规则,确定待处理文本的第二情感强度值;获取待处理文本的主题词,基于主题词以及预设的主题词权重,确定待处理文本的第三情感强度值;基于第一情感强度值、第二情感强度值以及第三情感强度值,确定待处理文本的情感分析结果。本申请提供的方案,通过对待处理文本的分析,快速获取待处理文本的情感分析结果,能够及时获取网民发布信息的情感极性。

Description

文本的情感分析方法、装置、电子设备及可读存储介质
技术领域
本申请涉及自然语言处理技术领域,具体而言,本申请涉及一种文本的情感分析方法、装置、电子设备及可读存储介质。
背景技术
随着互联网的普及和移动互联的崛起、媒体以及自媒体时代的到来,网民参与的信息传播越来越多和复杂。在重大事件发生的舆论传播中,网民可能会发布大量信息,通过人工无法及时的掌握网民发布信息的情感极性,因此,如何对网民发布的大量信息进行分析并及时获取网民的情感极性,成为了自然语言处理技术领域的一个亟待解决的问题。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下:
第一方面,本申请实施例提供了一种文本的情感分析方法,该方法包括:
基于双向长短记忆网络Bi-directional Long Short-Term Memory模型,确定待处理文本的第一情感强度值;
基于预定的情感表达规则,确定待处理文本的第二情感强度值;
获取待处理文本的主题词,基于主题词以及预设的主题词权重,确定待处理文本的第三情感强度值;
基于第一情感强度值、第二情感强度值以及第三情感强度值,确定待处理文本的情感分析结果。
可选地,基于预定的情感表达规则,确定待处理文本的第二情感强度值,包括:
根据待处理文本中的标点符号,将待处理文本中的整句划分为子句;
确定子句的第四情感强度值;
基于第四情感强度值确定第二情感强度值。
可选地,确定子句的第四情感强度值,包括:
确定子句中情感词、修饰情感词的否定词以及修饰情感词的程度副词;
确定子句的句型;
基于情感词对应的预设权重、否定词对应的预设权重系数以及程度副词对应的预设权重系数,并基于句型对应的预设权重系数,确定第四情感强度值。
可选地,基于第四情感强度值确定第二情感强度值,包括:
基于待处理文本中的各子句中的关联词,确定各子句与相邻子句的句间关系;
基于第四情感强度值以及句间关系对应的预设权重系数确定第二情感强度值。
可选地,基于第一情感强度值、第二情感强度值以及第三情感强度值,确定待处理文本的情感分析结果,包括:
基于第一情感强度值、第一情感强度值对应的预设权重系数、第二情感强度值、第二情感强度值对应的预设权重系数、第三情感强度值、第三情感强度值对应的预设权重系数以及预设的情感强度的修正系数,确定待处理文本的第五情感强度值;
基于第五情感强度值确定待处理文本的情感分析结果。
可选地,待处理文本的情感分析结果包括待处理文本的情感极性,基于第五情感强度值确定待处理文本的情感分析结果,包括:
基于第五情感强度值以及预设的情感强度阈值,确定待处理文本的情感极性。
第二方面,本申请实施例提供了一种文本的情感分析装置,该装置包括:
第一情感强度确定模块,用于基于Bi-directional Long Short-Term Memory模型,确定待处理文本的第一情感强度值;
第二情感强度确定模块,用于基于预定的情感表达规则,确定待处理文本的第二情感强度值;
第三情感强度确定模块,用于获取待处理文本的主题词,基于主题词以及预设的主题词权重,确定待处理文本的第三情感强度值;
情感分析结果确定模块,用于基于第一情感强度值、第二情感强度值以及第三情感强度值,确定待处理文本的情感分析结果。
可选地,第二情感强度确定模块用于:
根据待处理文本中的标点符号,将待处理文本中的整句划分为子句;
确定子句的第四情感强度值;
基于第四情感强度值确定第二情感强度值。
可选地,第二情感强度确定模块在确定子句的第四情感强度值时,具体用于:
确定子句中情感词、修饰情感词的否定词以及修饰情感词的程度副词;
确定子句的句型;
基于情感词对应的预设权重、否定词对应的预设权重系数以及程度副词对应的预设权重系数,并基于句型对应的预设权重系数,确定第四情感强度值。
可选地,第二情感强度确定模块在基于第四情感强度值确定第二情感强度值时,具体用于:
基于待处理文本中的各子句中的关联词,确定各子句与相邻子句的句间关系;
基于第四情感强度值以及句间关系对应的预设权重系数确定第二情感强度值。
可选地,第三情感强度确定模块具体用于:
基于第一情感强度值、第一情感强度值对应的预设权重系数、第二情感强度值、第二情感强度值对应的预设权重系数、第三情感强度值、第三情感强度值对应的预设权重系数以及预设的情感强度的修正系数,确定待处理文本的第五情感强度值;
基于第五情感强度值确定待处理文本的情感分析结果。
可选地,待处理文本的情感分析结果包括待处理文本的情感极性,第三情感强度确定模块在基于第五情感强度值确定待处理文本的情感分析结果时,具体用于:
基于第五情感强度值以及预设的情感强度阈值,确定待处理文本的情感极性。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行如本申请的第一方面的任一实施方式所示的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请的第一方面的任一实施方式所示的方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例提供的方案,基于Bi-directional Long Short-Term Memory模型确定待处理文本的第一情感强度值,基于情感表达规则确定待处理文本的第二情感强度值,并基于待处理文本的主题词以及主题词权重,确定待处理文本的第三情感强度值,从而基于第一情感强度值、第二情感强度值以及第三情感强度值确定待处理文本的情感分析结果,本方案通过对待处理文本的分析,快速获取待处理文本的情感分析结果,能够及时获取网民发布信息的情感极性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种文本的情感分析方法的流程示意图;
图2为本申请实施例的一种具体实施方式的流程示意图;
图3为本申请实施例中word2vector模型的训练流程示意图;
图4为本申请实施例中BiLSTM模型的训练流程示意图;
图5为本申请实施例中对BiLSTM模型进行参数调整以及模型测试的流程示意图;
图6为本申请实施例提供的一种待处理文本的情感分析***的结构示意图;
图7为本申请实施例提供的一种文本的情感分析装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请实施例提供的一种文本的情感分析方法的流程示意图,如图1所示,该方法主要可以包括:
步骤S110:基于双向长短记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)模型,确定待处理文本的第一情感强度值。
本申请实施例中,可以通过标注好的数据集训练BiLSTM模型,得到训练完成的BiLSTM模型。可以获取待处理文本的对应的词向量,将待处理文本的词向量输入的训练完成的BiLSTM模型,根据输出结果,确定待处理文本的第一情感强度值。
本申请实施例中,可以采用word2vector模型对待处理文本进行训练得到待处理文本对应的词向量,训练出的词向量包含待处理文本中的词在海量数据中的语义信息,通过词向量能够更好的表征待处理文本中的词的信息。
步骤S120:基于预定的情感表达规则,确定待处理文本的第二情感强度值。
本申请实施例中,可以预设定情感表达规则来对待处理文本进行情感分析,具体而言,可以通过预设情感词词典以及语义规则等,来确定待处理文本的第二情感强度值。
步骤S130:获取待处理文本的主题词,基于主题词以及预设的主题词权重,确定待处理文本的第三情感强度值。
本申请实施例中,可以通过预设主题词词典来预设主题词的权重,通过提取待处理文本的主题词,并确定提取出的主题词的权重,从而确定待处理文本的第三情感强度值。
由于主题词能够表征待处理文本的主题,基于主题词以及主题词的权重,能够有效的确定待处理文本的情感强度值。
本申请实施例中,主题词词典可以通过对海量的正面短文本、负面短文本进行聚类,然后提取每个正负面类别的主题及权重得到。
本申请实施例中,可以通过隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型提取文本前预设数量主题词,将提取出主题词与主题词词典进行匹配得到对应权重,基于提取出主题词的权重确定出待处理文本的第三情感强度值。
步骤S140:基于第一情感强度值、第二情感强度值以及第三情感强度值,确定待处理文本的情感分析结果。
本申请实施例中,可以基于确定出第一情感强度值、第二情感强度值以及第三情感强度值,确定待处理文本的情感分析结果,情感分析结果可以包括待处理文本的情感极性。
本申请实施例提供的方法,基于BiLSTM模型确定待处理文本的第一情感强度值,基于情感表达规则确定待处理文本的第二情感强度值,并基于待处理文本的主题词以及主题词权重,确定待处理文本的第三情感强度值,从而基于第一情感强度值、第二情感强度值以及第三情感强度值确定待处理文本的情感分析结果,本方案通过对待处理文本的分析,快速获取待处理文本的情感分析结果,能够及时获取网民发布信息的情感极性。
在实际使用中,由于BiLSTM模型需要通过预设的数据集进行训练,完成训练的BiLSTM模型在对与预设的数据集所属领域相同的待处理文本的进行分析时准确性较高,对与预设的数据集所属领域不同的处理文本的分析时准确性较低,但是目前用于大规模训练的数据集比较稀缺,因此,如果仅基于BiLSTM模型对待处理文本进行情感分析,在对跨领域的待处理文本分析时准确定性不够高。
在基于预设定情感表达规则来对待处理文本进行情感分析时,依赖于人工建立的情感词词典以及语义规则,建立情感词词典与语义规则的周期长,耗费大量人力,并且建立的情感词词典与语义规则可可移植性差。
本申请提供的方法,将上述基于BiLSTM模型以及基于情感表达规则的分析方式进行融合,并且融合了基于主题词以及主题词权重的分析方式,能够充分利用人工经验知识和机器学习的优势,来提高情感分析的准确性。
图2中示出了本申请实施例的一种具体实施方式的流程示意图,图2中,文本集即待处理文本。情感预测模块中的BiLSTM,即通过BiLSTM模型确定待处理文本的第一情感强度值。情感预测模块中的基于规则的情感词典,即基于预定的情感表达规则,确定待处理文本的第二情感强度值。情感预测模块中情感主题,即基于主题词以及预设的主题词权重,确定待处理文本的第三情感强度值。融合,即基于第一情感强度值、第二情感强度值以及第三情感强度值,进行情感分析。情感预测服务,即确定待处理文本的情感分析结果。情感极性,即基于情感分析结果确定待处理文本的情感极性。
本申请实施例中,训练BiLSTM模型可以包括对预设的数据集进行词向量训练、对预设数据集进行预处理、训练BiLSTM模型、
(1)对预设置的数据集进行词向量训练。
本申请实施例中,采用word2vector模型对预设的数据集进行词向量训练。
通常做模型训练时,数据集中文都要转成数字形式才能被模型接受,将待处理文本的中文转换为数据形式即词嵌入。通常的词嵌入是用word2id的方式,即把数据集分词之后统计词频,并按着词频排序,最后得到一个所有词的排序的词典。但是word2id的方式仅仅考虑词频,而忽略了很多词之间的重要信息,所以这种词表示方法是不够的或者是过于简单的,从而也会影响情感分析的准确率。因此,引入了更复杂的预训练模型word2vector,它是基于词的上下文关系来做的词表示的方法。word2vector模型的训练流程如图3所示。图3中,加载语料集,即对用于word2vector模型训练的数据集进行加载。jieba分词,即通过jieba组件对加载的数据集进行分词。word2vector model,即将分词后的数据集输入word2vector模型。参数设置,即在训练过程中对word2vector模型进行参数设置。模型保存,即在完成参数设置后,保存word2vector模型。
(2)对预设置的数据集进行预处理
由于预设数据集中可能存在影响语义连续性的干扰信息,如包含链接部分、编码的特殊字符、无语义信息的字符等。因此,对预设的数据集进行预处理可以过滤掉这些干扰信息。
(3)训练BiLSTM模型
①加载进行情感极性标注的预设的数据集,对预设的数据集进行jieba分词。加载完成训练的word2vector模型,基于word2vector模型将词转换为词向量。
②由于循环神经网络每次输入是一个固定时间序列的长度,也就是每次输入的数据长度都是固定不变的。可以预设固定的数据长度,由于数据集中可能存在较多的不满足预设数据长度的短文本,为了保持所有的输入序列长度一致,不足预设数据长度的我们用0做填充到预设数据长度。
实际使用中,可以将输入序列记做X列表,设定1表示正面的情感极性、0表示负面的情感极性,把词向量对应的情感标注记做Y列表。将X列表、Y列表作为输入。
③采用四层的网络结构来构建BiLSTM模型。第一层为输入层;第二层为BiLSTM层,主要利用双向记忆性来学习文本的上下文关系的概率分布;第三层为正则层,正则层增加了Dropout操作,用于训练精简网络,防止过拟合;第四层为全连接层,在全连接层增加了一个线性操作,激活函数用的网络(sigmoid),用于通过全连接层的矩阵运算将矩阵转换成2维输出即2分类,然后通过sigmoid获取最后的二分类的概率分布。
④对构建出BiLSTM模型的模型参数进行更新。主要是通过交叉熵计算模型类别输出和真实类别的误差,即损失。然后通过adam优化器对损失部分进行优化,通过随机梯度下降法寻找损失最小的点,并通过求导更新模型参数,循环多次直至数据训练完成。
⑤对训练更新的参数进行保存,对构建出的BiLSTM模型进行保存。
图4中示出了BiLSTM模型的训练流程,如图4中,标注数据集,即对预设置的数据集的情感极性标注。加载词向量模型,即加载训练完成的word2vector模型。词嵌入(wordembedding),即在对预设的数据集进行jieba分词后,将确定出的词转换为词向量。填充(padding),即对输入的词向量的长度进行填充,以使其满足预设定的数据长度。网络层,即将填充后的数据输入BiLSTM模型。二元交叉熵(binary_crossentropy),即通过交叉熵计算模型类别输出和真实类别的误差。Adam,即通过adam优化器对损失部分进行优化。准确率(Accauracy),即确定输出结果的准确率。训练次数(Epoches),即对BiLSTM模型进行训练的训练次数。保存模型(Save model),即结束训练时的BiLSTM模型进行保存。Acc>e orEpoches>f,即当准确率大于预设准确率阈值e,或者训练次数大于次数阈值f时,结束训练。Epoches<f or Acc<e,即当训练次数小于次数阈值f,准确率小于预设准确率阈值e时,再次进行训练。
(4)对训练后的BiLSTM模型进行模型测试
在不同于训练时使用数据集的全新数据集上进行模型测试,以确保测试的是BiLSTM模型的泛化能力。测试时选择的性能参数可以为准确率(accuracy)。准确率表示预测的待处理文本的情感极性与待处理文本的实际情感极性一致的情况占所占比例。
对BiLSTM模型的参数调整以及模型测试可以共同进行,其具体流程可以如图5中所示。图5中,初始化,即对构建的BiLSTM模型进行初始化。模型训练,即对构建的BiLSTM模型进行训练。满足训练停止条件,即当构建的BiLSTM模型进在训练时输出的结果满足训练停止条件。超参数选择,即在训练过程中,调整模型参数,对模型参数进行更新。模型测试,即在完成模型训练后,对训练完成的BiLSTM模型进在模型测试。
本申请实施例的一种可选方式中,基于预定的情感表达规则,确定待处理文本的第二情感强度值,包括:
根据待处理文本中的标点符号,将待处理文本中的整句划分为子句;
确定子句的第四情感强度值;
基于第四情感强度值确定第二情感强度值。
本申请实施例中,待处理文本中可能包含有多个整句,可以基于待处理文本中的标点符号,将各整句分为子句。例如,可以通过待处理文本中的逗号划分子句,即将通过逗号分隔的句子确定为子句。
由于待处理文本中每个子句可能分别能够进行情感表达,可以确定每个子句的第四情感强度值,再基于每个句子的第四情感强度值确定待处理文本的第二情感强度值。
本申请实施例的一种可选方式中,确定子句的第四情感强度值,包括:
确定子句中情感词、修饰情感词的否定词以及修饰情感词的程度副词;
确定出子句的句型;
基于情感词对应的预设权重、否定词对应的预设权重系数以及程度副词对应的预设权重系数,并基于句型对应的预设权重系数,确定第四情感强度值。
本申请实施例中,子句中的情感词是直接表达情感的词,不同的情感词表达的情感强度不同,可以在情感词词典中对各情感词分别预设权重。
当情感词通过程度副词进行修饰时,程度副词会使子句的情感强度发生加强或减弱,可以在情感词词典中对各程度副词分别预设权重系数。
当情感词通过否定词进行修饰时,否定词是指子句的情感的极性发生变化,因此,可以在情感词词典中对否定词预设权重系数,否定词的权重系数为负一。
本申请实施例中,句型可以包括:陈述句、感叹句以及反问句等。子句的句型也能够影响子句的情感倾向。例如,子句为反问句时,对子句的所表达情感的影响为反向加强。例如,子句为感叹句,对子句的所表达情感的影响为增强该子句的情感倾向。在计算子句的情感强度时,可以对各句型设置不同的权重系数。例如,感叹句的情感强度系数可以为2,反问句的情感强度系数可以为-2。
在实际使用中,可以通过子句结尾的子句的结尾标点符号来确定子句的句型,例如,子句结尾为“!”时,句型为感叹句。也可以通过子句中的反向疑问词,如“难道”,确定子句的句型为反问句。
在实际使用中,可以基于以下公式,确定第四情感强度值:
Figure BDA0002284988330000111
上述公式(1)中,H(wi)表示第四情感强度值,i表示子句中的任一情感词,n表示子句中的情感词总数,wi表示上述任一情感词的权重,neg表示子句中修饰上述任一情感词的否定词的权重系数,d表示子句中修饰上述任一情感词的程度副词的权重系数,Mr表示子句的句型对应的权重系数。
本申请实施例的一种可选方式中,基于第四情感强度值确定第二情感强度值,包括:
基于待处理文本中的各子句中的关联词,确定各子句与相邻子句的句间关系;
基于第四情感强度值以及句间关系对应的预设权重系数确定第二情感强度值。
本申请实施例中,待处理文本可以包括多个子句,相邻的子句之间可能存在相互联系,即存在句间关系。句间关系可以为转折关系、假设关系、因果关系等。在实际使用中可以通过子句中的关联词来确定句间关系,例如,通过前后子句之间的转折连词“虽然”、“但是”,确定前后子句之间为转折关系。
由于句间关系可能对前后的子句所表达的情感产生影响,可以对句间关系预设权重系数。由于句间关系可能对前后的子句所表达的情感的影响可能不同,在句间关系的预设权重系数对构成句间关系的各子句可以是不同的,例如,句间关系为转折关系,转折前的子句与转折后的子句的权重系数可以是不同的。
本申请实施例中,由于考虑到句间关系的影响,可以将存在句间关系的多个子句确定为一个子句组,通过计算句组内各子句的第四情感强度值来确定子句组的第六情感强度值。再基于子句组的第六情感强度值以及与其他子句不存在句间关系的子句的第四情感强度值,来确定第二情感强度值。
在实际使用中,确定第二情感强度值:
Figure BDA0002284988330000121
上述公式(2)中,Sd表示第二情感强度值,k表示待处理文本中存在句间关系任一子句组,m表示待处理文本中子句组的总数,l表示上述的任一子句组中的任一子句,u表示上述的任一子句组中子句的总数,Hku(wi)表示上述的任一子句组中的任一子句的第四情感强度值,fk表示上述任一子句组中任一子句对应的权重系数,
Figure BDA0002284988330000122
表示待处理文本中所有子句组的第六情感强度值,s表示待处理文本中任一与其他子句不存在句间关系的子句,r表示待处理文本中与其他子句不存在句间关系的子句的总数,Hs(wi)表示上述任一与其他子句不存在句间关系的子句的第四情感强度值。
本申请实施例的在实际使用中,基于主题词以及预设的主题词权重,确定待处理文本的第三情感强度值,可以包括:
基于以下公式,确定第三情感强度值:
Figure BDA0002284988330000123
上述公式(3)中,St表示第三情感强度值,c表示从待处理文本中获取的任一主题词,v从待处理文本中获取的主题词的总数,tc表示上述任一主题词的权重。
本申请实施例的一种可选方式中,基于第一情感强度值、第二情感强度值以及第三情感强度值,确定待处理文本的情感分析结果,包括:
基于第一情感强度值、第一情感强度值对应的预设权重系数、第二情感强度值、第二情感强度值对应的预设权重系数、第三情感强度值、第三情感强度值对应的预设权重系数以及预设的情感强度的修正系数,确定待处理文本的第五情感强度值;
基于第五情感强度值确定待处理文本的情感分析结果。
本申请实施例中,可以对第一情感强度值、第二情感强度值以及第三情感强度值分别预设权重系数,实现对第一情感强度值、第二情感强度值以及第三情感强度值的加权计算,确定第五情感强度值。
在通过BiLSTM模型确定第一情感强度值时,对用于训练的数据集要求较高,当用于训练的数据集对待处理文本所属领域覆盖程度较低时,会导致确定出的第一情感强度值强度准确性较差。在通过情感表达规则确定第二情感强度值时,预设置的情感表达规则可以覆盖到各个领域,但是其没有学习功能,准确率较低。因此,在训练的数据集对待处理文本所属领域覆盖程度较低时,可以对第一情感强度值预设一个较低的权重系数;而当用于训练的数据集对预测领域覆盖程度较高,确定出的第一情感强度值强度准确性较高时,可以对第一情感强度值预设一个较高的权重系数。
在实际使用中,第五情感强度值可以基于以下公式确定:
S=λ1SR2St3Sd+b (4)
上述公式(4)中,S表示第五情感强度值,λ1表示第一情感强度值的权重系数,SR表示第一情感强度值,λ2表示第二情感强度值的权重系数,St表示第二情感强度值,λ3表示第三情感强度值的权重系数,Sd第三情感强度值的权重系数,b表示情感强度的修正系数。
本申请实施例的一种可选方式中,待处理文本的情感分析结果包括待处理文本的情感极性,基于第五情感强度值确定待处理文本的情感分析结果,包括:
基于第五情感强度值以及预设的情感强度阈值,确定待处理文本的情感极性。
本申请实施例中,待处理文本的情感分析结果可以为待处理文本的情感极性,具体而言,可以预设情感强度阈值,当待处理文本的第五情感强度值大于预设情感强度阈值时,可以确定待处理文本的情感极性为正向;当待处理文本的第五情感强度值不大于预设情感强度阈值时,可以确定待处理文本的情感极性为负向。
图6示出了一种待处理文本的情感分析***的结构示意图,该***从吞吐量需求和实际文本数据量考虑,采用分布式Spark集群实现对待处理文本的情感分析。待处理文本的情感分析***通过zookeeper服务进行管理,输入模块将待处理文本实时写入Hadoop分布式文件***(Hadoop Distributed File System,HDFS),Spark Streaming从HDFS中读取离散数据流,执行上述的文本的情感分析方法,对待处理文本的进行情感分析,将情感分析结果,写入消息队列,具体而言,可以以离散数据流的形式返回到一个kafka话题中,经应用程序读取kafka数据进行网页展示。
基于与图1中所示的方法相同的原理,图7示出了本申请实施例提供的一种文本的情感分析装置的结构示意图,如图7所示,该文本的情感分析装置20可以包括:
第一情感强度确定模块210,用于基于BiLSTM模型,确定待处理文本的第一情感强度值;
第二情感强度确定模块220,用于基于预定的情感表达规则,确定待处理文本的第二情感强度值;
第三情感强度确定模块230,用于获取待处理文本的主题词,基于主题词以及预设的主题词权重,确定待处理文本的第三情感强度值;
情感分析结果确定模块240,用于基于第一情感强度值、第二情感强度值以及第三情感强度值,确定待处理文本的情感分析结果。
本申请实施例提供的装置,基于BiLSTM模型确定待处理文本的第一情感强度值,基于情感表达规则确定待处理文本的第二情感强度值,并基于待处理文本的主题词以及主题词权重,确定待处理文本的第三情感强度值,从而基于第一情感强度值、第二情感强度值以及第三情感强度值确定待处理文本的情感分析结果,本方案通过对待处理文本的分析,快速获取待处理文本的情感分析结果,能够及时获取网民发布信息的情感极性。
可选地,第二情感强度确定模块用于:
根据待处理文本中的标点符号,将待处理文本中的整句划分为子句;
确定子句的第四情感强度值;
基于第四情感强度值确定第二情感强度值。
可选地,第二情感强度确定模块在确定子句的第四情感强度值时,具体用于:
确定子句中情感词、修饰情感词的否定词以及修饰情感词的程度副词;
确定子句的句型;
基于情感词对应的预设权重、否定词对应的预设权重系数以及程度副词对应的预设权重系数,并基于句型对应的预设权重系数,确定第四情感强度值。
可选地,第二情感强度确定模块在基于第四情感强度值确定第二情感强度值时,具体用于:
基于待处理文本中的各子句中的关联词,确定各子句与相邻子句的句间关系;
基于第四情感强度值以及句间关系对应的预设权重系数确定第二情感强度值。
可选地,第三情感强度确定模块具体用于:
基于第一情感强度值、第一情感强度值对应的预设权重系数、第二情感强度值、第二情感强度值对应的预设权重系数、第三情感强度值、第三情感强度值对应的预设权重系数以及预设的情感强度的修正系数,确定待处理文本的第五情感强度值;
基于第五情感强度值确定待处理文本的情感分析结果。
可选地,待处理文本的情感分析结果包括待处理文本的情感极性,第三情感强度确定模块在基于第五情感强度值确定待处理文本的情感分析结果时,具体用于:
基于第五情感强度值以及预设的情感强度阈值,确定待处理文本的情感极性。
可以理解的是,本实施例中的文本的情感分析装置的上述各模块具有实现图1中所示的实施例中的文本的情感分析方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述文本的情感分析装置的各模块的功能描述具体可以参见图1中所示实施例中的文本的情感分析方法的对应描述,在此不再赘述。
本申请实施例提供了一种电子设备,包括处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行本申请任一实施方式中所提供的文本的情感分析方法。
作为一个示例,图8示出了本申请实施例所适用的一种电子设备的结构示意图,如图8所示,该电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选的,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
其中,处理器2001应用于本申请实施例中,用于实现上述方法实施例所示的方法。收发器2004可以包括接收机和发射机,收发器2004应用于本申请实施例中,用于执行时实现本申请实施例的电子设备与其他设备通信的功能。
处理器2001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器2003用于存储执行本申请方案的应用程序代码,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码,以实现本申请任一实施方式中所提供的文本的情感分析方法。
本申请实施例提供的电子设备,适用于上述方法任一实施例,在此不再赘述。
本申请实施例提供了一种电子设备,与现有技术相比,基于BiLSTM模型确定待处理文本的第一情感强度值,基于情感表达规则确定待处理文本的第二情感强度值,并基于待处理文本的主题词以及主题词权重,确定待处理文本的第三情感强度值,从而基于第一情感强度值、第二情感强度值以及第三情感强度值确定待处理文本的情感分析结果,本方案通过对待处理文本的分析,快速获取待处理文本的情感分析结果,能够及时获取网民发布信息的情感极性。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述方法实施例所示的文本的情感分析方法。
本申请实施例提供的计算机可读存储介质,适用于上述方法任一实施例,在此不再赘述。
本申请实施例提供了一种计算机可读存储介质,与现有技术相比,基于BiLSTM模型确定待处理文本的第一情感强度值,基于情感表达规则确定待处理文本的第二情感强度值,并基于待处理文本的主题词以及主题词权重,确定待处理文本的第三情感强度值,从而基于第一情感强度值、第二情感强度值以及第三情感强度值确定待处理文本的情感分析结果,本方案通过对待处理文本的分析,快速获取待处理文本的情感分析结果,能够及时获取网民发布信息的情感极性。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文本的情感分析方法,其特征在于,包括:
基于双向长短记忆网络Bi-directional Long Short-Term Memory模型,确定待处理文本的第一情感强度值;
基于预定的情感表达规则,确定所述待处理文本的第二情感强度值;
获取所述待处理文本的主题词,基于所述主题词以及预设的主题词权重,确定所述待处理文本的第三情感强度值;
基于所述第一情感强度值、所述第二情感强度值以及所述第三情感强度值,确定所述待处理文本的情感分析结果。
2.根据权利要求1所述的方法,其特征在于,所述基于预定的情感表达规则,确定所述待处理文本的第二情感强度值,包括:
根据所述待处理文本中的标点符号,将所述待处理文本中的整句划分为子句;
确定所述子句的第四情感强度值;
基于所述第四情感强度值确定所述第二情感强度值。
3.根据权利要求2所述的方法,其特征在于,所述确定所述子句的第四情感强度值,包括:
确定所述子句中情感词、修饰所述情感词的否定词以及修饰所述情感词的程度副词;
确定所述子句的句型;
基于所述情感词对应的预设权重、所述否定词对应的预设权重系数以及所述程度副词对应的预设权重系数,并基于所述句型对应的预设权重系数,确定所述第四情感强度值。
4.根据权利要求2所述的方法,其特征在于,所述基于所述第四情感强度值确定所述第二情感强度值,包括:
基于所述待处理文本中的各子句中的关联词,确定各子句与相邻子句的句间关系;
基于所述第四情感强度值以及所述句间关系对应的预设权重系数确定所述第二情感强度值。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一情感强度值、所述第二情感强度值以及所述第三情感强度值,确定所述待处理文本的情感分析结果,包括:
基于所述第一情感强度值、所述第一情感强度值对应的预设权重系数、第二情感强度值、所述第二情感强度值对应的预设权重系数、第三情感强度值、所述第三情感强度值对应的预设权重系数以及预设的情感强度的修正系数,确定所述待处理文本的第五情感强度值;
基于所述第五情感强度值确定所述待处理文本的情感分析结果。
6.根据权利要求5所述的方法,其特征在于,所述待处理文本的情感分析结果包括所述待处理文本的情感极性,所述基于所述第五情感强度值确定所述待处理文本的情感分析结果,包括:
基于所述第五情感强度值以及预设的情感强度阈值,确定所述待处理文本的情感极性。
7.一种文本的情感分析装置,其特征在于,包括:
第一情感强度确定模块,用于基于Bi-directional Long Short-Term Memory模型,确定待处理文本的第一情感强度值;
第二情感强度确定模块,用于基于预定的情感表达规则,确定所述待处理文本的第二情感强度值;
第三情感强度确定模块,用于获取所述待处理文本的主题词,基于所述主题词以及预设的主题词权重,确定所述待处理文本的第三情感强度值;
情感分析结果确定模块,用于基于所述第一情感强度值、所述第二情感强度值以及所述第三情感强度值,确定所述待处理文本的情感分析结果。
8.根据权利要求7所述的装置,其特征在于,所述第二情感强度确定模块用于:
根据所述待处理文本中的标点符号,将所述待处理文本中的整句划分为子句;
确定所述子句的第四情感强度值;
基于所述第四情感强度值确定所述第二情感强度值。
9.一种电子设备,其特征在于,包括处理器和存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法。
CN201911156648.7A 2019-11-22 2019-11-22 文本的情感分析方法、装置、电子设备及可读存储介质 Pending CN110929516A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911156648.7A CN110929516A (zh) 2019-11-22 2019-11-22 文本的情感分析方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911156648.7A CN110929516A (zh) 2019-11-22 2019-11-22 文本的情感分析方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN110929516A true CN110929516A (zh) 2020-03-27

Family

ID=69850739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911156648.7A Pending CN110929516A (zh) 2019-11-22 2019-11-22 文本的情感分析方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110929516A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507337A (zh) * 2020-12-18 2021-03-16 四川长虹电器股份有限公司 基于语义分析的恶意JavaScript代码检测模型的实现方法
CN112733525A (zh) * 2021-01-18 2021-04-30 北京奇艺世纪科技有限公司 一种对象情感分析方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744953A (zh) * 2014-01-02 2014-04-23 中国科学院计算机网络信息中心 一种基于中文文本情感识别的网络热点挖掘方法
US20150286627A1 (en) * 2014-04-03 2015-10-08 Adobe Systems Incorporated Contextual sentiment text analysis
CN105095190A (zh) * 2015-08-25 2015-11-25 众联数据技术(南京)有限公司 一种基于中文语义结构和细分词库结合的情感分析方法
CN107862087A (zh) * 2017-12-01 2018-03-30 广州简亦迅信息科技有限公司 基于大数据和深度学习的情感分析方法、装置和存储介质
CN107908782A (zh) * 2017-12-06 2018-04-13 陕西识代运筹信息科技股份有限公司 一种基于情感分析的数据处理方法和装置
CN108268439A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 文本情感的处理方法及装置
CN108536681A (zh) * 2018-04-16 2018-09-14 腾讯科技(深圳)有限公司 基于情感分析的智能问答方法、装置、设备及存储介质
CN110232123A (zh) * 2019-05-28 2019-09-13 第四范式(北京)技术有限公司 文本的情感分析方法及其装置、计算设备与可读介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744953A (zh) * 2014-01-02 2014-04-23 中国科学院计算机网络信息中心 一种基于中文文本情感识别的网络热点挖掘方法
US20150286627A1 (en) * 2014-04-03 2015-10-08 Adobe Systems Incorporated Contextual sentiment text analysis
CN105095190A (zh) * 2015-08-25 2015-11-25 众联数据技术(南京)有限公司 一种基于中文语义结构和细分词库结合的情感分析方法
CN108268439A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 文本情感的处理方法及装置
CN107862087A (zh) * 2017-12-01 2018-03-30 广州简亦迅信息科技有限公司 基于大数据和深度学习的情感分析方法、装置和存储介质
CN107908782A (zh) * 2017-12-06 2018-04-13 陕西识代运筹信息科技股份有限公司 一种基于情感分析的数据处理方法和装置
CN108536681A (zh) * 2018-04-16 2018-09-14 腾讯科技(深圳)有限公司 基于情感分析的智能问答方法、装置、设备及存储介质
CN110232123A (zh) * 2019-05-28 2019-09-13 第四范式(北京)技术有限公司 文本的情感分析方法及其装置、计算设备与可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507337A (zh) * 2020-12-18 2021-03-16 四川长虹电器股份有限公司 基于语义分析的恶意JavaScript代码检测模型的实现方法
CN112733525A (zh) * 2021-01-18 2021-04-30 北京奇艺世纪科技有限公司 一种对象情感分析方法及装置

Similar Documents

Publication Publication Date Title
CN110609899B (zh) 一种基于改进bert模型的特定目标情感分类方法
CN108733644B (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
CN110781686B (zh) 一种语句相似度计算方法、装置及计算机设备
CN110442721B (zh) 神经网络语言模型、训练方法、装置及存储介质
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN108416032A (zh) 一种文本分类方法、装置及存储介质
CN109726400B (zh) 实体词识别结果评价方法、装置、设备及实体词提取***
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN110516070A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
US20220366145A1 (en) Generative language model for few-shot aspect-based sentiment analysis
CN111241232A (zh) 业务服务的处理方法、装置、服务平台及存储介质
CN115310443A (zh) 模型训练方法、信息分类方法、装置、设备及存储介质
WO2023159756A1 (zh) 价格数据的处理方法和装置、电子设备、存储介质
CN110929516A (zh) 文本的情感分析方法、装置、电子设备及可读存储介质
CN112287656A (zh) 文本比对方法、装置、设备和存储介质
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN111723186A (zh) 用于对话***的基于人工智能的知识图谱生成方法、电子设备
CN109446518B (zh) 语言模型的解码方法及解码器
CN111259673A (zh) 一种基于反馈序列多任务学习的法律判决预测方法及***
CN116578671A (zh) 一种情感-原因对提取方法及装置
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring
CN113761935B (zh) 一种短文本语义相似度度量方法、***及装置
CN113761874A (zh) 事件事实性预测方法、装置、电子设备与存储介质
CN116562284B (zh) 一种政务文本自动分拨模型训练方法及装置
CN117436457B (zh) 反讽识别方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200327