CN111984931B - 一种社会事件网络文本的舆情计算与推演方法及*** - Google Patents

一种社会事件网络文本的舆情计算与推演方法及*** Download PDF

Info

Publication number
CN111984931B
CN111984931B CN202010841830.2A CN202010841830A CN111984931B CN 111984931 B CN111984931 B CN 111984931B CN 202010841830 A CN202010841830 A CN 202010841830A CN 111984931 B CN111984931 B CN 111984931B
Authority
CN
China
Prior art keywords
text
social event
layer
network
output result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010841830.2A
Other languages
English (en)
Other versions
CN111984931A (zh
Inventor
王欣芝
彭艳
骆祥峰
刘杨
罗均
谢少荣
张丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202010841830.2A priority Critical patent/CN111984931B/zh
Publication of CN111984931A publication Critical patent/CN111984931A/zh
Application granted granted Critical
Publication of CN111984931B publication Critical patent/CN111984931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种社会事件网络文本的舆情计算与推演方法及***,涉及网络文本处理技术领域,包括:获取社会事件网络文本;对所述社会事件网络文本进行预处理,得到网络社会事件文本字特征、网络社会事件文本词特征和网络社会事件文本隐式特征;将所述网络社会事件文本字特征、所述网络社会事件文本词特征和所述网络社会事件文本隐式特征分别输入训练好的社会情感计算模型和训练好的文本情感计算模型预测,得到社会事件网络文本的六种情感概率;根据所述社会事件网络文本的六种情感概率,采用投票机制方法确定社会事件网络文本的情感取向。本发明提供的方法及***可以通过社会事件网络文本多种情感的分析实现社会事件网络文本最终情感的取向。

Description

一种社会事件网络文本的舆情计算与推演方法及***
技术领域
本发明涉及网络文本处理技术领域,特别是涉及一种社会事件网络文本的 舆情计算与推演方法及***。
背景技术
随着互联网与网络媒体的发展,越来越多应急管理决策人员与学者关注到 社会事件网络信息所引起情感的复杂性,并注意到社会事件网络信息处置不当 而造成的后续不良后果,因此越来越多的管理人员与学者对社会事件的舆情分 析进行研究。当新事件发生时,若能借鉴历史上发生的事件处置过程,则可提 高当前事件处置的可靠性,即通过历史案例的处置方法获取新事件的处置线索。 基于监督学习的社会事件网络文本信息舆情计算旨在总结历史相关事件的规 律,推测待分析社会事件文本的舆情走势,基于已有的历史事件信息理解当前 事件。该方法旨在对具有参考信息的新事件进行有效的情感计算,以促进与帮 助决策者对于社会现象的理解与引导。
传统的社会事件网络文本信息舆情计算方法假定文本信息中包含情感是 单一的。但在实际工程应用中,情感表达者发表的言论所携带的情感往往表现 出多样性。
发明内容
本发明的目的是提供一种社会事件网络文本的舆情计算与推演方法及系 统,以通过社会事件网络文本多种情感的分析实现社会事件网络文本最终情感 的取向。
为实现上述目的,本发明提供了如下方案:
一种社会事件网络文本的舆情计算与推演方法,包括:
获取社会事件网络文本;
对所述社会事件网络文本进行预处理,得到网络社会事件文本字特征、网 络社会事件文本词特征和网络社会事件文本隐式特征;
将所述网络社会事件文本字特征、所述网络社会事件文本词特征和所述网 络社会事件文本隐式特征分别输入训练好的社会情感计算模型和训练好的文 本情感计算模型预测,得到社会事件网络文本的六种情感概率;
根据所述社会事件网络文本的六种情感概率,采用投票机制方法确定社会 事件网络文本的情感取向。
可选的,所述训练好的社会情感计算模型,具体训练过程包括:
获取待训练的网络社会事件文本初始特征;所述待训练的网络社会事件文 本初始特征包括网络社会事件文本初始字特征、网络社会事件文本初始词特征 和网络社会事件文本初始隐式特征;
将所述待训练的网络社会事件文本初始特征输入CNN-LSTM模型的词嵌 入向量层,得到密文词嵌入形式的网络社会事件文本初始特征;具体公式如下:
Figure BDA0002641712700000021
其中,
Figure BDA0002641712700000022
表示独热向量,所述独热向量表示所述待训练的网络社会事件文 本中第j个样本的第i个初始特征;
Figure BDA0002641712700000023
表示词向量,所述词向量为所述密文词 嵌入形式的网络社会事件文本初始特征;
根据滑动窗口和所述密文词嵌入形式的网络社会事件文本初始特征确定 滑动窗口内的词向量;
将所述滑动窗口内的词向量输入所述CNN-LSTM模型的CNN卷积层, 确定文本特征向量;具体公式如下:
Figure BDA0002641712700000024
其中,
Figure BDA0002641712700000025
表示经过卷积层处理之后得到的文本特征向量, [vi-2,vi-1,vi,vi+1,vi+2]表示第i个滑动窗口内的词向量,[·]表示向量拼接;
将所述文本特征向量输入所述CNN-LSTM模型的ReLU激活层,得到 ReLU激活层的输出结果;具体公式如下:
Figure BDA0002641712700000026
其中,
Figure BDA0002641712700000027
表示ReLU激活层的输出结果;
将所述ReLU激活层的输出结果输入所述CNN-LSTM模型的LSTM层, 得到LSTM层的输出结果;具体公式如下:
Figure BDA0002641712700000028
Figure BDA0002641712700000029
其中,
Figure BDA0002641712700000031
表示第一层LSTM层的输出结果,
Figure BDA0002641712700000032
表示第二层LSTM层的输 出结果;
将所述LSTM层的输出结果进行dropout操作,得到dropout操作的输出 结果;具体公式如下:
Figure BDA0002641712700000033
其中,
Figure BDA0002641712700000034
表示dropout操作的输出结果;
将所述dropout操作的输出结果进行均值池化操作,确定有效数据;具体 公式如下:
Figure BDA0002641712700000035
其中,
Figure BDA0002641712700000036
为有效数据,
Figure BDA0002641712700000037
为有效参数,所述有效参数的取值根据当前滑 动窗口中数据是否有效确定,N表示网络社会事件文本使用缺省值补齐之后的 长度;
将所述有效数据输入所述CNN-LSTM模型的全连接层,得到所述全连接 层的输出结果,将所述全连接层的输出结果进行softmax分类,确定所述网络 社会事件文本的六种情感概率;具体公式如下:
Figure BDA0002641712700000038
Figure BDA0002641712700000039
其中,
Figure BDA00026417127000000310
表示全连接层的输出结果,WT表示全连接层中的权重参数的转 置,b表示全连接层中的偏执,
Figure BDA00026417127000000311
表示第j个样本在第l个情感维度上的取值,
Figure BDA00026417127000000312
为网络社会事件文本中第j个样本被预测为第l个情感的概率;
根据所述网络社会事件文本的六种情感概率采用公式
Figure BDA00026417127000000313
Figure BDA00026417127000000314
确定损失函数;其中,L表示损 失函数,
Figure BDA00026417127000000315
表示网络社会事件文本中第j个样本在第l个情感维度上的真实取 值;
以最小化所述损失函数为目标对所述CNN-LSTM模型中的参数进行优化, 得到训练好的社会情感计算模型。
可选的,所述训练好的文本情感计算模型,具体训练过程包括:
获取待训练的网络社会事件文本初始特征;所述待训练的网络社会事件文 本初始特征包括网络社会事件文本初始字特征、网络社会事件文本初始词特征 和网络社会事件文本初始隐式特征;
将所述待训练的网络社会事件文本初始特征输入CNN-LSTM-STACK模 型的词嵌入向量层,得到密文词嵌入形式的网络社会事件文本初始特征;具体 公式如下:
Figure BDA0002641712700000041
其中,
Figure BDA0002641712700000042
表示独热向量,所述独热向量表示所述待训练的网络社会事件文 本中第j个样本的第i个初始特征;
Figure BDA0002641712700000043
表示词向量,所述词向量为所述密文词 嵌入形式的网络社会事件文本初始特征;
根据滑动窗口和所述密文词嵌入形式的网络社会事件文本初始特征确定 滑动窗口内的词向量;
将所述滑动窗口内的词向量输入所述CNN-LSTM-STACK模型的CNN卷 积层,确定文本特征向量;具体公式如下:
Figure BDA0002641712700000044
其中,
Figure BDA0002641712700000045
表示经过卷积层处理之后得到的文本特征向量, [vi-2,vi-1,vi,vi+1,vi+2]表示第i个滑动窗口内的词向量;
将所述文本特征向量输入所述CNN-LSTM-STACK模型的ReLU激活层, 得到ReLU激活层的输出结果;具体公式如下:
Figure BDA0002641712700000046
其中,
Figure BDA0002641712700000047
表示ReLU激活层的输出结果;
将所述ReLU激活层的输出结果输入所述CNN-LSTM-STACK模型的 LSTM层,得到LSTM层的输出结果;具体公式如下:
Figure BDA0002641712700000048
Figure BDA0002641712700000049
其中,
Figure BDA00026417127000000410
表示第一层LSTM层的输出结果,
Figure BDA00026417127000000411
表示第二层LSTM层的输 出结果;
将所述LSTM层的输出结果进行dropout操作,得到dropout操作的输出 结果;具体公式如下:
Figure BDA00026417127000000412
其中,
Figure BDA0002641712700000051
表示dropout操作的输出结果;
将所述密文词嵌入形式的网络社会事件文本初始特征输入所述 CNN-LSTM-STACK模型的原始特征注意力机制的全连接层,得到所述原始特 征注意力机制全连接层的输出结果;将所述原始特征注意力机制全连接层的输 出结果进行sigmoid激活,确定原始特征注意力机制的输出结果;具体公式如 下:
Figure BDA0002641712700000052
Figure BDA0002641712700000053
其中,
Figure BDA0002641712700000054
表示所述原始特征注意力机制全连接层的输出结果,
Figure BDA0002641712700000055
表示所 述原始特征注意力机制的输出结果;
将所述dropout操作的输出结果和所述原始特征注意力机制的输出结果进 行均值池化操作,确定有效数据;具体公式如下:
Figure BDA0002641712700000056
其中,
Figure BDA0002641712700000057
为有效数据,
Figure BDA0002641712700000058
为有效参数,所述有效参数的取值根据当前滑 动窗口中数据是否有效确定,N表示网络社会事件文本使用缺省值补齐之后的 长度;
将所述有效数据输入所述CNN-LSTM-STACK模型的全连接层,得到所 述全连接层的输出结果,将所述全连接层的输出结果进行softmax分类,确定 所述网络社会事件文本的六种情感概率;具体公式如下:
Figure BDA0002641712700000059
Figure BDA00026417127000000510
其中,
Figure BDA00026417127000000511
表示全连接层的输出结果,WT表示全连接层中的权重参数的转 置,b表示全连接层中的偏执,
Figure BDA00026417127000000512
表示第j个样本在第l个情感维度上的取值,
Figure BDA00026417127000000513
为网络社会事件文本中第j个样本被预测为第l个情感的概率;
根据所述网络社会事件文本的六种情感概率采用公式
Figure BDA00026417127000000514
Figure BDA00026417127000000515
确定损失函数;其中,L表示损 失函数,
Figure BDA00026417127000000516
表示网络社会事件文本中第j个样本在第l个情感维度上的真实取 值;
以最小化所述损失函数为目标对所述CNN-LSTM-STACK模型中的参数 进行优化,得到训练好的文本情感计算模型。
可选的,所述根据所述社会事件网络文本的六种情感概率,采用投票机制 方法确定社会事件网络文本的情感取向,具体包括:
获取所述社会事件网络文本的六种情感概率;
获取所述社会事件网络文本的六种情感概率大于有效误判阈值的个数;
根据所述个数采用阈值比较法确定社会事件网络文本的情感取向。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种社会事件网络文本的舆情计算与推演方法及***,将网络 社会事件文本字特征、词特征和隐式特征输入到训练好的文本情感计算模型和 社会情感计算模型,得到社会事件网络文本的六种情感概率,在通过投票机制 确定社会事件网络文本的情感取向,从而实现通过社会事件网络文本多种情感 的分析实现社会事件网络文本最终情感的取向。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是 本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性 的前提下,还可以根据这些附图获得其他的附图。
图1为本发明社会事件网络文本的舆情计算与推演方法流程图;
图2为本发明社会事件网络文本的舆情计算与推演方法示意图;
图3为本发明社会事件网络文本的舆情计算与推演方法CNN-LSTM模型 示意图;
图4为本发明社会事件网络文本的舆情计算与推演方法 CNN-LSTM-STACK模型示意图;
图5为本发明社会事件网络文本的舆情计算与推演方法投票机制示意图;
图6为本发明社会事件网络文本的舆情计算与推演方法CNN-LSTM模型 模块示意图;
图7为本发明社会事件网络文本的舆情计算与推演方法CNN-LSTM-STACK模型原始注意力机制示意图;
图8为本发明社会事件网络文本的舆情计算与推演***示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种社会事件网络文本的舆情计算与推演方法及系 统,以通过社会事件网络文本多种情感的分析实现社会事件网络文本最终情感 的取向。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和 具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的一种社会事件网络文本的舆情计算与推演方法, 包括:
步骤101:获取社会事件网络文本。假设已经有足够的标记数据支撑社会 事件相关文本的有监督情感计算,获取的数据包括社会事件网络文本和文本对 应的情感标签。
步骤102:对社会事件网络文本进行预处理,得到网络社会事件文本字特 征、网络社会事件文本词特征和网络社会事件文本隐式特征。将网络社会事件 文本字特征、网络社会事件文本词特征和网络社会事件文本隐式特征均按照一 定比例划分为训练集、验证集和测试集。
步骤103:将网络社会事件文本字特征、网络社会事件文本词特征和网络 社会事件文本隐式特征分别输入训练好的社会情感计算模型和训练好的文本 情感计算模型预测,得到社会事件网络文本的六种情感概率。
步骤104:根据社会事件网络文本的六种情感概率,采用投票机制方法确 定社会事件网络文本的情感取向。
其中,训练好的社会情感计算模型,具体训练过程包括:
获取待训练的网络社会事件文本初始特征;待训练的网络社会事件文本初 始特征包括网络社会事件文本初始字特征、网络社会事件文本初始词特征和网 络社会事件文本初始隐式特征。
模块一:输入数据密集词向量表达
网络社会事件文本字特征训练集中第j个样本的第i个初始特征表示为词 表长度的独热向量
Figure BDA0002641712700000081
那么第j个样本记为
Figure BDA0002641712700000082
其中N表示网 络社会事件文本使用缺省值补齐之后的长度,若网络社会事件文本长度小于N, 那么使用缺省值‘None’在尾部补齐。例如N=5,那么文本‘我爱猫咪’ 将会被补齐为‘我爱猫咪None None’。CNN-LSTM模型包含两个模块,模 块一包括:输入层(Input)、词嵌入向量层、CNN卷积层和Relu激活层;模 块一包括:LSTM层、dropout层、均值池化层(Mean)、全连接层(dense)、softmax 分类和输出层。如图3所示。
将待训练的网络社会事件文本初始特征输入CNN-LSTM模型的词嵌入向 量层,得到密文词嵌入形式的网络社会事件文本初始特征。具体公式如下:
Figure BDA0002641712700000083
Figure BDA0002641712700000084
其中,
Figure BDA0002641712700000085
表示独热向量,所述独热向量表示所述待训练的网络 社会事件文本中第j个样本的第i个初始特征;
Figure BDA0002641712700000086
表示词向量,词向量与独热 向量对应,所述词向量为所述密文词嵌入形式的网络社会事件文本初始特征;
Figure BDA0002641712700000087
的维度为词表长度,其中只有相应的特征对应维度值为1,其它维度的值为 0。独热向量表达具有稀疏性,不足以反应输入数据之间的语义关系。
Figure BDA0002641712700000088
的长 度可以为任意维度,每一维度的取值范围均为0到1。相对独热向量,其语义 密集性高,能够反应数据中的部分语义关系。
根据滑动窗口和密文词嵌入形式的网络社会事件文本初始特征确定滑动 窗口内的词向量。滑动窗口将补齐的文本打包进行处理以保留文本当中的上下 文信息。若假设窗口大小为5,那么可设置
Figure BDA0002641712700000089
从而保证第1 个滑动窗口获取到的内容以文本中的第一个词为中心词。第i个窗口中的内容 可表示为[wi-2,wi-1′wi,wi+1,wi+2],对应词向量为[vi-2,vi-1,vi,vi+1,vi+2]。
将滑动窗口内的词向量输入CNN-LSTM模型的CNN卷积层,确定文本 特征向量。具体公式如下:
Figure BDA00026417127000000810
其中,
Figure BDA00026417127000000811
表 示经过卷积层处理之后得到的文本特征向量,[vi-2,vi-1,vi,vi+1,vi+2]表示第i 个滑动窗口内的词向量,[·]表示向量拼接;卷积计算在密集词嵌入表达形式 的基础上抽取对于情感分析有用的信息。此时一个窗口数据对应一个输出数据, 不同的窗口共享相同的卷积操作,此时还未建立窗口与窗口数据之间的关系。
将文本特征向量输入CNN-LSTM模型的ReLU激活层,得到ReLU激活 层的输出结果。具体公式如下:
Figure BDA0002641712700000091
其中,
Figure BDA0002641712700000092
表示ReLU激活 层的输出结果;ReLU激活对抽取的特征进行增强,放大或者缩小部分特征对 结果造成的影响,
Figure BDA0002641712700000093
是模块一的输出数据同时是模块二的输入数据。此时, 不同窗口之间的数据仍保持独立,未建立不同窗口数据之间的语义关系。
模块二:基于密集词向量的情感计算
将ReLU激活层的输出结果输入CNN-LSTM模型的LSTM层,得到LSTM 层的输出结果。具体公式如下:
Figure BDA0002641712700000094
Figure BDA0002641712700000095
其中,
Figure BDA0002641712700000096
表示第一层LSTM层的输出结果,
Figure BDA0002641712700000097
表示第二层LSTM层的输 出结果;CNN-LSTM模型设置两层LSTM层进行数据处理,经过该操作后, 独立窗口之间建立上下文语义关系,不再相互分离。
将LSTM层的输出结果进行dropout操作,得到dropout操作的输出结果。 具体公式如下:
Figure BDA0002641712700000098
其中,
Figure BDA0002641712700000099
表示dropout操作的输出结 果;i的取值范围为[1,N],N表示社会事件网络文本使用缺省值补齐之后的长 度,即若文本长度小于N,那么使用省缺值‘None’在末尾补齐。由于文本 的实际长度并非为N,定义
Figure BDA00026417127000000910
若i所指向的数据为有效数据,那么
Figure BDA00026417127000000911
若i所指向的数据为缺省数据,那么
Figure BDA00026417127000000912
dropout操作在
Figure BDA00026417127000000913
的 基础上随机抑制部分神经元的活性,防止过拟合现象。
为统一计算过程,同时不影响社会事件对应文本的情感倾向,均值池化操 作只对有效数据进行处理,保留有效数据并去掉无效数据。将dropout操作的 输出结果进行均值池化操作,确定有效数据。具体公式如下:
Figure BDA00026417127000000914
Figure BDA00026417127000000915
其中,
Figure BDA00026417127000000916
为有效数据,
Figure BDA00026417127000000917
为有效参数,取值为0或者1,所 述有效参数的取值根据当前滑动窗口中数据是否有效确定,N表示网络社会事 件文本使用缺省值补齐之后的长度。
将有效数据输入CNN-LSTM模型的全连接层,得到全连接层的输出结果, 将全连接层的输出结果进行softmax分类,确定网络社会事件文本的六种情感 概率。具体公式如下:
Figure BDA0002641712700000101
Figure BDA0002641712700000102
其中,
Figure BDA0002641712700000103
表示全连接层的输出结果,WT表示全连接层中的权重参数的转 置,b表示全连接层中的偏执,
Figure BDA0002641712700000104
表示第j个样本在第l个情感维度上的取值,
Figure BDA0002641712700000105
为网络社会事件文本中第j个样本被预测为第l个情感的概率;
Figure BDA0002641712700000106
经过 全连接变换为具有六个维度的数据,六个维度分别对应六个情感,W与b分别 表示全连接中的权重参数与偏执。Softmax操作建立六个维度之间的互斥性, 限制情感强度的取值范围为[0,1]。文本的有效数据经过特征抽取转换为统一长 度的向量信息,在此基础上添加全连接与softmax分类,分类结果为六种情感。
设定第j个样本在第l个情感维度上的真实取值记为
Figure BDA0002641712700000107
如果真实标签为 l,则
Figure BDA0002641712700000108
取值为1,否则
Figure BDA0002641712700000109
取值为0。采用交叉熵损失函数,根据网络社会事件 文本的六种情感概率采用公式
Figure BDA00026417127000001010
Figure BDA00026417127000001011
确定损失函数;其中,L表示损失函数,
Figure BDA00026417127000001012
表示网络社会事件文本中第 j个样本在第l个情感维度上的真实取值。以最小化损失函数为目标对 CNN-LSTM模型中的参数进行优化,得到训练好的社会情感计算模型。
CNN-LSTM模型的模块二在模块一编码后的基础上进行数据的进一步处 理,建立文字之间的语义关系,将计算结果分为六种情感。模块一和模块二的 细节如图6所示。
其中,训练好的文本情感计算模型,具体训练过程包括:
获取待训练的网络社会事件文本初始特征;待训练的网络社会事件文本初 始特征包括网络社会事件文本初始字特征、网络社会事件文本初始词特征和网 络社会事件文本初始隐式特征。
将待训练的网络社会事件文本初始特征输入CNN-LSTM-STACK模型的 词嵌入向量层,得到密文词嵌入形式的网络社会事件文本初始特征。具体公式 如下:
Figure BDA00026417127000001013
其中,
Figure BDA00026417127000001014
表示独热向量,所述独热向量表示所述待 训练的网络社会事件文本中第j个样本的第i个初始特征;
Figure BDA00026417127000001015
表示词向量,所 述词向量为所述密文词嵌入形式的网络社会事件文本初始特征。
根据滑动窗口和密文词嵌入形式的网络社会事件文本初始特征确定滑动 窗口内的词向量。
将滑动窗口内的词向量输入CNN-LSTM-STACK模型的CNN卷积层,确 定文本特征向量。具体公式如下:
Figure BDA0002641712700000111
其中,
Figure BDA0002641712700000112
表示经过卷积层处理之后得到的文本特征向量,[vi-2,vi-1,vi,vi+1,vi+2]表示 第i个滑动窗口内的词向量。
将文本特征向量输入CNN-LSTM-STACK模型的ReLU激活层,得到 ReLU激活层的输出结果。具体公式如下:
Figure BDA0002641712700000113
其中,
Figure BDA0002641712700000114
表示 ReLU激活层的输出结果。
将ReLU激活层的输出结果输入CNN-LSTM-STACK模型的LSTM层, 得到LSTM层的输出结果。具体公式如下:
Figure BDA0002641712700000115
Figure BDA0002641712700000116
其中,
Figure BDA0002641712700000117
表示第一层LSTM层的输出结果,
Figure BDA0002641712700000118
表示第二层LSTM层的输 出结果。
将LSTM层的输出结果进行dropout操作,得到dropout操作的输出结果。 具体公式如下:
Figure BDA0002641712700000119
其中,
Figure BDA00026417127000001110
表示dropout操作的输出结 果。
将密文词嵌入形式的网络社会事件文本初始特征输入 CNN-LSTM-STACK模型的原始特征注意力机制的全连接层,得到原始特征注 意力机制全连接层的输出结果;将原始特征注意力机制全连接层的输出结果进 行sigmoid激活,确定原始特征注意力机制的输出结果。具体公式如下:
Figure BDA00026417127000001111
Figure BDA00026417127000001112
其中,
Figure BDA00026417127000001113
表示所述原始特征注意力机制全连接层的输出结果,
Figure BDA00026417127000001114
表示所 述原始特征注意力机制的输出结果。
将dropout操作的输出结果和原始特征注意力机制的输出结果进行均值池 化操作,确定有效数据。具体公式如下:
Figure BDA00026417127000001115
其中,
Figure BDA0002641712700000121
为有效数据,
Figure BDA0002641712700000122
为有效参数,所述有效参数的取值根据当前滑动窗 口中数据是否有效确定,N表示网络社会事件文本使用缺省值补齐之后的长度。 模块三旨在有区分性的强调输入词向量对情感计算结果的影响,模块三细节如 图7所示。
将有效数据输入CNN-LSTM-STACK模型的全连接层,得到全连接层的 输出结果,将全连接层的输出结果进行softmax分类,确定网络社会事件文本 的六种情感概率。具体公式如下:
Figure BDA0002641712700000123
Figure BDA0002641712700000124
其中,
Figure BDA0002641712700000125
表示全连接层的输出结果,WT表示全连接层中的权重参数的转 置,b表示全连接层中的偏执,
Figure BDA0002641712700000126
表示第j个样本在第l个情感维度上的取值,
Figure BDA0002641712700000127
为网络社会事件文本中第j个样本被预测为第l个情感的概率;
Figure BDA0002641712700000128
经过 全连接变换为具有六个维度的数据,六个维度分别对应六个情感,W与b分别 表示全连接中的权重参数与偏执。Softmax操作建立六个维度之间的互斥性, 限制情感强度的取值范围为[0,1]。
根据网络社会事件文本的六种情感概率采用公式
Figure BDA0002641712700000129
Figure BDA00026417127000001210
确定损失函数;其中,L表示损 失函数,
Figure BDA00026417127000001211
表示网络社会事件文本中第j个样本在第l个情感维度上的真实取 值。以最小化损失函数为目标对CNN-LSTM-STACK模型中的参数进行优化, 得到训练好的文本情感计算模型。
本发明提供一种社会事件网络文本的舆情计算与推演方法的具体方式。
1.获取社会事件网络文本和文本对应的情感标签。
2.对获取的数据进行不同表达方式预处理。
3.构建并训练CNN-LSTM模型。
4.载入训练完成的社会情感计算模型。
5.批量组织测试集中的数据输入社会情感计算模型;测试过程中输入的是 补齐之后的网络社会事件文本,测试数据的表达方式和载入的模型训练数据表 达方式相统一。
6.获取场景社会事件情感计算结果;计算结果为softmax输出的概率最大 的值对应的情感。
7.构建并训练CNN-LSTM-STACK模型。如图4所示,构建 CNN-LSTM-STACK模型,模块一与模块二共同构成了模型CNN-LSTM,然 而随着模型层数变深,在参数优化的反向传播过程中梯度消失现象变的明显。 为了解决该问题在前述两部分信息处理的基础上增加原始特征注意力机制,原 始特征注意力机制使用全连接层与sigmoid激活层连接词嵌入向量层与均值池 化层。对CNN-LSTM-STACK模型进行训练。其中的训练集与CNN-LSTM模 型的训练集相同。CNN-LSTM-STACK模型包括三个模块,模块一和模块二同 为CNN-LSTM模型中的模块一和模块二。CNN-LSTM-STACK模型中的模块 三是如图7所示的原始特征注意力机制。该层使用全连接与sigmoid激活连接 词嵌入向量层与均值池化层。
8.按照步骤4、5、6使用CNN-LSTM-STACK预测测试数据的情感。
9.使用数据的词特征表达按照步骤3-8分别使用CNN-LSTM模型和 CNN-LSTM-STACK进行情感计算。
10.使用数据的隐式特征表达按照步骤3-8分别使用CNN-LSTM模型和 CNN-LSTM-STACK进行情感计算。
11.对于一个数据集共包含使用三种特征在两个模型中预测得到的六组结 果。
12.进行网络社会事件情感推演关系挖掘。
为总结误判的规律,挖掘情感表达的内在关联性,基于多模型多特征建立 投票机制,以获取多组结果的共同处,增加分析的可靠性。投票机制的分析过 程如图5所示。该过程可应用于客观数据与主观数据分析。其中,根据社会事 件网络文本的六种情感概率,采用投票机制方法确定社会事件网络文本的情感 取向,包括:
获取社会事件网络文本的六种情感概率。
获取社会事件网络文本的六种情感概率大于有效误判阈值的个数。
根据个数采用阈值比较法确定社会事件网络文本的情感取向。
给定数据Di、初始特征Fj、模型Mk,模型Mk包括文本情感计算模型和社 会情感计算模型,情感eb被判为情感ea的概率记为C(ea|eb,Di,Fj,Mk)∈{0,1}。 C(ea|eb,Di,Fj,Mk)为数据Di使用初始特征Fj表示之后,用模型Mk进行预测,其 中标注标签为eb,模型预测标签为ea的句子个数和总的句子个数的比值。Cr的计算过程如下:
Figure BDA0002641712700000141
其中,θ1为有效误判阈值;Cr为情感关联矩阵,其元素取值为0或者1。 严格意义上,若所有模型与特征组合均为某一情感误判结果投票,那么该票有 效,记为:T(ea|eb)=counti,j,k(Cr(ea|eb,Di,Fj,Mk)>θ2),T(ea|eb)表示六组 结果中支持情感eb判为情感ea的个数。
输入文本数据有三种表达方式,包括网络社会事件文本字特征,网络社会 事件文本词特征和网络社会事件文本隐式特征表达。模型会分别对三种表达方 式的数据进行计算。文本字特征与词特征属于文本处理的通用方法,文本隐式 表达特征是针对社会事件而设计的一种特征表达方式,旨在降低无关信息的重 要性以提高有关信息的有效处理。
网络社会事件的文本隐式表达利用基于词典与基于词性的两种方法在词 特征的基础上进行处理。其语义密集程度介于字特征与词特征之间,其对应语 料的词表长度同样介于字特征与词特征之间。
基于同义词词典的语料隐式表达
本发明中使用的词典为哈工大同义词词林,对于词林中重复出现的词汇, 即具有多个含义的词汇,不进行隐式表达。具体工作过程为:
步骤1:同义词词林载入。词林的存储方式使用字典树,该结构相对于词 典的逐条存储方式,具有较高的检索速率,较小的存储空间。以提高事件信息 处理的效率。
步骤2:基于同义词词典的语料隐式表达。遍历语料中的词汇,并在字典 树中查询。若不能查询到,则保持原表达;若能查询到,则使用字典树中的编 码替换原表达。比如“王同学喜欢夏天”、“王同学喜爱夏天”两句话使用 词典中的编码进行表达后,统一变为“王同学#Gb09A01夏天”。
将词汇进行隐式表达后,部分同义词被统一符号化表达,语料的稀疏程度 被降低,语义紧凑度得到提升。词汇的隐式表达被用做本章后续研究的文本特 征之一。
基于词性特征的语料隐式表达
语料中的实体通常具有较大的分散性,但多数实体出现次数不多,因此在 具体训练过程中难以对实体进行充分训练,导致部分实体向量的使用效果欠佳。 当实体的具体信息在当前处理事件中无关紧要时,可对实体进行隐式表达。比 如“天津今天严重雾霾”与“北京今天严重雾霾”两者具有高语义相 似性,语义的分散由‘天津’与‘北京’两个地名造成,若不关心地名而只关 心‘雾霾’信息时,则可统一表达为“%ns今天严重雾霾”,以减轻实体 造成的语义分散程度。此外,数字也是典型的具有高分散性的语料内容之一, 数字的具体内容同样不可穷举,因此若不考虑数字具体内容条件下,可将数字 进行统一隐式表达。中文文本中的实体包括多种,其中主要包括方位词汇(nd, 左侧、右侧)、人物名称(nr)、机构名称(nt)、地点名称(nl,城郊)、地理名称(ns, 北京市海淀区)、时间名称(t)、其它名称(nz,诺贝尔奖)与数字等。通过基于 词性特征的语料隐式表达,能够在基于实体隐式表达的基础上进一步降低语料 中词汇的分散性,提高词汇向量的训练质量。工作过程为:
步骤1:根据待处理的事件文本,选择需要隐式表达的目标词性,并根据 实际情况进行自适应调整。比如:事件‘汶川地震’中,实体‘汶川’是重要 的待处理目标,因此不可隐式表达,其它实体是否需要隐式表达需视情况而定。
步骤2:设计合适的隐式表达方式。比如使用对应词汇的词性,#nd、#nr、 #nt、#nl、#ns、#t、#nz等。
步骤3:遍历语料中的词汇,使用已设计好的隐式表达方式对语料内容进 行隐式表达。
继基于同义词词典的隐式表达之后,利用词性对语料进行更深层次的隐式 表达,进一步降低语料的稀疏性,比如“王同学#Gb09A01夏天”进行隐式 表达后表达为“#nr#Gb09A01夏天”。经过基于同义词词典的隐式表达与基于 词性特征的隐式表达两个步骤,语料被重新表达。隐式表达之后的语料与原语 料相比词汇量降低,稀疏程度降低,并初步区分同义词与其它词汇,有利于提 升词汇向量的学习效果。
在本实验中设定模型输入数据的窗口尺寸为5,词向量的维度为100,长 短时记忆网络的隐藏层维度为128,输出层的维度为6。在三组数据上测试发 明提出模型的效果。
本发明的数据来源于新浪,主要使用新浪热点社会新闻频道的数据。每个 新闻在该网站上具有三个重要组成部分,即新闻主要内容、用户投票分布、用 户评论。本发明获取新闻的标题、新闻的主体内容、新闻评论作为三个不同的 数据集,分别作为客观数据与主观数据。
情感计算模型效果评价
针对三组不同的数据集,分别观察其在模型上的表现,记录在训练迭代过 程中训练集上损失以及准确率的走势。其中代价函数采用的是交叉熵函数。同 时记录测试集上六种情感分别对应的准确率、召回率与F1值。其中gd_precision、 zj_precision、gx_precision、ng_precision、xq_precision、fn_precision分别表示 感动维、震惊维、搞笑维、难过维、新奇维、愤怒维的准确率。gd_recall、zj_recall、 gx_recall、ng_recall、xq_recall、fn_recall分别表示感动维、震惊维、搞笑维、 难过维、新奇维、愤怒维的召回率。gd_f1、zj_f1、gx_f1、ng_f1、xq_f1、fn_f1 分别表示感动维、震惊维、搞笑维、难过维、新奇维、愤怒维的F1值。其中
Figure BDA0002641712700000161
Figure BDA0002641712700000162
此外,测试集上的整体准确率也被统计。
新闻评论数据集情感计算效果评价
第一组数据(新闻评论数据)测试集上各个维度的准确率如下,整体正确率 最高的特征与模型组合为词特征表达与模型CNN-LSTM,整体准确率达到了 85.0%。其次分别为字特征表达与模型CNN-LSTM,整体准确率为84.4%。另 外几组特征与模型的组合得到的整体准确率分别为词特征表达与模型 CNN-LSTM-STACK得到82.9%、隐式表达与模型CNN-LSTM得到82.2%、 字特征表达与模型CNN-LSTM-STACK 81.5%、隐式表达与模型 CNN-LSTM-STACK得到76.1%。
新闻数据集情感计算效果评价
第二组数据(新闻数据集)训练集上的准确率与损失在训练过程中的走势 如下,词特征表达与隐式表达两组特征的准确率在有限几次迭代后达到稳定。 两组特征与模型CNN-LSTM-STACK组合的准确率98.0%以上,损失分别为 0.03与0.05。两组特征与模型CNN-LSTM组合的准确率分别约为79.0%与 85.0%,损失分别为0.68与0.49。说明在新闻数据集上模型CNN-LSTM-STACK 的拟合效果高于CNN-LSTM。字特征表达在两个模型上的准确率有所提升, 损失有所下降,但结果不稳定,说明字特征表达在当前模型的基础上不能对训 练数据进行有效拟合,若要使用字特征,则需要增加中间特征处理的网络,以 提高效果。
新闻标题数据集情感计算效果评价
第三组数据(标题数据集)训练集上,三组特征与两个模型构成的六组组 合的准确率均在有限几次迭代后达到稳定。两个模型在三组特征上的拟合效果 较好。其中隐式表达与模型CNN_LSTM的组合准确率为94%,损失为0.16, 其它五组结果的准确率均高于97%,损失低于0.1。
整体正确率最高的模型为字特征表达与模型CNN_LSTM_STACK的组合, 整体准确率达到82.0%。其次分别为隐式表达与模型CNN_LSTM_STACK的 组合整体准确率达到81.3%,词特征表达与模型CNN_LSTM_STACK的组合 整体准确率达到80.5%,词特征表达与模型CNN_LSTM的组合整体准确率达 到80.0%,字特征表达与模型CNN_LSTM整体准确率达到79.6%,隐式表达与 模型CNN_LSTM整体准确率达到77.8%。其中,感动维度的准确率、召回率、 F1值在四个模型中都具有较高的水平。愤怒、新奇维度的准确率、召回率、 F1值在四个模型中处于较低水平。这一现象从侧面反映出,新闻的内容在避 免引起负面情绪,致力于引导正面情绪,与第二组数据(新闻数据集)中的结 果一致。
社会事件网络文本信息中的情感误解分析
对三组数据集上三组原始特征与两个模型的计算结果进行分析,主要使用 混淆矩阵观察难以区分的情感数据,并分析其规律,混淆矩阵概况如下,在混 淆矩阵中,颜色的深浅表明相应的判别概率。比如横坐标为愤怒fn,纵坐标为 感动gd,其对应位置的数值为将标记为感动gd的数据误判为愤怒fn的比例。
本发明采用的数据可分为主观数据与客观数据两大类。新闻数据与新闻标 题数据由从业人员编写,描述事件内容为主,其内容客观;新闻评论数据由网 民编写,用来表达网民对客观数据的观点与看法,其中网民的观点中携带大量 的主观意见。对比三组数据可知,新闻数据情感计算结果的混淆程度大于新闻 评论与新闻标题数据的情感计算结果,即新闻数据的情感相对于新闻评论与新 闻标题数据集而言更加难以进行区分。新闻评论作为主观数据,可用来观测网 民对事件所表达看法的情感倾向;新闻标题与新闻两组数据作为事实描述客观 数据,主要用来观察客观描述对主观情感的引导性。
若将本发明提出的模型作为一个智力有限的人类去观察数据,则可观察主 观数据的误判规律,与客观数据引导主观数据的规律。可以看出三组数据中存 在一个相反的现象,即在主观评论中容易将他人评论理解为愤怒,而在另外两 组客观描述中容易将新闻引起的情感误以为感动。可总结为两个现象:新闻内 容本意为引导非愤怒情感,却意外的引起了愤怒情感;用户发表评论时使用负 面词汇(愤怒的词汇)表达积极情感。综合两个现象可知,网民愤怒的情感容易 由内容和其它情感转变而来,若任由事件的发展,那么愤怒容易变为最终的情 感走向。
如图8所示,本发明提供的一种社会事件网络文本的舆情计算与推演***, 包括:
文本获取模块201,用于获取社会事件网络文本。
预处理模块202,用于对所述社会事件网络文本进行预处理,得到网络社 会事件文本字特征、网络社会事件文本词特征和网络社会事件文本隐式特征。
预测模块203,用于将所述网络社会事件文本字特征、所述网络社会事件 文本词特征和所述网络社会事件文本隐式特征分别输入训练好的社会情感计 算模型和训练好的文本情感计算模型预测,得到社会事件网络文本的六种情感 概率,
情感取向确定模块204,用于根据所述社会事件网络文本的六种情感概率, 采用投票机制方法确定社会事件网络文本的情感取向。
其中,所述预测模块包括社会情感计算模型训练模块,所述社会情感计算 模型训练模型具体包括:
初始特征获取单元,用于获取待训练的网络社会事件文本初始特征;所述 待训练的网络社会事件文本初始特征包括网络社会事件文本初始字特征、网络 社会事件文本初始词特征和网络社会事件文本初始隐式特征。
词嵌入向量层输入单元,用于将所述待训练的网络社会事件文本初始特征 输入CNN-LSTM模型的词嵌入向量层,得到密文词嵌入形式的网络社会事件 文本初始特征;具体公式如下:
Figure BDA0002641712700000191
其中,
Figure BDA0002641712700000192
表示独热向量, 所述独热向量表示所述待训练的网络社会事件文本中第j个样本的第i个初始 特征;
Figure BDA0002641712700000193
表示词向量,所述词向量为所述密文词嵌入形式的网络社会事件文本 初始特征。
词向量确定单元,用于根据滑动窗口和所述密文词嵌入形式的网络社会事 件文本初始特征确定滑动窗口内的词向量。
文本特征向量确定单元,用于将所述滑动窗口内的词向量输入所述 CNN-LSTM模型的CNN卷积层,确定文本特征向量;具体公式如下:
Figure BDA0002641712700000194
Figure BDA0002641712700000195
其中,
Figure BDA0002641712700000196
表示经过卷积层处理之后得到的文本 特征向量,[vi-2,vi-1′vi,vi+1,vi+2]表示第i个滑动窗口内的词向量,[·]表示向 量拼接。
ReLU激活层输入单元,用于将所述文本特征向量输入所述CNN-LSTM 模型的ReLU激活层,得到ReLU激活层的输出结果;具体公式如下:
Figure BDA0002641712700000197
Figure BDA0002641712700000198
其中,
Figure BDA0002641712700000199
表示ReLU激活层的输出结果。
LSTM层输入单元,用于将所述ReLU激活层的输出结果输入所述 CNN-LSTM模型的LSTM层,得到LSTM层的输出结果;具体公式如下:
Figure BDA00026417127000001910
Figure BDA00026417127000001911
其中,
Figure BDA00026417127000001912
表示第一层LSTM层的输出结果,
Figure BDA00026417127000001913
表示第二层LSTM层的输 出结果。
dropout操作单元,用于将所述LSTM层的输出结果进行dropout操作, 得到dropout操作的输出结果;具体公式如下:
Figure BDA00026417127000001914
其中,
Figure BDA00026417127000001915
表示dropout操作的输出结果。
均值池化操作单元,用于将所述dropout操作的输出结果进行均值池化操 作,确定有效数据;具体公式如下:
Figure BDA0002641712700000201
其中,
Figure BDA0002641712700000202
为有效数 据,
Figure BDA0002641712700000203
为有效参数,所述有效参数的取值根据当前滑动窗口中数据是否有效 确定,N表示网络社会事件文本使用缺省值补齐之后的长度。
全连接层输入单元,用于将所述有效数据输入所述CNN-LSTM模型的全 连接层,得到所述全连接层的输出结果,将所述全连接层的输出结果进行 softmax分类,确定所述网络社会事件文本的六种情感概率;具体公式如下:
Figure BDA0002641712700000204
Figure BDA0002641712700000205
其中,
Figure BDA0002641712700000206
表示全连接层的输出结果,WT表示全连接层中的权重参数的转 置,b表示全连接层中的偏执,
Figure BDA0002641712700000207
表示第j个样本在第l个情感维度上的取值,
Figure BDA0002641712700000208
为网络社会事件文本中第j个样本被预测为第l个情感的概率。
损失函数确定单元,用于根据所述网络社会事件文本的六种情感概率采用 公式
Figure BDA0002641712700000209
确定损失函数;其中, L表示损失函数,
Figure BDA00026417127000002010
表示网络社会事件文本中第j个样本在第l个情感维度上 的真实取值。
参数优化单元,用于以最小化所述损失函数为目标对所述CNN-LSTM模 型中的参数进行优化,得到训练好的社会情感计算模型。
其中,所述预测模块包括文本情感计算模型训练模块,所述文本情感计算 模型训练模型具体包括:
初始特征获取单元,用于获取待训练的网络社会事件文本初始特征;所述 待训练的网络社会事件文本初始特征包括网络社会事件文本初始字特征、网络 社会事件文本初始词特征和网络社会事件文本初始隐式特征。
词嵌入向量层输入单元,用于将所述待训练的网络社会事件文本初始特征 输入CNN-LSTM-STACK模型的词嵌入向量层,得到密文词嵌入形式的网络 社会事件文本初始特征;具体公式如下:
Figure BDA00026417127000002011
其中,
Figure BDA00026417127000002012
表示独 热向量,所述独热向量表示所述待训练的网络社会事件文本中第j个样本的第 i个初始特征;
Figure BDA00026417127000002013
表示词向量,所述词向量为所述密文词嵌入形式的网络社会 事件文本初始特征。
词向量确定单元,用于根据滑动窗口和所述密文词嵌入形式的网络社会事 件文本初始特征确定滑动窗口内的词向量。
文本特征向量确定单元,用于将所述滑动窗口内的词向量输入所述 CNN-LSTM-STACK模型的CNN卷积层,确定文本特征向量;具体公式如下:
Figure BDA0002641712700000211
其中,
Figure BDA0002641712700000212
表示经过卷积层处理之后得到 的文本特征向量,[vi-2,vi-1,vi,vi+1,vi+2]表示第i个滑动窗口内的词向量。
ReLU激活层输入单元,用于将所述文本特征向量输入所述 CNN-LSTM-STACK模型的ReLU激活层,得到ReLU激活层的输出结果;具 体公式如下:
Figure BDA0002641712700000213
其中,
Figure BDA0002641712700000214
表示ReLU激活层的输出结果。
LSTM层输入单元,用于将所述ReLU激活层的输出结果输入所述 CNN-LSTM-STACK模型的LSTM层,得到LSTM层的输出结果;具体公式 如下:
Figure BDA0002641712700000215
Figure BDA0002641712700000216
其中,
Figure BDA0002641712700000217
表示第一层LSTM层的输出结果,
Figure BDA0002641712700000218
表示第二层LSTM层的输 出结果。
dropout操作单元,用于将所述LSTM层的输出结果进行dropout操作, 得到dropout操作的输出结果;具体公式如下:
Figure BDA0002641712700000219
其中,
Figure BDA00026417127000002110
表示dropout操作的输出结果。
注意力机制输入单元,用于将所述密文词嵌入形式的网络社会事件文本初 始特征输入所述CNN-LSTM-STACK模型的原始特征注意力机制的全连接层, 得到所述原始特征注意力机制全连接层的输出结果;将所述原始特征注意力机 制全连接层的输出结果进行sigmoid激活,确定原始特征注意力机制的输出结 果;具体公式如下:
Figure BDA00026417127000002111
Figure BDA00026417127000002112
其中,
Figure BDA00026417127000002113
表示所述原始特征注意力机制全连接层的输出结果,
Figure BDA00026417127000002114
表示所 述原始特征注意力机制的输出结果。
均值池化操作单元,用于将所述dropout操作的输出结果和所述原始特征 注意力机制的输出结果进行均值池化操作,确定有效数据;具体公式如下:
Figure BDA0002641712700000221
其中,
Figure BDA0002641712700000222
为有效数据,
Figure BDA0002641712700000223
为有效参 数,所述有效参数的取值根据当前滑动窗口中数据是否有效确定,N表示网络 社会事件文本使用缺省值补齐之后的长度。
全连接层输入单元,用于将所述有效数据输入所述CNN-LSTM-STACK 模型的全连接层,得到所述全连接层的输出结果,将所述全连接层的输出结果 进行softmax分类,确定所述网络社会事件文本的六种情感概率;具体公式如 下:
Figure BDA0002641712700000224
Figure BDA0002641712700000225
其中,
Figure BDA0002641712700000226
表示全连接层的输出结果,WT表示全连接层中的权重参数的转 置,b表示全连接层中的偏执,
Figure BDA0002641712700000227
表示第j个样本在第l个情感维度上的取值,
Figure BDA0002641712700000228
为网络社会事件文本中第j个样本被预测为第l个情感的概率。
损失函数确定单元,用于根据所述网络社会事件文本的六种情感概率采用 公式
Figure BDA0002641712700000229
确定损失函数;其中, L表示损失函数,
Figure BDA00026417127000002210
表示网络社会事件文本中第j个样本在第l个情感维度上 的真实取值。
参数优化单元,用于以最小化所述损失函数为目标对所述 CNN-LSTM-STACK模型中的参数进行优化,得到训练好的文本情感计算模型。
其中,所述情感取向确定模块204,具体包括:
情感概率获取单元,用于获取所述社会事件网络文本的六种情感概率。
个数获取单元,用于获取所述社会事件网络文本的六种情感概率大于有效 误判阈值的个数。
情感取向单元,根据所述个数采用阈值比较法确定社会事件网络文本的情 感取向。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是 与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于 实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较 简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施 例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的 一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变 之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种社会事件网络文本的舆情计算与推演方法,其特征在于,包括:
获取社会事件网络文本;
对所述社会事件网络文本进行预处理,得到网络社会事件文本字特征、网络社会事件文本词特征和网络社会事件文本隐式特征;
将所述网络社会事件文本字特征、所述网络社会事件文本词特征和所述网络社会事件文本隐式特征分别输入训练好的社会情感计算模型和训练好的文本情感计算模型预测,得到社会事件网络文本的六种情感概率;
根据所述社会事件网络文本的六种情感概率,采用投票机制方法确定社会事件网络文本的情感取向;
所述训练好的社会情感计算模型,具体训练过程包括:
获取待训练的网络社会事件文本初始特征;所述待训练的网络社会事件文本初始特征包括网络社会事件文本初始字特征、网络社会事件文本初始词特征和网络社会事件文本初始隐式特征;
将所述待训练的网络社会事件文本初始特征输入CNN-LSTM模型的词嵌入向量层,得到密文词嵌入形式的网络社会事件文本初始特征;具体公式如下:
Figure FDA0003605232720000011
其中,
Figure FDA0003605232720000012
表示独热向量,所述独热向量表示所述待训练的网络社会事件文本中第j个样本的第i个初始特征;
Figure FDA0003605232720000013
表示词向量,所述词向量为所述密文词嵌入形式的网络社会事件文本初始特征;
根据滑动窗口和所述密文词嵌入形式的网络社会事件文本初始特征确定滑动窗口内的词向量;
将所述滑动窗口内的词向量输入所述CNN-LSTM模型的CNN卷积层,确定文本特征向量;具体公式如下:
Figure FDA0003605232720000014
其中,
Figure FDA0003605232720000015
表示经过卷积层处理之后得到的文本特征向量,[vi-2,vi-1,vi,vi+1,vi+2]表示第i个滑动窗口内的词向量,[·]表示向量拼接;
将所述文本特征向量输入所述CNN-LSTM模型的ReLU激活层,得到ReLU激活层的输出结果;具体公式如下:
Figure FDA0003605232720000021
其中,
Figure FDA0003605232720000022
表示ReLU激活层的输出结果;
将所述ReLU激活层的输出结果输入所述CNN-LSTM模型的LSTM层,得到LSTM层的输出结果;具体公式如下:
Figure FDA0003605232720000023
Figure FDA0003605232720000024
其中,
Figure FDA0003605232720000025
表示第一层LSTM层的输出结果,
Figure FDA0003605232720000026
表示第二层LSTM层的输出结果;
将所述LSTM层的输出结果进行dropout操作,得到dropout操作的输出结果;具体公式如下:
Figure FDA0003605232720000027
其中,
Figure FDA0003605232720000028
表示dropout操作的输出结果;
将所述dropout操作的输出结果进行均值池化操作,确定有效数据;具体公式如下:
Figure FDA0003605232720000029
其中,
Figure FDA00036052327200000210
为有效数据,
Figure FDA00036052327200000211
为有效参数,所述有效参数的取值根据当前滑动窗口中数据是否有效确定,N表示网络社会事件文本使用缺省值补齐之后的长度;
将所述有效数据输入所述CNN-LSTM模型的全连接层,得到所述全连接层的输出结果,将所述全连接层的输出结果进行softmax分类,确定所述网络社会事件文本的六种情感概率;具体公式如下:
Figure FDA00036052327200000212
Figure FDA00036052327200000213
其中,
Figure FDA00036052327200000214
表示全连接层的输出结果,WT表示全连接层中的权重参数的转置,b表示全连接层中的偏执,
Figure FDA0003605232720000031
表示第j个样本在第l个情感维度上的取值,
Figure FDA0003605232720000032
为网络社会事件文本中第j个样本被预测为第l个情感的概率;
根据所述网络社会事件文本的六种情感概率采用公式
Figure FDA0003605232720000033
Figure FDA0003605232720000034
确定损失函数;其中,L表示损失函数,
Figure FDA0003605232720000035
表示网络社会事件文本中第j个样本在第l个情感维度上的真实取值;
以最小化所述损失函数为目标对所述CNN-LSTM模型中的参数进行优化,得到训练好的社会情感计算模型。
2.根据权利要求1所述的社会事件网络文本的舆情计算与推演方法,其特征在于,所述训练好的文本情感计算模型,具体训练过程包括:
获取待训练的网络社会事件文本初始特征;所述待训练的网络社会事件文本初始特征包括网络社会事件文本初始字特征、网络社会事件文本初始词特征和网络社会事件文本初始隐式特征;
将所述待训练的网络社会事件文本初始特征输入CNN-LSTM-STACK模型的词嵌入向量层,得到密文词嵌入形式的网络社会事件文本初始特征;具体公式如下:
Figure FDA0003605232720000036
其中,
Figure FDA0003605232720000037
表示独热向量,所述独热向量表示所述待训练的网络社会事件文本中第j个样本的第i个初始特征;
Figure FDA0003605232720000038
表示词向量,所述词向量为所述密文词嵌入形式的网络社会事件文本初始特征;
根据滑动窗口和所述密文词嵌入形式的网络社会事件文本初始特征确定滑动窗口内的词向量;
将所述滑动窗口内的词向量输入所述CNN-LSTM-STACK模型的CNN卷积层,确定文本特征向量;具体公式如下:
Figure FDA0003605232720000039
其中,
Figure FDA00036052327200000310
表示经过卷积层处理之后得到的文本特征向量,[vi-2,vi-1,vi,vi+1,vi+2]表示第i个滑动窗口内的词向量;
将所述文本特征向量输入所述CNN-LSTM-STACK模型的ReLU激活层,得到ReLU激活层的输出结果;具体公式如下:
Figure FDA0003605232720000041
其中,
Figure FDA0003605232720000042
表示ReLU激活层的输出结果;
将所述ReLU激活层的输出结果输入所述CNN-LSTM-STACK模型的LSTM层,得到LSTM层的输出结果;具体公式如下:
Figure FDA0003605232720000043
Figure FDA0003605232720000044
其中,
Figure FDA0003605232720000045
表示第一层LSTM层的输出结果,
Figure FDA0003605232720000046
表示第二层LSTM层的输出结果;
将所述LSTM层的输出结果进行dropout操作,得到dropout操作的输出结果;具体公式如下:
Figure FDA0003605232720000047
其中,
Figure FDA0003605232720000048
表示dropout操作的输出结果;
将所述密文词嵌入形式的网络社会事件文本初始特征输入所述CNN-LSTM-STACK模型的原始特征注意力机制的全连接层,得到所述原始特征注意力机制全连接层的输出结果;将所述原始特征注意力机制全连接层的输出结果进行sigmoid激活,确定原始特征注意力机制的输出结果;具体公式如下:
Figure FDA0003605232720000049
Figure FDA00036052327200000410
其中,
Figure FDA00036052327200000411
表示所述原始特征注意力机制全连接层的输出结果,
Figure FDA00036052327200000412
表示所述原始特征注意力机制的输出结果;
将所述dropout操作的输出结果和所述原始特征注意力机制的输出结果进行均值池化操作,确定有效数据;具体公式如下:
Figure FDA00036052327200000413
其中,
Figure FDA0003605232720000051
为有效数据,
Figure FDA0003605232720000052
为有效参数,所述有效参数的取值根据当前滑动窗口中数据是否有效确定,N表示网络社会事件文本使用缺省值补齐之后的长度;
将所述有效数据输入所述CNN-LSTM-STACK模型的全连接层,得到所述全连接层的输出结果,将所述全连接层的输出结果进行softmax分类,确定所述网络社会事件文本的六种情感概率;具体公式如下:
Figure FDA0003605232720000053
Figure FDA0003605232720000054
其中,
Figure FDA0003605232720000055
表示全连接层的输出结果,WT表示全连接层中的权重参数的转置,b表示全连接层中的偏执,
Figure FDA0003605232720000056
表示第j个样本在第l个情感维度上的取值,
Figure FDA0003605232720000057
为网络社会事件文本中第j个样本被预测为第l个情感的概率;
根据所述网络社会事件文本的六种情感概率采用公式
Figure FDA0003605232720000058
Figure FDA0003605232720000059
确定损失函数;其中,L表示损失函数,
Figure FDA00036052327200000510
表示网络社会事件文本中第j个样本在第l个情感维度上的真实取值;
以最小化所述损失函数为目标对所述CNN-LSTM-STACK模型中的参数进行优化,得到训练好的文本情感计算模型。
3.根据权利要求1所述的社会事件网络文本的舆情计算与推演方法,其特征在于,所述根据所述社会事件网络文本的六种情感概率,采用投票机制方法确定社会事件网络文本的情感取向,具体包括:
获取所述社会事件网络文本的六种情感概率;
获取所述社会事件网络文本的六种情感概率大于有效误判阈值的个数;
根据所述个数采用阈值比较法确定社会事件网络文本的情感取向。
4.一种社会事件网络文本的舆情计算与推演***,其特征在于,包括:
文本获取模块,用于获取社会事件网络文本;
预处理模块,用于对所述社会事件网络文本进行预处理,得到网络社会事件文本字特征、网络社会事件文本词特征和网络社会事件文本隐式特征;
预测模块,用于将所述网络社会事件文本字特征、所述网络社会事件文本词特征和所述网络社会事件文本隐式特征分别输入训练好的社会情感计算模型和训练好的文本情感计算模型预测,得到社会事件网络文本的六种情感概率;
情感取向确定模块,用于根据所述社会事件网络文本的六种情感概率,采用投票机制方法确定社会事件网络文本的情感取向;
所述预测模块包括社会情感计算模型训练模块,所述社会情感计算模型训练模型具体包括:
初始特征获取单元,用于获取待训练的网络社会事件文本初始特征;所述待训练的网络社会事件文本初始特征包括网络社会事件文本初始字特征、网络社会事件文本初始词特征和网络社会事件文本初始隐式特征;
词嵌入向量层输入单元,用于将所述待训练的网络社会事件文本初始特征输入CNN-LSTM模型的词嵌入向量层,得到密文词嵌入形式的网络社会事件文本初始特征;具体公式如下:
Figure FDA0003605232720000061
其中,
Figure FDA0003605232720000062
表示独热向量,所述独热向量表示所述待训练的网络社会事件文本中第j个样本的第i个初始特征;
Figure FDA0003605232720000063
表示词向量,所述词向量为所述密文词嵌入形式的网络社会事件文本初始特征;
词向量确定单元,用于根据滑动窗口和所述密文词嵌入形式的网络社会事件文本初始特征确定滑动窗口内的词向量;
文本特征向量确定单元,用于将所述滑动窗口内的词向量输入所述CNN-LSTM模型的CNN卷积层,确定文本特征向量;具体公式如下:
Figure FDA0003605232720000064
其中,
Figure FDA0003605232720000065
表示经过卷积层处理之后得到的文本特征向量,[vi-2,vi-1,vi,vi+1,vi+2]表示第i个滑动窗口内的词向量,[·]表示向量拼接;
ReLU激活层输入单元,用于将所述文本特征向量输入所述CNN-LSTM模型的ReLU激活层,得到ReLU激活层的输出结果;具体公式如下:
Figure FDA0003605232720000071
其中,
Figure FDA0003605232720000072
表示ReLU激活层的输出结果;
LSTM层输入单元,用于将所述ReLU激活层的输出结果输入所述CNN-LSTM模型的LSTM层,得到LSTM层的输出结果;具体公式如下:
Figure FDA0003605232720000073
Figure FDA0003605232720000074
其中,
Figure FDA0003605232720000075
表示第一层LSTM层的输出结果,
Figure FDA0003605232720000076
表示第二层LSTM层的输出结果;
dropout操作单元,用于将所述LSTM层的输出结果进行dropout操作,得到dropout操作的输出结果;具体公式如下:
Figure FDA0003605232720000077
其中,
Figure FDA0003605232720000078
表示dropout操作的输出结果;
均值池化操作单元,用于将所述dropout操作的输出结果进行均值池化操作,确定有效数据;具体公式如下:
Figure FDA0003605232720000079
其中,
Figure FDA00036052327200000710
为有效数据,
Figure FDA00036052327200000711
为有效参数,所述有效参数的取值根据当前滑动窗口中数据是否有效确定,N表示网络社会事件文本使用缺省值补齐之后的长度;
全连接层输入单元,用于将所述有效数据输入所述CNN-LSTM模型的全连接层,得到所述全连接层的输出结果,将所述全连接层的输出结果进行softmax分类,确定所述网络社会事件文本的六种情感概率;具体公式如下:
Figure FDA00036052327200000712
Figure FDA00036052327200000713
其中,
Figure FDA00036052327200000714
表示全连接层的输出结果,WT表示全连接层中的权重参数的转置,b表示全连接层中的偏执,
Figure FDA00036052327200000715
表示第j个样本在第l个情感维度上的取值,
Figure FDA00036052327200000716
为网络社会事件文本中第j个样本被预测为第l个情感的概率;
损失函数确定单元,用于根据所述网络社会事件文本的六种情感概率采用公式
Figure FDA0003605232720000081
确定损失函数;其中,L表示损失函数,
Figure FDA0003605232720000082
表示网络社会事件文本中第j个样本在第l个情感维度上的真实取值;
参数优化单元,用于以最小化所述损失函数为目标对所述CNN-LSTM模型中的参数进行优化,得到训练好的社会情感计算模型。
5.根据权利要求4所述的社会事件网络文本的舆情计算与推演***,其特征在于,所述预测模块包括文本情感计算模型训练模块,所述文本情感计算模型训练模型具体包括:
初始特征获取单元,用于获取待训练的网络社会事件文本初始特征;所述待训练的网络社会事件文本初始特征包括网络社会事件文本初始字特征、网络社会事件文本初始词特征和网络社会事件文本初始隐式特征;
词嵌入向量层输入单元,用于将所述待训练的网络社会事件文本初始特征输入CNN-LSTM-STACK模型的词嵌入向量层,得到密文词嵌入形式的网络社会事件文本初始特征;具体公式如下:
Figure FDA0003605232720000083
其中,
Figure FDA0003605232720000084
表示独热向量,所述独热向量表示所述待训练的网络社会事件文本中第j个样本的第i个初始特征;
Figure FDA0003605232720000085
表示词向量,所述词向量为所述密文词嵌入形式的网络社会事件文本初始特征;
词向量确定单元,用于根据滑动窗口和所述密文词嵌入形式的网络社会事件文本初始特征确定滑动窗口内的词向量;
文本特征向量确定单元,用于将所述滑动窗口内的词向量输入所述CNN-LSTM-STACK模型的CNN卷积层,确定文本特征向量;具体公式如下:
Figure FDA0003605232720000086
其中,
Figure FDA0003605232720000087
表示经过卷积层处理之后得到的文本特征向量,[vi-2,vi-1,vi,vi+1,vi+2]表示第i个滑动窗口内的词向量;
ReLU激活层输入单元,用于将所述文本特征向量输入所述CNN-LSTM-STACK模型的ReLU激活层,得到ReLU激活层的输出结果;具体公式如下:
Figure FDA0003605232720000091
其中,
Figure FDA0003605232720000092
表示ReLU激活层的输出结果;
LSTM层输入单元,用于将所述ReLU激活层的输出结果输入所述CNN-LSTM-STACK模型的LSTM层,得到LSTM层的输出结果;具体公式如下:
Figure FDA0003605232720000093
Figure FDA0003605232720000094
其中,
Figure FDA0003605232720000095
表示第一层LSTM层的输出结果,
Figure FDA0003605232720000096
表示第二层LSTM层的输出结果;
dropout操作单元,用于将所述LSTM层的输出结果进行dropout操作,得到dropout操作的输出结果;具体公式如下:
Figure FDA0003605232720000097
其中,
Figure FDA0003605232720000098
表示dropout操作的输出结果;
注意力机制输入单元,用于将所述密文词嵌入形式的网络社会事件文本初始特征输入所述CNN-LSTM-STACK模型的原始特征注意力机制的全连接层,得到所述原始特征注意力机制全连接层的输出结果;将所述原始特征注意力机制全连接层的输出结果进行sigmoid激活,确定原始特征注意力机制的输出结果;具体公式如下:
Figure FDA0003605232720000099
Figure FDA00036052327200000910
其中,
Figure FDA00036052327200000911
表示所述原始特征注意力机制全连接层的输出结果,
Figure FDA00036052327200000912
表示所述原始特征注意力机制的输出结果;
均值池化操作单元,用于将所述dropout操作的输出结果和所述原始特征注意力机制的输出结果进行均值池化操作,确定有效数据;具体公式如下:
Figure FDA0003605232720000101
其中,
Figure FDA0003605232720000102
为有效数据,
Figure FDA0003605232720000103
为有效参数,所述有效参数的取值根据当前滑动窗口中数据是否有效确定,N表示网络社会事件文本使用缺省值补齐之后的长度;
全连接层输入单元,用于将所述有效数据输入所述CNN-LSTM-STACK模型的全连接层,得到所述全连接层的输出结果,将所述全连接层的输出结果进行softmax分类,确定所述网络社会事件文本的六种情感概率;具体公式如下:
Figure FDA0003605232720000104
Figure FDA0003605232720000105
其中,
Figure FDA0003605232720000106
表示全连接层的输出结果,WT表示全连接层中的权重参数的转置,b表示全连接层中的偏执,
Figure FDA0003605232720000107
表示第j个样本在第l个情感维度上的取值,
Figure FDA0003605232720000108
为网络社会事件文本中第j个样本被预测为第l个情感的概率;
损失函数确定单元,用于根据所述网络社会事件文本的六种情感概率采用公式
Figure FDA0003605232720000109
确定损失函数;其中,L表示损失函数,
Figure FDA00036052327200001010
表示网络社会事件文本中第j个样本在第l个情感维度上的真实取值;
参数优化单元,用于以最小化所述损失函数为目标对所述CNN-LSTM-STACK模型中的参数进行优化,得到训练好的文本情感计算模型。
6.根据权利要求4所述的社会事件网络文本的舆情计算与推演***,其特征在于,所述情感取向确定模块,具体包括:
情感概率获取单元,用于获取所述社会事件网络文本的六种情感概率;
个数获取单元,用于获取所述社会事件网络文本的六种情感概率大于有效误判阈值的个数;
情感取向单元,根据所述个数采用阈值比较法确定社会事件网络文本的情感取向。
CN202010841830.2A 2020-08-20 2020-08-20 一种社会事件网络文本的舆情计算与推演方法及*** Active CN111984931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010841830.2A CN111984931B (zh) 2020-08-20 2020-08-20 一种社会事件网络文本的舆情计算与推演方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010841830.2A CN111984931B (zh) 2020-08-20 2020-08-20 一种社会事件网络文本的舆情计算与推演方法及***

Publications (2)

Publication Number Publication Date
CN111984931A CN111984931A (zh) 2020-11-24
CN111984931B true CN111984931B (zh) 2022-06-03

Family

ID=73442847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010841830.2A Active CN111984931B (zh) 2020-08-20 2020-08-20 一种社会事件网络文本的舆情计算与推演方法及***

Country Status (1)

Country Link
CN (1) CN111984931B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096640A (zh) * 2021-03-08 2021-07-09 北京达佳互联信息技术有限公司 一种语音合成方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831184A (zh) * 2012-08-01 2012-12-19 中国科学院自动化研究所 根据对社会事件的文字描述来预测社会情感的方法及***
CN104765733A (zh) * 2014-01-02 2015-07-08 华为技术有限公司 一种社交网络事件分析的方法和装置
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和***
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108733748A (zh) * 2018-04-04 2018-11-02 浙江大学城市学院 一种基于商品评论舆情的跨境产品质量风险模糊预测方法
CN108804417A (zh) * 2018-05-21 2018-11-13 山东科技大学 一种基于特定领域情感词的文档级情感分析方法
CN109446404A (zh) * 2018-08-30 2019-03-08 中国电子进出口有限公司 一种网络舆情的情感极性分析方法和装置
CN109902177A (zh) * 2019-02-28 2019-06-18 上海理工大学 基于双通道卷积记忆神经网络的文本情感分析方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831184A (zh) * 2012-08-01 2012-12-19 中国科学院自动化研究所 根据对社会事件的文字描述来预测社会情感的方法及***
CN104765733A (zh) * 2014-01-02 2015-07-08 华为技术有限公司 一种社交网络事件分析的方法和装置
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和***
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108733748A (zh) * 2018-04-04 2018-11-02 浙江大学城市学院 一种基于商品评论舆情的跨境产品质量风险模糊预测方法
CN108804417A (zh) * 2018-05-21 2018-11-13 山东科技大学 一种基于特定领域情感词的文档级情感分析方法
CN109446404A (zh) * 2018-08-30 2019-03-08 中国电子进出口有限公司 一种网络舆情的情感极性分析方法和装置
CN109902177A (zh) * 2019-02-28 2019-06-18 上海理工大学 基于双通道卷积记忆神经网络的文本情感分析方法

Also Published As

Publication number Publication date
CN111984931A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN110990564B (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112784041B (zh) 一种中文短文本情感倾向性分析方法
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
Gangadharan et al. Paraphrase detection using deep neural network based word embedding techniques
Liu et al. AMFF: A new attention-based multi-feature fusion method for intention recognition
CN112784532A (zh) 用于短文本情感分类的多头注意力记忆网络
CN115238697A (zh) 基于自然语言处理的司法命名实体识别方法
Polignano et al. Contextualized BERT sentence embeddings for author profiling: The cost of performances
Khan et al. Offensive language detection for low resource language using deep sequence model
CN113516094B (zh) 一种用于为文档匹配评议专家的***以及方法
Ajallouda et al. Kp-use: an unsupervised approach for key-phrases extraction from documents
CN111984931B (zh) 一种社会事件网络文本的舆情计算与推演方法及***
CN111985223A (zh) 一种基于长短记忆网络和情感词典结合的情感计算方法
Yildiz A comparative study of author gender identification
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
Tiwari et al. Comparative Analysis of Different Machine Learning Methods for Hate Speech Recognition in Twitter Text Data
CN115659990A (zh) 烟草情感分析方法、装置及介质
CN112989052B (zh) 一种基于组合-卷积神经网络的中文新闻长文本分类方法
CN113051886B (zh) 一种试题查重方法、装置、存储介质及设备
CN115146031A (zh) 一种基于深度学习和辅助特征的短文本立场检测方法
Li et al. Research on dual channel news headline classification based on ERNIE pre-training model
Zhu et al. Attention based BiLSTM-MCNN for sentiment analysis
Zhao Overview of Deep Learning Methods for Sentiment Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant