CN112434516B - 一种融合正文文本信息的自适应评论情感分析***及方法 - Google Patents
一种融合正文文本信息的自适应评论情感分析***及方法 Download PDFInfo
- Publication number
- CN112434516B CN112434516B CN202011506610.0A CN202011506610A CN112434516B CN 112434516 B CN112434516 B CN 112434516B CN 202011506610 A CN202011506610 A CN 202011506610A CN 112434516 B CN112434516 B CN 112434516B
- Authority
- CN
- China
- Prior art keywords
- text
- comment
- vector
- data
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 39
- 230000008451 emotion Effects 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 166
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 230000006835 compression Effects 0.000 claims abstract description 19
- 238000007906 compression Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012098 association analyses Methods 0.000 claims abstract description 10
- 238000012512 characterization method Methods 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种融合正文文本信息的自适应评论情感分析***及方法,方法包括以下步骤:步骤a、确定数据来源及规模;步骤b、对数据进行预处理;步骤c、根据预处理后的数据进行特征向量提取;步骤d、对提取的特征向量进行关联度分析并得到加权文本向量;步骤e、对加权文本向量和评论特征压缩向量进行卷积操作,完成最终评论分类。本发明在引入主体信息的同时,避免了使用LDA时所需要的人工监督的工作,且对于未登录的文本类别具有一定的发现及特征提取能力;并且使得模型具有一定程度的发现新主题的能力,同时能够对于同一文本下的不同评论,自行匹配与该评论相关度较高的正文信息,解决LDA无法细粒度化的问题。
Description
技术领域
本发明属于数据统计分析领域,特别涉及一种融合正文文本信息的自适应评论情感分析***及方法。
背景技术
随着微博、微信等社交平台的飞速发展,人们可以通过网络随时随地的了解世界各地的事件与新闻,并留言评论。通过该部分的评论数据的分析和统计,可以从大体的角度上了解广大群众对于某些事件的观念看法,如支持、反对、无所谓等态度。
如何处理这些评论数据是能否准确获取真实信息的关键所在,而由于网络评论的数据量较为庞大,使用人工审查不符合实际,而使用情感分析算法就成为了唯一的可行性方案。
现有的情感分析算法已经较为成熟,包括但不限于BiLSTM、FastText、CLSTM等。大体流程如下:
1.数据预处理,包括分词、去除停用词和无关字符过滤
2.对分词后的结果使用CNN或其他算法模型进行特征抽取
3.将抽取后的特征输入分类器中(全连接层或其他任意分类器)完成评论的情感分类
除去以上常规步骤外,以下部分内容也是较为常用的提升判别能力的方式:
1.使用情感词库、语义库等词库方式协助判定预料中的情感正负向
2.在基础模型中加入句法分析使得模型可以更好的学习到评论的语义、语法信息
3.使用LDA获取被评论的正文文本主题词信息并引入模型中协助判定
经过大量的实践证明该基础方案在面对常规评论数据时有较好的判别能力,且在使用了情感词库或LDA(是一种监督学习的降维技术)的信息后能够进一步提升对于易混淆数据的判别能力,但是这些方法依然存在较大的局限性,主要表现如下:
1.常规方案虽然有较为优异的表现,但是忽略了正文的主题信息。而在此基础上,即便是引入了语义库或情感词库等方式也依然没有解决这一问题。
2.使用LDA引入主题信息后虽然能够解决上述问题,但是使用LDA获取文本主题需要使用对应的主体文本单独完成LDA模型的训练,且需要人工设定该批文本的主题数量。
3.训练完成后的LDA模型只能够提取出训练工程中已确定的主题信息,对于新进主题缺乏有效的信息提取能力。
4.由于LDA训练过程中主题的产生不依赖于某一篇文档,因此,对于部分文章,由LDA所提取出的主题信息存在一定的偏差,既LDA无法针对某一篇文章提取出更精确的主题信息。
5.若同一文本下有多个小的主题,且存在针对不同小主题的评论,在这种情况下,由于问题4中的情况,LDA提取出的主题信息仅有一部分同该评论而其余部分均为干扰信息,因此也在一定程度上影响到了后续的结果。
针对以上缺陷,本发明的目的既为在引入主体信息的同时,解决LDA模型训练过程复杂,且需要大量人工监督的难点。并且使得模型具有一定程度的发现新主题的能力,同时能够对于同一文本下的不同评论,自行匹配与该评论相关度较高的正文信息,解决LDA无法细粒度化的问题。LDA表示隐含狄利克雷分布(Latent DirichletAllocation),一种广泛使用的主题模型,用于挖掘并发现大量文本中的不同主题分布情况。
发明内容
针对上述问题,本发明提出一种融合正文文本信息的自适应评论情感分析方法,所述方法包括以下步骤:
步骤a、确定数据来源及规模;
步骤b、对数据进行预处理;
步骤c、根据预处理后的数据进行特征向量提取;
步骤d、对提取的特征向量进行关联度分析并得到加权文本向量;
步骤e、对所述加权文本向量和评论特征压缩向量进行卷积操作,完成最终评论分类。
进一步的,所述数据包括正文文本和评论文本。
进一步的,步骤b中对数据进行预处理具体包括正文文本和评论文本停用词过滤、正文文本长度压缩的步骤。
进一步的,步骤c中根据预处理后的数据进行特征向量提取包括分别对正文文本和评论文本进行特征向量提取的步骤。
进一步的,对所述评论文本和所述正文文本进行特征向量提取具体包括以下步骤:
步骤c1、对预处理后的评论文本进行数据向量化,获取评论文本对应的句子向量表征;
步骤c2、对评论文本对应的句子向量表征进一步编码及特征提取,得到评论文本的特征向量;
步骤c3、对压缩后的正文文本进行数据向量化,获取正文文本对应的句子向量表征;
步骤c4、对正文文本对应的句子向量表征进一步编码及特征提取,得到正文文本的特征向量。
进一步的,步骤d中所述关联度分析获得加权文本向量具体包括以下步骤:
步骤d1、计算压缩后的正文文本各个句子特征向量和评论特征向量的相关性rij:rij=ci·sj,其中,ci表示第i个评论特征向量,sj表示第j个正文句子的特征向量;
步骤d2、计算第i个评论特征向量对于正文中每个句子j的相关度Rij:
步骤d3、计算加权文本向量Vi:Vi=∑jRij×Sj。
进一步的,步骤e中,所述评论特征压缩向量通过所述评论文本特征向量依次使用max_pooling及average_pooling的方式获取,其中,max_pooling和average_pooling均表示卷积核。
本发明还提供一种融合正文文本信息的自适应评论情感分析***,所述***包括:
数据来源及规模确定单元,用于确定数据来源及规模;
数据预处理单元,用于对数据进行预处理;
特征向量提取单元,用于根据预处理后的数据进行特征向量提取;
关联度分析单元,用于对提取的特征向量进行关联度分析并得到加权文本向量;
决策单元,用于对所述加权文本向量和评论特征压缩向量进行卷积操作,完成最终评论分类。
进一步的,特征向量提取单元用于根据预处理后的数据进行特征向量提取包括:
对预处理后的评论文本进行数据向量化,获取评论文本对应的句子向量表征;对评论文本对应的句子向量表征进一步编码及特征提取,得到评论文本的特征向量;
对压缩后的正文文本进行数据向量化,获取正文文本对应的句子向量表征;对正文文本对应的句子向量表征进一步编码及特征提取,得到正文文本的特征向量。
进一步的,关联度分析单元用于对提取的特征向量进行关联度分析并得到加权文本向量包括:
计算压缩后的正文文本各个句子特征向量和评论特征向量的相关性rij:rij=ci·sj,其中,ci表示第i个评论特征向量,sj表示第j个正文句子的特征向量;
计算第i个评论特征向量对于正文中每个句子j的相关度Rij:
计算加权文本向量Vi:Vi=∑jRij×Sj。
本发明的有益效果:
1、本发明在引入主体信息的同时,解决LDA模型训练过程复杂,且需要大量人工监督的难点,在评论情感分析的过程中,使用深度学习的方式引入了正文的文本信息,并且避免了使用LDA时所需要的人工监督的工作,且对于未登录的文本类别具有一定的发现及特征提取能力;并且使得模型具有一定程度的发现新主题的能力,同时能够对于同一文本下的不同评论,自行匹配与该评论相关度较高的正文信息,解决LDA无法细粒度化的问题;
2、本发明在引入正文信息的同时,通过计算正文各个句子同评论的相关度,获得正文的关联度特征向量,使得模型能够自适应的对于不同的评论提取出与该评论具有较高关联度的正文文本特征。该方法对于具有多个细粒度主题的正文文本具有更好的特征提取能力。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例中的融合正文文本信息的自适应评论情感分析方法流程示意图;
图2示出了本发明实施例中的融合正文文本信息的自适应评论情感分析方法具体流程示意图;
图3示出了本发明实施例中关联度分析具体流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明实施例中的融合正文文本信息的自适应评论情感分析方法流程示意图,图1中,方法包括以下步骤:
步骤a、确定数据来源及规模;
步骤b、对数据进行预处理;
步骤c、根据预处理后的数据进行特征向量提取;
步骤d、对提取的特征向量进行关联度分析并得到加权文本向量;
步骤e、对加权文本向量和评论特征压缩向量进行卷积操作,完成最终评论分类。
具体的,本发明的数据均为微博评论及对应的正文信息,通过爬虫的方式获取了约100万评论数据和其对应的正文数据。使用人工标注的方式标注了其中的部分数据(约30万条),并且使用这部分数据完成后续的模型训练。最终标注后的数据格式为如下的三元组关系:(正文文本,评论文本,评论分类),其中,评论分类通过对正文文本数据和评论文本数据分析得到。
图2示出了本发明实施例中的融合正文文本信息的自适应评论情感分析方法具体流程示意图,图2中,具体的,步骤b中对数据进行预处理具体包括正文文本和评论文本停用词过滤、正文文本长度压缩的步骤:对正文文本和评论文本使用结巴分词器进行分词,并使用哈工大停用词表对分词后的结果进行停用词过滤;调用TextRank4ZH中的TextRank算法模块,筛选出正文的关键句(取top30),以此完成对于正文文本的长度压缩。该步骤主要为了防止某些微博正文过长时导致的训练速度过慢问题,其中,TextRank表示一种常用的关键词、关键句提取算法。
步骤c中根据预处理后的数据进行特征向量提取包括分别对正文文本和评论文本进行特征向量提取的步骤。
具体的,对评论文本进行特征向量时:使用百度的开源Erine模型将预处理后的评论文本数据向量化(embedding),获取对应的句子向量表征;使用BiLSTM对句子的向量表征进行进一步的编码及特征提取,将编码后的输出向量记为句子的向量表征Vi(此时Vi的维度为seq_length*embedding_size);对于各个句子的向量表征Vi,取最后一个时间步作为评论文本的特征向量,并将该部分向量进行后续的关联度分析(此时维度为1*embedding_size)。
BiLSTM和时间步:双向长短时记忆网络(Long Short-Term Memory),一种常用的循环神经网络,用于处理存在时间前后倚赖的数据,如文本数据。其中,文本中的每一个字即为一个时间步。通常情况下,BiLSTM的输出中,最后一个时间步下的输出包含了整个序列的信息。
对正文文本进行特征向量时:对压缩后的正文文本进行数据向量化,获取正文文本对应的句子向量表征;对正文文本对应的句子向量表征进一步编码及特征提取,得到正文文本的特征向量。同评论文本进行特征向量相比,由于正文的文本长度通常大大多于评论(经过TextRank预处理后被限制在了30句以内),因此在进行句向量特征抽取时会一一抽取出这30句的句向量表征作为正文文本的特征向量,并将该部分向量进行后续的关联度分析。
步骤d中对提取的特征向量进行关联度分析并得到加权文本向量时,找到评论和正文之间的相关信息,并且依据正文各个句子同评论间的关联度提取出同该评论相关的正文信息特征以协助最终分类。图3示出了本发明实施例中关联度分析具体流程示意图。
图3中,定义ci为一篇文章下的第i个评论的句向量,sj为文章正文的第j个句子的句向量,其中ci及sj分别来自于模块二中提取出的评论和文本的向量表示。
第i个评论和第j个正文句子之间相关性的计算方式为:rij=ci·sj;
对于第i个评论,其对于正文中每个句子j的相关度Rij定义如下:
计算各个句子和评论的相关性,对相关性进行softmax概率归一,并计算其权重向量;
最终依据相关度Rij对文本中的句子向量加权求和,得到对于评论i的文本向量表征如下:Vi=∑jRij×Sj。
步骤e中,评论特征压缩向量通过评论文本特征向量依次使用max_pooling及average_pooling的方式获取,其中,max_pooling和average_pooling均表示卷积核,可以起到特征压缩的效果,能够提取出最为显著的特征(max_pooling)或是较为普遍的特征(average_pooling)。
具体的,步骤e中,对加权文本向量和评论特征压缩向量进行卷积操作,完成最终评论分类包括以下步骤:结合评论特征压缩向量(3*embedding_size)和加权文本向量(1*embedding_size),并将评论特征压缩向量和加权文本向量拼接形成维度为4*embedding_size的向量;使用不同的卷积核对于拼接后的特征向量进行卷积操作,并将卷积后的结果拼接作为全连接层的输入;接收全连接层输入结果,并使用全连接层完成最终的分类。
CNN和卷积:卷积神经网络,一种常用的特征提取器,主要通过不同的卷积核完成特定的特征提取目的。
本发明还提供一种融合正文文本信息的自适应评论情感分析***,***包括:
数据来源及规模确定单元,用于确定数据来源及规模;
数据预处理单元,用于对数据进行预处理;
特征向量提取单元,用于根据预处理后的数据进行特征向量提取;
关联度分析单元,用于对提取的特征向量进行关联度分析并得到加权文本向量;
决策单元,用于对加权文本向量和评论特征压缩向量进行卷积操作,完成最终评论分类。
具体的,特征向量提取单元用于根据预处理后的数据进行特征向量提取包括:
对预处理后的评论文本进行数据向量化,获取评论文本对应的句子向量表征;对评论文本对应的句子向量表征进一步编码及特征提取,得到评论文本的特征向量;
对压缩后的正文文本进行数据向量化,获取正文文本对应的句子向量表征;对正文文本对应的句子向量表征进一步编码及特征提取,得到正文文本的特征向量。
具体的,关联度分析单元用于对提取的特征向量进行关联度分析并得到加权文本向量包括:
计算压缩后的正文文本各个句子特征向量和评论特征向量的相关性rij:rij=ci·sj,其中,ci表示第i个评论特征向量,sj表示第j个正文句子的特征向量;
计算第i个评论特征向量对于正文中每个句子j的相关度Rij:
计算加权文本向量Vi:Vi=∑jRij×Sj。
具体的,决策单元接收关联度分析单元加权后的文本向量(1*embedding_size)及模块二中的评论向量(3*embedding_size),并将评论特征压缩向量和加权文本向量拼接形成维度为4*embedding_size的向量。
本发明在评论情感分析的过程中,使用深度学习的方式引入了正文的文本信息,并且避免了使用LDA时所需要的人工监督的工作,且对于未登录的文本类别具有一定的发现及特征提取能力。
本发明在引入正文信息的同时,通过计算正文各个句子同评论的相关度,获得正文的关联度特征向量,使得模型能够自适应的对于不同的评论提取出与该评论具有较高关联度的正文文本特征。该方法对于具有多个细粒度主题的正文文本具有更好的特征提取能力。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种融合正文文本信息的自适应评论情感分析方法,其特征在于,所述方法包括以下步骤:
步骤a、确定数据来源及规模,所述数据包括正文文本和评论文本;
步骤b、对数据进行预处理;
步骤c、根据预处理后的数据进行特征向量提取;
步骤d、对提取的特征向量进行关联度分析并得到加权文本向量;
步骤d中所述关联度分析获得加权文本向量具体包括以下步骤:
步骤d1、计算压缩后的正文文本各个句子特征向量和评论特征向量的相关性r ij:,其中,c i表示第i个评论特征向量,s j表示第j个正文句子的特征向量;
步骤d2、计算第i个评论特征向量对于正文中每个句子j的相关度R ij:;
步骤d3、计算加权文本向量V i:;
步骤e、对所述加权文本向量和评论特征压缩向量进行卷积操作,完成最终评论分类。
2.根据权利要求1所述的融合正文文本信息的自适应评论情感分析方法,其特征在于,步骤b中对数据进行预处理具体包括正文文本和评论文本停用词过滤、正文文本长度压缩的步骤。
3.根据权利要求1所述的融合正文文本信息的自适应评论情感分析方法,其特征在于,步骤c中根据预处理后的数据进行特征向量提取包括分别对正文文本和评论文本进行特征向量提取的步骤。
4.根据权利要求3所述的融合正文文本信息的自适应评论情感分析方法,其特征在于,对所述评论文本和所述正文文本进行特征向量提取具体包括以下步骤:
步骤c1、对预处理后的评论文本进行数据向量化,获取评论文本对应的句子向量表征;
步骤c2、对评论文本对应的句子向量表征进一步编码及特征提取,得到评论文本的特征向量;
步骤c3、对压缩后的正文文本进行数据向量化,获取正文文本对应的句子向量表征;
步骤c4、对正文文本对应的句子向量表征进一步编码及特征提取,得到正文文本的特征向量。
5.根据权利要求1所述的融合正文文本信息的自适应评论情感分析方法,其特征在于,步骤e中,所述评论特征压缩向量通过评论文本特征向量依次使用max_pooling及average_pooling的方式获取,其中,max_pooling和average_pooling均表示卷积核。
6.一种融合正文文本信息的自适应评论情感分析***,其特征在于,所述***包括:
数据来源及规模确定单元,用于确定数据来源及规模,所述数据包括正文文本和评论文本;
数据预处理单元,用于对数据进行预处理;
特征向量提取单元,用于根据预处理后的数据进行特征向量提取;
关联度分析单元,用于对提取的特征向量进行关联度分析并得到加权文本向量;
关联度分析单元用于对提取的特征向量进行关联度分析并得到加权文本向量包括:
计算压缩后的正文文本各个句子特征向量和评论特征向量的相关性r ij:,其中,c i表示第i个评论特征向量,s j表示第j个正文句子的特征向量;
计算第i个评论特征向量对于正文中每个句子j的相关度R ij:;
计算加权文本向量V i:;
决策单元,用于对所述加权文本向量和评论特征压缩向量进行卷积操作,完成最终评论分类。
7.根据权利要求6所述的融合正文文本信息的自适应评论情感分析***,其特征在于,特征向量提取单元用于根据预处理后的数据进行特征向量提取包括:
对预处理后的评论文本进行数据向量化,获取评论文本对应的句子向量表征;对评论文本对应的句子向量表征进一步编码及特征提取,得到评论文本的特征向量;
对压缩后的正文文本进行数据向量化,获取正文文本对应的句子向量表征;对正文文本对应的句子向量表征进一步编码及特征提取,得到正文文本的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011506610.0A CN112434516B (zh) | 2020-12-18 | 2020-12-18 | 一种融合正文文本信息的自适应评论情感分析***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011506610.0A CN112434516B (zh) | 2020-12-18 | 2020-12-18 | 一种融合正文文本信息的自适应评论情感分析***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434516A CN112434516A (zh) | 2021-03-02 |
CN112434516B true CN112434516B (zh) | 2024-04-26 |
Family
ID=74696783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011506610.0A Active CN112434516B (zh) | 2020-12-18 | 2020-12-18 | 一种融合正文文本信息的自适应评论情感分析***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434516B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN109033433A (zh) * | 2018-08-13 | 2018-12-18 | 中国地质大学(武汉) | 一种基于卷积神经网络的评论数据情感分类方法及*** |
CN109145112A (zh) * | 2018-08-06 | 2019-01-04 | 北京航空航天大学 | 一种基于全局信息注意力机制的商品评论分类方法 |
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析***及方法 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
CN110008311A (zh) * | 2019-04-04 | 2019-07-12 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
CN111177386A (zh) * | 2019-12-27 | 2020-05-19 | 安徽商信政通信息技术股份有限公司 | 一种提案分类方法及*** |
CN111259140A (zh) * | 2020-01-13 | 2020-06-09 | 长沙理工大学 | 一种基于lstm多实体特征融合的虚假评论检测方法 |
CN111310476A (zh) * | 2020-02-21 | 2020-06-19 | 山东大学 | 一种使用基于方面的情感分析方法的舆情监控方法和*** |
CN111914086A (zh) * | 2020-07-07 | 2020-11-10 | 广西科技大学 | 一种基于lstm神经网络的手机评论分析方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11700420B2 (en) * | 2010-06-07 | 2023-07-11 | Affectiva, Inc. | Media manipulation using cognitive state metric analysis |
-
2020
- 2020-12-18 CN CN202011506610.0A patent/CN112434516B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN109145112A (zh) * | 2018-08-06 | 2019-01-04 | 北京航空航天大学 | 一种基于全局信息注意力机制的商品评论分类方法 |
CN109033433A (zh) * | 2018-08-13 | 2018-12-18 | 中国地质大学(武汉) | 一种基于卷积神经网络的评论数据情感分类方法及*** |
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析***及方法 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
CN110008311A (zh) * | 2019-04-04 | 2019-07-12 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
CN111177386A (zh) * | 2019-12-27 | 2020-05-19 | 安徽商信政通信息技术股份有限公司 | 一种提案分类方法及*** |
CN111259140A (zh) * | 2020-01-13 | 2020-06-09 | 长沙理工大学 | 一种基于lstm多实体特征融合的虚假评论检测方法 |
CN111310476A (zh) * | 2020-02-21 | 2020-06-19 | 山东大学 | 一种使用基于方面的情感分析方法的舆情监控方法和*** |
CN111914086A (zh) * | 2020-07-07 | 2020-11-10 | 广西科技大学 | 一种基于lstm神经网络的手机评论分析方法及*** |
Non-Patent Citations (4)
Title |
---|
A Multi-model Fusion Framework based on Deep Learning for Sentiment Classification;Fen Yang et al;《2018 IEEE 22nd International Conference on Computer Supported Cooperative Work in Design ((CSCWD))》;20180916;1-5 * |
基于WMAB和CNN的网络评论方面级情感分析;沈远星;《中国优秀硕士学位论文全文数据库信息科技辑》;20200615(第6期);I138-1319 * |
基于动态池化和注意力的文本情感极性分类;杜梦豪 等;《 计算机工程与设计》;20190416;第40卷(第4期);1126-1132 * |
基于并行混合神经网络模型的短文本情感分析;陈洁 等;《计算机应用》;20190810;第39卷(第8期);2192-2197 * |
Also Published As
Publication number | Publication date |
---|---|
CN112434516A (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN107609009B (zh) | 文本情感分析方法、装置、存储介质和计算机设备 | |
US20220147836A1 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及*** | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN108984526A (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN112395393B (zh) | 一种基于多任务多示例的远程监督关系抽取方法 | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN110717324B (zh) | 裁判文书答案信息提取方法、装置、提取器、介质和设备 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN113657115B (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN111462752B (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN110851594A (zh) | 一种基于多通道深度学习模型的文本分类方法及其装置 | |
CN112036705A (zh) | 一种质检结果数据获取方法、装置及设备 | |
CN113593661A (zh) | 临床术语标准化方法、装置、电子设备及存储介质 | |
CN111653275A (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN112347269A (zh) | 基于BERT和Att-BiLSTM的论点对识别方法 | |
CN113051932A (zh) | 语义和知识扩展主题模型的网络媒体事件的类别检测方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、***、设备和存储介质 | |
CN112015903B (zh) | 题目判重方法、装置、存储介质、计算机设备 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及*** | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN115905187B (zh) | 一种面向云计算工程技术人员认证的智能化命题*** | |
CN112434516B (zh) | 一种融合正文文本信息的自适应评论情感分析***及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |