CN114911942A - 基于置信度的可解释性的文本情感分析方法、***及设备 - Google Patents

基于置信度的可解释性的文本情感分析方法、***及设备 Download PDF

Info

Publication number
CN114911942A
CN114911942A CN202210607887.5A CN202210607887A CN114911942A CN 114911942 A CN114911942 A CN 114911942A CN 202210607887 A CN202210607887 A CN 202210607887A CN 114911942 A CN114911942 A CN 114911942A
Authority
CN
China
Prior art keywords
confidence
data
deep learning
text
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210607887.5A
Other languages
English (en)
Other versions
CN114911942B (zh
Inventor
张思
翟佩云
惠柠
徐佳丽
刘清堂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202210607887.5A priority Critical patent/CN114911942B/zh
Publication of CN114911942A publication Critical patent/CN114911942A/zh
Application granted granted Critical
Publication of CN114911942B publication Critical patent/CN114911942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于置信度的可解释性的文本情感分析方法、***及设备,首先对预分析文本数据,进行数据预处理;然后将处理后的数据输入深度学习网络进行分类;接着构造置信分割器,定义置信函数,设置置信度阈值,将深度学习网络分类结果分为置信度强弱两部分;根据置信度强弱之分,置信度强的数据由深度学习网络分类,置信度弱的数据由增强网络分类;最后结合两个网络分类结果,输出最终的分类结果。本发明构建一种新网络模型框架RTS‑CF,通过RAKE快速抽取较长的关键词,简单高效;通过置信函数,将测试集分为置信度强弱两部分,结合增强网络对置信度弱的数据进行重新分类。利用增强网络优化神经网络的集成方法,可解释性强,提高整体分类性能。

Description

基于置信度的可解释性的文本情感分析方法、***及设备
技术领域
本发明属于文本数据挖掘技术领域,涉及一种文本情感分析方法、***及设备,具体涉及一种基于置信度的可解释性强的文本情感分析方法、***及设备。
背景技术
随着互联网技术的发展以及模型化深度学习的兴起,文本情感分析的研究越来越热门,相关研究不仅对科研人员,而且对日常生活也有着非常重要的实际意义,例如政府部门可以通过分析网络舆论情感倾向引导舆论发展,电商商家可以通过分析用户评论情感倾向了解用户偏好等。通过对各个领域的文本进行深入挖掘和分析,能更好地了解用户的兴趣爱好和情感偏向。
目前常用的文本情感分析方法包括基于词典的情感分类、基于传统机器学习的情感分析和基于深度学习的情感分析方法。深度神经网络模型在情感分类方面取得了显著效果。基于传统机器学习的分类方法虽在分类准确性方面略逊于深度学习方法,但是可解释性和时间复杂度方面有着自身的优势。采用深度学习方法与传统机器学习方法的集成方法,能提高整体的分类性能,可解释性强,并能实现对个人的情感倾向的掌握与了解,这样的一种分析建模方法是目前很少使用的,值得探索与尝试。采用RAKE能快速抽取一些较长的专业术语关键词,简单高效,在文本分类上取得不错的效果。
发明内容
本发明的目的在于提出一种基于置信度的可解释性强的文本情感分析方法、***及设备,利用增强模型优化深度神经网络的集成方法,提高整体的文本分类性能。
本发明的方法所采用的技术方案是:一种基于置信度的可解释性的文本情感分析方法,包括以下步骤:
步骤1:针对预分析文本数据,进行数据预处理;
步骤2:将预处理后的数据输入深度学习网络进行分类;
步骤3:构造置信分割器,定义置信函数,设置置信度阈值,将深度学习网络分类结果分为置信度强和置信度弱两部分;
所述置信函数
Figure BDA0003671058900000011
其中,d为预设值;mean(*)为均值函数;y1,y2表示深度学习网络softmax层的输出值,分别视为置信度强和置信度弱两部分的得分,其中
Figure BDA0003671058900000021
0<yi<1,∑yi=1;zi为第i个节点的输出值,作为softmax的输入值;n为输出节点的个数,即分类的类别个数;
Figure BDA0003671058900000022
表示所有预测结果之和;
步骤4:根据置信度的强弱之分,置信度强的数据由深度学习网络进行分类,置信度弱的数据由增强网络重新分类;
步骤5:结合深度学习网络和增强网络的结果,输出最终的分类结果。
本发明的***所采用的技术方案是:一种基于置信度的可解释性的文本情感分析***,包括以下模块:
模块1,用于针对预分析文本数据,进行数据预处理;
模块2,用于将预处理后的数据输入深度学习网络进行分类;
模块3,用于构造置信分割器,定义置信函数,设置置信度阈值,将深度学习网络分类结果分为置信度强和置信度弱两部分;
所述置信函数
Figure BDA0003671058900000023
其中,d为预设值;mean(*)为均值函数;y1,y2表示深度学习网络softmax层的输出值,可分别视为置信度强和置信度弱两部分的得分,其中
Figure BDA0003671058900000024
0<yi<1,∑yi=1;zi为第i个节点的输出值,作为softmax的输入值;n为输出节点的个数,即分类的类别个数;
Figure BDA0003671058900000025
表示所有预测结果之和;
模块4,用于根据置信度的强弱之分,置信度强的数据由深度学习网络进行分类,置信度弱的数据由增强网络重新分类;
模块5,用于结合深度学习网络和增强网络的结果,输出最终的分类结果。
本发明的设备所采用的技术方案是:一种基于置信度的可解释性的文本情感分析设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的基于置信度的可解释性的文本情感分析方法。
本发明包括如下技术效果:
(1)整个训练集训练过的深度学习模型R-TextCNN可以在情感分类方面取得显著效果。
(2)通过RAKE抽取关键词,可以提取到一些较长的专业术语关键词,且取得不错的效果。
(3)通过置信函数,可以将测试集分为置信度强和置信度弱两部分,结合传统机器学习模型对置信度弱的那部分数据进行重新分类。
(4)采用GridSearchCV自动调参,得到最优化参数。
(5)利用增强网络模型优化神经网络的集成方法,可解释性强,又可以提高整体分类性能。
附图说明
图1为本发明实施例的方法的流程图;
图2为本发明实例的深度学习网络结构图;
图3为本发明实例的softmax函数的计算过程图;
图4为本发明实例的增强网络结构图;
图5为本发明实例的增强网络的超平面图;
图6为本发明实例的RTS-CF网络结构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
教育文本挖掘是文本挖掘中不可忽视的领域。从简单的文本中挖掘和发现学***台起着重要的教学辅助手段,允许学习者自由发表个人观点和主观感受,以及和他人进行社会性互动。文本是其中最简单也最普遍的交互方式。在这里,站在情感角度,可以通过发表的观点,从文本中分析学习者的情感倾向,及时了解学习者整个学习状态,为教师反馈和干预提供可能。
请见图1,本发明提供的一种基于置信度的可解释性的文本情感分析方法,包括以下步骤:
步骤1:针对预分析文本数据,进行数据预处理;
本实施例中,步骤1的具体实现包括以下子步骤:
步骤1.1:将获取的文本数据整理成所需的数据类型,存储在txt文件中;
步骤1.2:读写文本文件内容,去除空格及其他无用的符号,以备后续使用;
本实施例中,为了后续的分类工作,需要将数据处理成txt文件,用于读取文本内容,去除除中文、指定标点符号以外的符号,并存入新的txt文件中。
步骤2:将预处理后的数据输入深度学习网络进行分类;
请见图2,本实施例的深度学习网络R-TextCNN,包括RAKE抽取关键词层、关键词嵌入层、卷积层、最大池化层和全连接的softmax层;
本实施例的RAKE抽取关键词层,是一种快速自动抽取关键词的方法。利用指定的标点符号,如句号、问号、感叹号、逗号等将文本分成若干句;对于每一个分句,使用停用词作为分隔符将句子分成若干个短语,这些短语即为待排序的候选词;每个短语由若干个字组成,为每个字赋予一个得分,通过累加得到每个短语的得分,
Figure BDA0003671058900000041
其中deg为每个字的度,指该字在文本中所有字在候选关键词中的共现次数,freq为每个字的词频;对这些提取的候选关键词从大到小排序;最后输出排序得分靠前的几个短语作为关键词;
本实施例的关键词嵌入层,将抽取到关键词转化成embedding表示。将n个映射为词向量的单词连接成一句话。长度为n的句子表示为:x1:n=x1⊕x2⊕...⊕xn;其中,xi∈RK为句子中第i个单词对应的k维单词向量;⊕是连接操作;xi:i+j表示单词xi,xi+1,...,xi+j的连接;
本实施例的卷积层,使用一个宽度为d,高度为h的卷积核w与xi:i+h-1(h个词)进行卷积操作后,再使用激活函数激活得到相应的特征ci,则卷积操作表示为ci=f(w.xi:i+h-1+b);其中,w为初始化权重,b为偏置项,h为滤波器窗口长度;经过卷积操作后,得到一个n-h+1维的向量c:c=[c1,c2,...,ci,...,cn-h+1];其中,n为每句话的词数;
本实施例的最大池化层,对卷积后得到的若干个一维向量取最大值,然后拼接在一块,作为本层的输出值:z={z1,z2,z3,...,zi,...,zm};其中,zi=max{ci};
本实施例的全连接的softmax层,将z送入全连接的softmax层,得出句子的标签概率分布:
Figure BDA0003671058900000042
其中,yi为labeli对应的预测分值,wi为全连接层的权重;labeli为第i个分类标签。
本实施例采用的深度学习网络,是训练好的深度学习网络;其训练过程包括以下子步骤:
(1)采集训练数据文本集,并将文本和标签按照样本占比,分为训练集和测试集;
本实施例通过train_test_split()函数将数据集分为训练集和测试集,设置样本占比test_size。例如,有100个数据,test_size=0.2,那么训练集占80%,为80个,测试集占20%,为20个。
(2)创建嵌入矩阵,通过嵌入索引,得到嵌入向量,将其赋值到嵌入矩阵中,并加载预训练的词嵌入到嵌入层;
(3)使用训练集训练深度学习网络;
(4)训练完数据后,将深度学习网络保存,用于对测试集的预测分类。
步骤3:构造置信分割器,定义置信函数,设置置信度阈值,将深度学习网络分类结果分为置信度强和置信度弱两部分;
本实施例采用的置信函数
Figure BDA0003671058900000051
其中,d为深度学***稳时的迭代次数为基准,在此基础上每增加一个迭代间隔训练一次模型用于测试数据;若最小间隔=5,迭代次数基准=50,训练次数d=3,则深度学习网络需要在迭代次数为55,60,65时分别进行训练并测试;mean(*)为均值函数;y1,y2表示深度学习网络softmax层的输出值,可分别视为置信度强和置信度弱两部分的得分,其中
Figure BDA0003671058900000052
0<yi<1,∑yi=1;zi为第i个节点的输出值,作为softmax的输入值;n为输出节点的个数,即分类的类别个数;
Figure BDA0003671058900000053
表示所有预测结果之和;
请见图3,本实施例采用的softmax函数,又称归一化指数函数,是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来,计算过程包括以下子步骤:
(1)将预测结果转化为非负数:将模型的预测结果z={z1,z2,...,zi,...,zn}转化到指数函数f(x)=exp(x)上,保证概率的非负性。
(2)各种预测结果概率之和等于1:为确保概率之和等于1,需将转换后的结果进行归一化处理。方法是将转化后的结果exp(zi)除以所有转化后结果之和
Figure BDA0003671058900000054
得到近似的概率
Figure BDA0003671058900000055
本实施例中,softmax层得到两个分类得分后,自定义一个直观的置信函数,通过置信度强弱,分成两类数据,一类为置信度强的数据,即两类得分差距大,分类效果好的数据;一类为置信度弱的数据,即两类得分差距不大,不好分类的一部分数据。
步骤4:根据置信度的强弱之分,置信度强的数据由深度学习网络进行分类,置信度弱的数据由增强网络重新分类;
请见图4,本实施例的由增强网络进行分类,包括设置调参起点、GridSearchCV、训练SVM、分类结果;
本实施例的设置调参起点,先设置惩罚参数C和核函数参数gamma值在0.1~100之间,根据增强网络模型表现,每次乘以0.1或者10作为一个步长;当确定大致范围后,再细化搜索区间;
本实施例的GridSearchCV,在细化后搜索区间的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。最终表现的好坏与初始数据的划分的结果有很大关系,所以采用交叉验证法减少偶然性;
本实施例的训练SVM,参数调优之后,调用sklearn.svm中的SVC来训练增强网络模型,训练的时候同时要设置之前参数调优得到的结果,最终得到一个训练好的增强网络模型;
本实施例的分类结果,加载训练好的增强网络模型,使用训练好的SVM对置信度弱的数据预测分类,得到分类结果。
请见图5,本实施例的增强网络的超平面图;
本实施例中,在特征空间中找到一个最大的超平面,使得所有样本到该平面的距离最大(求样本集合到平面的距离,也就是求最近的样本点到超平面的距离),我们的学***面,让这个距离最大。求解参数α采用SMO算法,每次循环中选择两个α进行优化处理,一旦找到一对在间隔边界之外且还没有进行过区间化处理或者不在边界上的α,那么就增大其中一个同时减小另一个,直到全部的αi满足此优化问题的KKT条件以及约束条件。
下面进一步阐述其分类实现过程;
D={(x1,y1),(x2,y2),...,(xm,ym)}
给定样本集:yi={-1,+1};其中,xi为属性,yi为类标签。目的:寻找一个最优(泛化能力最强)的超平面,将不同类别的样本分开。
待训练的目标超平面:ws Tx+bs=0;其中,ws为法向量,bs为位移项。
任意点x到超平面(ws,bs)的距离为:
Figure BDA0003671058900000071
如果超平面将样本成功分类,则下式成立:
Figure BDA0003671058900000072
使等号成立的几个样本点称为“支持向量”,两个异类支持向量到超平面的距离之和为:
Figure BDA0003671058900000073
其被称为“间隔”。
找到具有“最大间隔”的超平面,即
Figure BDA0003671058900000074
可以知道,最大化||ws||-1等价于最小化||ws||2,将上式重写为:
Figure BDA0003671058900000075
该式为SVM的“基本型”。
求解上式来得到模型:f(x)=ws Tx+bs
对式子中的每条约束加上拉格朗日乘子αii大于等于0),得到:
Figure BDA0003671058900000076
令L分别对ws和bs的偏导为0,得:
Figure BDA0003671058900000077
代入上式中,得到SVM“基本型”的对偶问题:
Figure BDA0003671058900000078
求ws(即求α)和bs,得模型:
Figure BDA0003671058900000081
上述过程需满足KKT条件。
使用SMO算法求取α,使用支持向量的性质求bs
本实施例中,对于置信度弱的那部分数据,采用传统机器学习的方法,作为增强模型,为其重新分类。传统机器学习方法具有可解释性强的特点。
步骤5:结合深度学习网络和增强网络的结果,输出最终的分类结果。
请见图6,为RTS-CF网络结构图;
本实施例中,首先,对文本数据进行数据类型及内容的处理;其次,RAKE抽取关键词,依次进入关键词嵌入层、卷积层、最大池化层以及全连接的softmax层进行分类;然后,进入置信分割器,通过置信函数
Figure BDA0003671058900000082
分为置信度强和置信度弱的结果,通过索引找到对应的文本以及标签,得到置信度强的列表数据和置信度弱的列表数据;接着,置信度强的数据进入深度学习网络进行分类,置信度弱的数据进入增强网络进行分类;最后,将两个网络的分类结果通过concatenate()函数合并,得到最终预测结果。
本发明的方法是对个人发出的文本进行情感分类。首先,加载数据,对数据预处理;利用整个训练数据训练深度学习网络模型(也可以采用现有的TextCNN、RNN等模型),并对测试数据进行分类;构造一个置信分割器,定义一个置信函数,将深度学习网络模型分类结果分为置信度强和置信度弱两部分;根据置信度的强弱之分,置信度高的数据由深度学习网络模型进行分类,置信度弱的数据由增强网络模型(也可以采用现有的朴素贝叶斯、SVM、具有朴素贝叶斯特征的SVM等)将其重新分类,该增强模型是传统机器学习模型;最后,结合深度学习网络模型和增强网络模型的结果,输出最终的分类结果。本发明可以获得个人发出文本的情感倾向以及了解个人的兴趣主题。本发明采用深度学习方法与机器学习方法的集成方法,以提高整体的分类性能为目的,实现对个人的情感倾向的掌握与了解,这样的一种建模方法是目前很少使用的,值得探索与尝试。采用RAKE快速提取关键词,简单高效,能够提取一些较长的专业术语关键词,且属于无监督方法,不需要大量标注数据。在今后的探究工作中,可以尝试寻找其他有效的置信函数,并将该框架应用于其他模型,研究其有效性和适用性。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于置信度的可解释性的文本情感分析方法,其特征在于,包括以下步骤:
步骤1:针对预分析文本数据,进行数据预处理;
步骤2:将预处理后的数据输入深度学习网络进行分类;
步骤3:构造置信分割器,定义置信函数,设置置信度阈值,将深度学习网络分类结果分为置信度强和置信度弱两部分;
所述置信函数
Figure FDA0003671058890000011
其中,d为预设值;mean(*)为均值函数;y1,y2表示深度学习网络softmax层的输出值,分别视为置信度强和置信度弱两部分的得分,其中
Figure FDA0003671058890000012
zi为第i个节点的输出值,作为softmax的输入值;n为输出节点的个数,即分类的类别个数;
Figure FDA0003671058890000013
表示所有预测结果之和;
步骤4:根据置信度的强弱之分,置信度强的数据由深度学习网络进行分类,置信度弱的数据由增强网络重新分类;
步骤5:结合深度学习网络和增强网络的结果,输出最终的分类结果。
2.根据权利要求1所述的基于置信度的可解释性的文本情感分析方法,其特征在于:步骤1中数据预处理,首先,将获取的文本数据整理成所需的数据类型,存储在txt文件中;读写文本文件内容,去除空格及其他无用的符号,以备后续使用。
3.根据权利要求1所述的基于置信度的可解释性的文本情感分析方法,其特征在于:步骤2中所述深度学习网络R-TextCNN包括RAKE抽取关键词层、关键词嵌入层、卷积层、最大池化层和全连接的softmax层;
所述RAKE抽取关键词层,利用指定的标点符号,将文本分成若干句;对于每一个分句,使用停用词作为分隔符将句子分成若干个短语,这些短语即为待排序的候选词;每个短语由若干个字组成,为每个字赋予一个得分,通过累加得到每个短语的得分,
Figure FDA0003671058890000014
其中deg为每个字的度,指该字与文本中所有字在候选关键词中的共现次数,freq为每个字的词频;对这些提取的候选关键词从大到小排序;最后输出排序得分靠前的几个短语作为关键词;
所述关键词嵌入层,将抽取到关键词转化成embedding表示;将n个映射为词向量的单词连接成一句话;长度为n的句子表示为:
Figure FDA0003671058890000021
其中,xi∈RK为句子中第i个单词对应的k维单词向量;
Figure FDA0003671058890000022
是连接操作;xi:i+j表示单词xi,xi+1,...,xi+j的连接;
所述卷积层,使用宽度为d,高度为h的卷积核w与xi:i+h-1进行卷积操作后,再使用激活函数激活得到相应的特征ci,则卷积操作表示为ci=f(w.xi:i+h-1+b);其中,f为激活函数,w为初始化权重,b为偏置项,h为滤波器窗口长度;经过卷积操作后,得到一个n-h+1维的向量c:c=[c1,c2,...,ci,...,cn-h+1];其中,n为每句话的词数;
所述最大池化层,对卷积后得到的若干个一维向量取最大值,然后拼接在一块,作为本层的输出值:z={z1,z2,z3,...,zi,...,zm};其中,zi=max{ci};
所述全连接的softmax层,将z送入全连接的softmax层,得出句子的标签概率分布
Figure FDA0003671058890000023
其中,yi为labeli对应的预测分值,wi为全连接层的权重;labeli为第i个分类标签。
4.根据权利要求1所述的基于置信度的可解释性的文本情感分析方法,其特征在于:步骤4中所述由增强网络重新分类,包括设置调参起点、GridSearchCV、训练SVM、分类结果;
所述设置调参起点,先设置惩罚参数C和核函数参数gamma值在0.1~100之间,根据增强网络模型表现,每次乘以0.1或者10作为一个步长;当确定大致范围后,再细化搜索区间;
所述GridSearchCV,在细化后搜索区间的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果;
所述训练SVM,参数调优之后,调用sklearn.svm中的SVC来训练增强网络模型,训练的时候同时要设置之前参数调优得到的结果,最终得到一个训练好的增强网络模型;
所述分类结果,加载训练好的增强网络模型,使用训练好的SVM对置信度弱的数据预测分类,得到分类结果。
5.根据权利要求1-4任意一项所述的基于置信度的可解释性的文本情感分析方法,其特征在于:步骤5中将两个网络的分类结果通过concatenate()函数合并,得到最终预测结果。
6.一种基于置信度的可解释性的文本情感分析***,其特征在于,包括以下模块:
模块1,用于针对预分析文本数据,进行数据预处理;
模块2,用于将预处理后的数据输入深度学习网络进行分类;
模块3,用于构造置信分割器,定义置信函数,设置置信度阈值,将深度学习网络分类结果分为置信度强和置信度弱两部分;
所述置信函数
Figure FDA0003671058890000031
其中,d为预设值;mean(*)为均值函数;y1,y2表示深度学习网络softmax层的输出值,分别视为置信度强和置信度弱两部分的得分,其中
Figure FDA0003671058890000032
zi为第i个节点的输出值,作为softmax的输入值;n为输出节点的个数,即分类的类别个数;
Figure FDA0003671058890000033
表示所有预测结果之和;
模块4,用于根据置信度的强弱之分,置信度强的数据由深度学习网络进行分类,置信度弱的数据由增强网络重新分类;
模块5,用于结合深度学习网络和增强网络的结果,输出最终的分类结果。
7.一种基于置信度的可解释性的文本情感分析设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的基于置信度的可解释性的文本情感分析方法。
CN202210607887.5A 2022-05-31 2022-05-31 基于置信度的可解释性的文本情感分析方法、***及设备 Active CN114911942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210607887.5A CN114911942B (zh) 2022-05-31 2022-05-31 基于置信度的可解释性的文本情感分析方法、***及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210607887.5A CN114911942B (zh) 2022-05-31 2022-05-31 基于置信度的可解释性的文本情感分析方法、***及设备

Publications (2)

Publication Number Publication Date
CN114911942A true CN114911942A (zh) 2022-08-16
CN114911942B CN114911942B (zh) 2024-06-18

Family

ID=82770893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210607887.5A Active CN114911942B (zh) 2022-05-31 2022-05-31 基于置信度的可解释性的文本情感分析方法、***及设备

Country Status (1)

Country Link
CN (1) CN114911942B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN109597891A (zh) * 2018-11-26 2019-04-09 重庆邮电大学 基于双向长短时记忆神经网络的文本情感分析方法
US20210216880A1 (en) * 2019-01-02 2021-07-15 Ping An Technology (Shenzhen) Co., Ltd. Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on textcnn
CN113656548A (zh) * 2021-08-18 2021-11-16 福州大学 基于数据包络分析的文本分类模型解释方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN109597891A (zh) * 2018-11-26 2019-04-09 重庆邮电大学 基于双向长短时记忆神经网络的文本情感分析方法
US20210216880A1 (en) * 2019-01-02 2021-07-15 Ping An Technology (Shenzhen) Co., Ltd. Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on textcnn
CN113656548A (zh) * 2021-08-18 2021-11-16 福州大学 基于数据包络分析的文本分类模型解释方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王庆林;李晗;庞良健;徐新胜;: "基于全局语义学习的文本情感增强方法研究", 科学技术与工程, no. 21, 28 July 2020 (2020-07-28) *

Also Published As

Publication number Publication date
CN114911942B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN109753566B (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
CN107229610B (zh) 一种情感数据的分析方法及装置
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN109325231B (zh) 一种多任务模型生成词向量的方法
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及***
CN106980608A (zh) 一种中文电子病历分词和命名实体识别方法及***
CN111985247B (zh) 一种基于多粒度文本特征表示的微博用户兴趣识别方法和***
CN112364638B (zh) 一种基于社交文本的人格识别方法
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和***
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及***
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN115168574A (zh) 一种多价值链问题文本分类方法和装置
CN111753088A (zh) 一种自然语言信息的处理方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及***
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
CN113312907B (zh) 基于混合神经网络的远程监督关系抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant