CN107944014A - 一种基于深度学习的中文文本情感分析方法 - Google Patents
一种基于深度学习的中文文本情感分析方法 Download PDFInfo
- Publication number
- CN107944014A CN107944014A CN201711307041.5A CN201711307041A CN107944014A CN 107944014 A CN107944014 A CN 107944014A CN 201711307041 A CN201711307041 A CN 201711307041A CN 107944014 A CN107944014 A CN 107944014A
- Authority
- CN
- China
- Prior art keywords
- chinese
- lstm
- sentence
- text
- sentiment analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的中文文本情感分析方法,对网络文本进行获取,合理设计中文句子到数学向量的转换逻辑,首先用中文分词技术结合词向量学习工具构造词向量词典,然后用LSTM‑MP模型进行句向量转化,最终通过Softmax分类器将代表句向量进行正负面情感分类,达到情感分析的目的,该算法分类准确率高、效率高、灵活度高且避免了有监督学习方法的大量人工作业,有效地提高了文本情感倾向分类的效率和正确率,自动化集成度高节省大量人力。
Description
技术领域
本发明涉及一种基于深度学习的中文文本情感分析方法,属于自然语言处理和深度学习技术领域。
背景技术
互联网的迅速发展使微博和社交网络成为流行的沟通交流形式。数以亿计反映人们观点和态度的信息每天通过Twitter、Facebook等平台发布并和所有人分享,这就给监控和分析私人企业或社会公共领域观点、情绪提供了机会。
文本情感分析是对人们的观点、情绪、态度以及对诸如产品、服务、组织、事件等实体情感倾向做出有效分析然后进一步做信息归纳推理的一类技术。针对网络媒介产生的海量数据,提取出有价值的情绪和观点,并对其做出准确的文本情感分析,在诸多领域都有应用价值,例如:企业可以依据与其产品相关的反馈情绪进行售后服务调整及市场策略制定;政府可以根据社交平台的大量文本情绪分析制定出更加符合群众需求的政策制度;金融方面也可以根据各种金融消息的情绪观点提取挖掘进行某一金融市场的趋势预测等。
文本(英文)情感分析方面的研究在国外进行的比较早,成果也比较成熟,比如:Turney和Pang分别用不同的方法实现产品和电影评论的极性分类,随后Pang和Snyder又将多种方法结合再次进行了尝试。除此之外,Pang和Lee还将电影评论的极性分类基础任务扩展到了星级评定预测,同时Snyder将饭店评论做深层分析后用来预测饭店各方面的等级评定例如食物、环境等(共5个等级)。Gruhl等人通过对在线网络聊天信息的情感分析预测图书销售趋势,Mishne等人从博客中抓取具有情绪的信息来预测电影票房。然而由于英文与中文文本结构的差异性,中文文本的情感分析研究难度要大得多,再加上起步晚、标注文本预料有限、技术方法落后等因素,中文文本情感分析的研究仍有很大的提升空间。
目前中文文本情感分析方法目前大部分基于规则和有监督基于机器学***限制;(2)一些方法在句子特征提取时,凭经验人为进行特征选取,因此情感分析效果受人为因素影响比较大等。
发明内容
为了解决上述技术问题,本发明提供了一种基于深度学习的中文文本情感分析方法。
为了达到上述目的,本发明所采用的技术方案是:
一种基于深度学习的中文文本情感分析方法,包括以下步骤,
步骤1,训练LSTM-MP模型和Softmax分类器;
具体过程如下:
获取网络文本;
对获得的网络文本进行预处理,得到网络文本中的中文句子;
对中文句子进行中文分词并构建词向量词典;
将若干中文句子进行人工标注,作为LSTM-MP模型实验数据,其余中文句子作为LSTM-MP模型训练数据;
用LSTM-MP模型训练数据训练LSTM-MP模型;
用训练好的LSTM-MP模型将LSTM-MP模型实验数据全部转换为句向量;
将若干句向量作为Softmax分类器训练数据,其余句向量作为Softmax分类器测试数据;
用Softmax分类器训练数据训练Softmax分类器,用Softmax分类器测试数据测试训练好的Softmax分类器;
步骤2,用训练好的LSTM-MP模型和Softmax分类器进行情感分析。
设计多线程爬虫进行网络文本获取的过程为,
选取适当的网站首页URL初始化爬虫的URL列表;
获取各网站首页的HTML文档,解析出HTML文档中消息对应的URL,对消息对应的URL去重后添加至URL列表;
若有新发布的消息,则将新消息对应的URL添加至URL列表;
根据URL获取对应的HTML文档;
将获取到的HTML文档,利用信息抽取技术进行信息抽取,抽取出页面的信息正文部分后,按照制定格式存入本地数据库。
网络文本进行预处理的过程为,对网络文本中的转义符进行替换,对网络文本中的不规范标点符号进行替换。
对中文句子进行中文分词并构建词向量词典,具体过程为,
对中文句子进行中文分词;
词向量学习工具调试;
将中文分词得到的中文词语输入词向量学习工具,进行词向量词典构建。
选用最佳匹配法进行中文分词。
将LSTM-MP模型训练数据转换为词向量序列,然后训练LSTM-MP模型;
将LSTM-MP模型实验数据转换为词向量序列,然后用训练好的LSTM-MP模型将其转换为句向量。
用训练好的LSTM-MP模型和Softmax分类器进行情感分析的过程为,
获取需分析的网络文本;
对需分析的网络文本进行预处理,得到需分析的中文句子;
对需分析的中文句子进行中文分词并构建词向量词典;
将需分析的中文句子转换为词向量序列;
用训练好的LSTM-MP模型将词向量序列转换为句向量;
用训练好的Softmax分类器将句向量进行情绪分类。
本发明所达到的有益效果:本发明对网络文本进行获取,合理设计中文句子到数学向量的转换逻辑,首先用中文分词技术结合词向量学习工具构造词向量词典,然后用LSTM-MP模型进行句向量转化,最终通过Softmax分类器将代表句向量进行正负面情感分类,达到情感分析的目的,该算法分类准确率高、效率高、灵活度高且避免了有监督学习方法的大量人工作业,有效地提高了文本情感倾向分类的效率和正确率,自动化集成度高节省大量人力。
附图说明
图1为本发明的流程图;
图2为多线程爬虫结构图;
图3为递归神经网络结构图;
图4为LSTM结构图;
图5为LSTM-MP结构图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,1、一种基于深度学习的中文文本情感分析方法,包括以下步骤:
步骤1,训练LSTM-MP模型和Softmax分类器;
具体过程如下:
A)设计多线程爬虫(如图2所示)进行网络文本获取,具体步骤如下:
A1)选取适当的网站首页URL初始化爬虫的URL列表;
经过收集调查,选取具有情感观点的文本内容来源——百度新闻、新浪财经、京东等商城评论,用网站首页URL初始化爬虫的URL列表。
A2)获取各网站首页的HTML文档,解析出HTML文档中消息对应的URL,为防止数据重复影响分析结果,对消息对应的URL进行去重后添加至URL列表,若有新发布的消息,则将新消息对应的URL添加至URL列表。
A3)根据URL获取对应的HTML文档,队列管理调度根据线程的空闲情况给下载队列URL分配线程。
A4)将获取到的HTML文档,利用信息抽取技术进行信息抽取,抽取出页面的信息正文部分后,按照制定格式存入本地数据库。
B)对获得的网络文本(HTML文本)进行预处理,得到网络文本中的中文句子。
一些特殊符号为了与HTML文本中的关键符号进行区分会被转义,因此获取到的HTML文本需要对转义符号进行替换,具体如表1所示。
表1转义符号替换
由于词语之间没有分隔符,再加上网络文本不够规范,中英文标点符号混用,全角半角混搭等,分词是有难度的,为了提高分词的正确率,将网络文本的不规范标点符号进行替换,具体如表2所示。
表2标点符号替换
替换前标点 | 替换后标点 |
【】 | [] |
, | , |
. | 。 |
C)对中文句子进行中文分词并构建词向量词典,具体步骤如下:
C1)选用最佳匹配法进行中文分词。所谓最佳匹配法就是在正向最大匹配的基础上进行效率优化的一种方法,正向最大匹配的基本步骤是:首先定义词语最大长度为4,然后从左到右开始进行4字匹配,如果词典匹配成功则继续,不成功则从后边减掉一个字继续匹配直到匹配成功或只剩一个单字,最佳匹配就是在此基础上将词典的词序按照出现概率大小进行排序,出现概率大的排在前面,这样在词语匹配时效率更高。
C2)词向量学习工具调试。
在词向量学习之前需要对学习工具word2vec进行调试,选取不同参数(采样率、线程数、窗口大小等)反复测试,调试过程中确定的最优参数为:窗口大小5,采样阈值500,线程数12,词向量维度50。
C3)将中文分词得到的中文词语输入词向量学习工具word2vec,进行词向量词典构建,具体命令为:./word2vec–train/home/exer/gold.txt–output/home/exer/golddic.txt–cbow 0–size 50–window 5–negative 0–hs 1–sample 500–thread 12–binary 0。
D)将若干中文句子进行人工标注,作为LSTM-MP模型实验数据,其余中文句子作为LSTM-MP模型训练数据。
假设有48786条中文句子,那么34150条作为LSTM-MP模型训练数据,14636条作为LSTM-MP模型实验数据,LSTM-MP模型实验数据大概占30%。
E)用LSTM-MP模型训练数据训练LSTM-MP模型,具体步骤如下:
E1)LSTM-MP模型设计。
LSTM模型改进自递归神经网络。每个句子都是有不同数量的词语构成,假设词语数量为n,而每个词向量的维度是固定为m,那每个句子的向量维度为n×m,因为n是变化的,所以n×m就不能固定,不能用普通的前馈神经网络进行训练,而递归神经网络的出现很好的解决了这个问题,它允许句子词语递归循环输入。
但是递归神经网络也存在问题,当句子过长,递归的层数过多会造成整个网络的梯度消失或***,而LSTM就成了这个问题的解决者,它继承了递归网络模型的结构模式弥补了其缺点,引入了记忆单元作为计算节点,避免了梯度消失问题,一个记忆单元由4部分组成:一个输入门,一个带自连接的神经单元,一个输出门和一个遗忘门。输入门可以决定输入信号是否可以影响并改变记忆单元的当前状态,而输出门则可以决定当前记忆单元的状态是否要对其他与其相连的单元状态产生影响,遗忘门可以通过调节当前自连接来决定是否忘记(清除)此记忆单元的前一状态。
递归子编码是具体结构如图3所示,将一个句子表示为一个向量列表A(x1,x2,x3,...,xn),其中x1,x2,x3,...,xn为构成句子的词向量,先把xn与xn-1拼接为2m维向量(xn-1,xn),作为2m个节点的输入层,然后定义隐藏层节点数为m(与词向量维度相同),输出层当然也是2m节点,计算后得到隐藏层输出h1,再用第一层得到的h1与xn-2拼接为新的2m维向量(xn-2,h1)作为第二层隐藏层的输入,重复步骤n-1次,直到n个词向量全部计算完毕得到一个与词向量维度相同的整个句子的向量s,其维度与词向量相同。
这个过程中,一个句子被分解为了一个二叉树结构,每一次递归是一个三元组,由两个子节点和一个父节点组成(P,C1C2),其中C1,C2是两个词向量x1,x2对应的词,P是由x1,x2计算得到的隐藏层输出对应的词。三元组中子节点对应的可能是词向量xi,i∈[1,n],也可能是非终端位置的节点。首先第一个节点h1向量是由(C1.C2)=(x4.x5)((.)代表两个词向量的组合)计算得到的:
p=f(W(1)[C1;C2]+b(1))
其中W(1)是m×2m的系数矩阵,b(1)为偏置量,函数f为激活函数双曲正切tanh函数,p是隐藏层输出,[C′1;C′2]表示重构后的词向量组对应的词组,如果将[C′1;C′2]的重构可以表示为:
[C′1;C′2]=W(2)p+b(2)
其中,C′1,C′2是重构后的词向量对应的词,W(2)是2m×m的系数矩阵,b(2)为重构偏置量。
在训练过程中要将重构误差降到最小,用输入和重构之间的欧氏距离衡量它们之间的误差为:
其中,Erec()是用来衡量输入和重构之间误差的标准。
这就是一次递归的计算过程现在我们得到了h1,那么(C1.C2)=(x3.h1)就是下一个输入,重复上述计算步骤直到得到句子的向量表示s。
LSTM是在递归自编码基础上引入记忆单元进行改进,以应对其梯度消失的缺陷,按照与递归子编码相同的输入逻辑当最后一个词wn输入完成后,hn为LSMT的输出如图4所示,一般认为将最后一个词向量作为输出后得到的最终的输出可以作为整个句子的向量表示进行分类训练,但经过试验证明这样得到的结果并不如人意,在LSTM的基础上添加平均池化层进行改进如图5所示。LSTM-MP不以最终的输出hn为句向量表示,而是将LSTM所有记忆单元的输出输入平均池化层,从而得到最终的句向量
E2)将中文句子转换为词向量序列。中文句子分词后保持原顺序不变,构成中文词语序列,然后按照构建好的词向量词典一一对应找到每个词的词向量,将中文词语序列转换为词向量序列。
E3)用LSTM-MP模型训练数据转换后的词向量序列训练LSTM-MP模型。
F)将LSTM-MP模型实验数据转换为词向量序列,然后用训练好的LSTM-MP模型将其转换为句向量。
G)将若干句向量作为Softmax分类器训练数据,其余句向量作为Softmax分类器测试数据。这里70%作为Softmax分类器训练数据,30%作为Softmax分类器测试数据。
H)用Softmax分类器训练数据训练Softmax分类器;用Softmax分类器测试数据测试训练好的Softmax分类器,即将Softmax分类器测试数据输入Softmax分类器,将分类结果与人工标注进行比对,如果准确率不低于设定的阈值,则认为Softmax分类器训练完成。
步骤2,用训练好的LSTM-MP模型和Softmax分类器进行情感分析,具体步骤为:
21)获取需分析的网络文本;
22)对需分析的网络文本进行预处理,得到需分析的中文句子;
23)对需分析的中文句子进行中文分词并构建词向量词典;
24)将需分析的中文句子转换为词向量序列,
25)用训练好的LSTM-MP模型将词向量序列转换为句向量;
26)用训练好的Softmax分类器将句向量进行情绪分类。
上述方法对网络文本进行获取,合理设计中文句子到数学向量的转换逻辑,首先用中文分词技术结合词向量学习工具构造词向量词典,然后用LSTM-MP模型进行句向量转化,最终通过Softmax分类器将代表句向量进行正负面情感分类,达到情感分析的目的,该算法分类准确率高、效率高、灵活度且避免了有监督学习方法的大量人工作业,有效的提高文本情感倾向分类的效率和正确率,自动化集成度高节省大量人力;该方法整体准确率为78.02%,其中积极情绪的分类准确率达到77.58%,召回率为81.19%,F-measure为79.10%;看跌情绪的分类准确率达到78.55%,召回率为74.59%,F-measure为74.55%。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (7)
1.一种基于深度学习的中文文本情感分析方法,其特征在于:包括以下步骤,
步骤1,训练LSTM-MP模型和Softmax分类器;
具体过程如下:
获取网络文本;
对获得的网络文本进行预处理,得到网络文本中的中文句子;
对中文句子进行中文分词并构建词向量词典;
将若干中文句子进行人工标注,作为LSTM-MP模型实验数据,其余中文句子作为LSTM-MP模型训练数据;
用LSTM-MP模型训练数据训练LSTM-MP模型;
用训练好的LSTM-MP模型将LSTM-MP模型实验数据全部转换为句向量;
将若干句向量作为Softmax分类器训练数据,其余句向量作为Softmax分类器测试数据;
用Softmax分类器训练数据训练Softmax分类器,用Softmax分类器测试数据测试训练好的Softmax分类器;
步骤2,用训练好的LSTM-MP模型和Softmax分类器进行情感分析。
2.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法,其特征在于:设计多线程爬虫进行网络文本获取的过程为,
选取适当的网站首页URL初始化爬虫的URL列表;
获取各网站首页的HTML文档,解析出HTML文档中消息对应的URL,对消息对应的URL去重后添加至URL列表;
若有新发布的消息,则将新消息对应的URL添加至URL列表;
根据 URL获取对应的HTML文档;
将获取到的HTML文档,利用信息抽取技术进行信息抽取,抽取出页面的信息正文部分后,按照制定格式存入本地数据库。
3.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法,其特征在于:网络文本进行预处理的过程为,对网络文本中的转义符进行替换,对网络文本中的不规范标点符号进行替换。
4.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法,其特征在于:对中文句子进行中文分词并构建词向量词典,具体过程为,
对中文句子进行中文分词;
词向量学习工具调试;
将中文分词得到的中文词语输入词向量学习工具,进行词向量词典构建。
5.根据权利要求4所述的一种基于深度学习的中文文本情感分析方法,其特征在于:选用最佳匹配法进行中文分词。
6.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法,其特征在于:将LSTM-MP模型训练数据转换为词向量序列,然后训练LSTM-MP模型;
将LSTM-MP模型实验数据转换为词向量序列,然后用训练好的LSTM-MP模型将其转换为句向量。
7.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法,其特征在于:用训练好的LSTM-MP模型和Softmax分类器进行情感分析的过程为,
获取需分析的网络文本;
对需分析的网络文本进行预处理,得到需分析的中文句子;
对需分析的中文句子进行中文分词并构建词向量词典;
将需分析的中文句子转换为词向量序列;
用训练好的LSTM-MP模型将词向量序列转换为句向量;
用训练好的Softmax分类器将句向量进行情绪分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711307041.5A CN107944014A (zh) | 2017-12-11 | 2017-12-11 | 一种基于深度学习的中文文本情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711307041.5A CN107944014A (zh) | 2017-12-11 | 2017-12-11 | 一种基于深度学习的中文文本情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107944014A true CN107944014A (zh) | 2018-04-20 |
Family
ID=61946440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711307041.5A Pending CN107944014A (zh) | 2017-12-11 | 2017-12-11 | 一种基于深度学习的中文文本情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107944014A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764753A (zh) * | 2018-06-06 | 2018-11-06 | 平安科技(深圳)有限公司 | 测试业务员能力的方法、装置、计算机设备和存储介质 |
CN108875024A (zh) * | 2018-06-20 | 2018-11-23 | 清华大学深圳研究生院 | 文本分类方法、***、可读存储介质及电子设备 |
CN108984775A (zh) * | 2018-07-24 | 2018-12-11 | 南京新贝金服科技有限公司 | 一种基于商品评论的舆情监控方法及*** |
CN109255027A (zh) * | 2018-08-27 | 2019-01-22 | 上海宝尊电子商务有限公司 | 一种电商评论情感分析降噪的方法和装置 |
CN109388806A (zh) * | 2018-10-26 | 2019-02-26 | 北京布本智能科技有限公司 | 一种基于深度学习及遗忘算法的中文分词方法 |
CN109446331A (zh) * | 2018-12-07 | 2019-03-08 | 华中科技大学 | 一种文本情绪分类模型建立方法及文本情绪分类方法 |
CN109710946A (zh) * | 2019-01-15 | 2019-05-03 | 福州大学 | 一种基于依赖解析树的联合论辩挖掘***及方法 |
CN109739960A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 文本的情感分析方法、情感分析装置及终端 |
CN109815456A (zh) * | 2019-02-13 | 2019-05-28 | 北京航空航天大学 | 一种基于字符对编码的词向量存储空间压缩的方法 |
CN110059927A (zh) * | 2019-03-18 | 2019-07-26 | 平安科技(深圳)有限公司 | 绩效线上评定方法、装置、设备和存储介质 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN110502633A (zh) * | 2019-07-19 | 2019-11-26 | 中山大学 | 基于机器学习的网络评论管理方法 |
CN110516242A (zh) * | 2019-08-26 | 2019-11-29 | 北京亚联之星信息技术有限公司 | 基于机器学习算法识别负面金融资讯的方法和装置 |
CN110909545A (zh) * | 2019-11-26 | 2020-03-24 | 电子科技大学 | 一种基于梯度提升算法的黑导游检测方法 |
CN111221962A (zh) * | 2019-11-18 | 2020-06-02 | 重庆邮电大学 | 一种基于新词扩展与复杂句式扩展的文本情感分析方法 |
CN111241842A (zh) * | 2018-11-27 | 2020-06-05 | 阿里巴巴集团控股有限公司 | 文本的分析方法、装置和*** |
CN109635274B (zh) * | 2018-10-25 | 2023-10-27 | 平安科技(深圳)有限公司 | 文本输入的预测方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070203875A1 (en) * | 2006-02-24 | 2007-08-30 | Intervoice Limited Partnership | System and method for retrieving files from a file server using file attributes |
CN105022725A (zh) * | 2015-07-10 | 2015-11-04 | 河海大学 | 一种应用于金融Web领域的文本情感倾向分析方法 |
CN105389331A (zh) * | 2015-09-21 | 2016-03-09 | 中国人民解放军国防科学技术大学 | 一种基于市场需求的开源软件分析与比较方法 |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
-
2017
- 2017-12-11 CN CN201711307041.5A patent/CN107944014A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070203875A1 (en) * | 2006-02-24 | 2007-08-30 | Intervoice Limited Partnership | System and method for retrieving files from a file server using file attributes |
CN105022725A (zh) * | 2015-07-10 | 2015-11-04 | 河海大学 | 一种应用于金融Web领域的文本情感倾向分析方法 |
CN105389331A (zh) * | 2015-09-21 | 2016-03-09 | 中国人民解放军国防科学技术大学 | 一种基于市场需求的开源软件分析与比较方法 |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN108764753A (zh) * | 2018-06-06 | 2018-11-06 | 平安科技(深圳)有限公司 | 测试业务员能力的方法、装置、计算机设备和存储介质 |
CN108875024A (zh) * | 2018-06-20 | 2018-11-23 | 清华大学深圳研究生院 | 文本分类方法、***、可读存储介质及电子设备 |
CN108875024B (zh) * | 2018-06-20 | 2020-10-20 | 清华大学深圳研究生院 | 文本分类方法、***、可读存储介质及电子设备 |
CN108984775A (zh) * | 2018-07-24 | 2018-12-11 | 南京新贝金服科技有限公司 | 一种基于商品评论的舆情监控方法及*** |
CN108984775B (zh) * | 2018-07-24 | 2020-05-22 | 南京新贝金服科技有限公司 | 一种基于商品评论的舆情监控方法及*** |
CN109255027A (zh) * | 2018-08-27 | 2019-01-22 | 上海宝尊电子商务有限公司 | 一种电商评论情感分析降噪的方法和装置 |
CN109255027B (zh) * | 2018-08-27 | 2022-06-24 | 上海宝尊电子商务有限公司 | 一种电商评论情感分析降噪的方法和装置 |
CN109635274B (zh) * | 2018-10-25 | 2023-10-27 | 平安科技(深圳)有限公司 | 文本输入的预测方法、装置、计算机设备和存储介质 |
CN109388806B (zh) * | 2018-10-26 | 2023-06-27 | 北京布本智能科技有限公司 | 一种基于深度学习及遗忘算法的中文分词方法 |
CN109388806A (zh) * | 2018-10-26 | 2019-02-26 | 北京布本智能科技有限公司 | 一种基于深度学习及遗忘算法的中文分词方法 |
CN111241842B (zh) * | 2018-11-27 | 2023-05-30 | 阿里巴巴集团控股有限公司 | 文本的分析方法、装置和*** |
CN111241842A (zh) * | 2018-11-27 | 2020-06-05 | 阿里巴巴集团控股有限公司 | 文本的分析方法、装置和*** |
CN109446331A (zh) * | 2018-12-07 | 2019-03-08 | 华中科技大学 | 一种文本情绪分类模型建立方法及文本情绪分类方法 |
CN109739960A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 文本的情感分析方法、情感分析装置及终端 |
CN109710946A (zh) * | 2019-01-15 | 2019-05-03 | 福州大学 | 一种基于依赖解析树的联合论辩挖掘***及方法 |
CN109815456A (zh) * | 2019-02-13 | 2019-05-28 | 北京航空航天大学 | 一种基于字符对编码的词向量存储空间压缩的方法 |
CN110059927A (zh) * | 2019-03-18 | 2019-07-26 | 平安科技(深圳)有限公司 | 绩效线上评定方法、装置、设备和存储介质 |
CN110059927B (zh) * | 2019-03-18 | 2024-04-16 | 平安科技(深圳)有限公司 | 绩效线上评定方法、装置、设备和存储介质 |
CN110502633A (zh) * | 2019-07-19 | 2019-11-26 | 中山大学 | 基于机器学习的网络评论管理方法 |
CN110516242A (zh) * | 2019-08-26 | 2019-11-29 | 北京亚联之星信息技术有限公司 | 基于机器学习算法识别负面金融资讯的方法和装置 |
CN111221962A (zh) * | 2019-11-18 | 2020-06-02 | 重庆邮电大学 | 一种基于新词扩展与复杂句式扩展的文本情感分析方法 |
CN111221962B (zh) * | 2019-11-18 | 2023-05-26 | 重庆邮电大学 | 一种基于新词扩展与复杂句式扩展的文本情感分析方法 |
CN110909545A (zh) * | 2019-11-26 | 2020-03-24 | 电子科技大学 | 一种基于梯度提升算法的黑导游检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107944014A (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN111144131B (zh) | 一种基于预训练语言模型的网络谣言检测方法 | |
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN109635108B (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN109558487A (zh) | 基于层次性多注意力网络的文档分类方法 | |
CN107092596A (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN106021410A (zh) | 一种基于机器学习的源代码注释质量评估方法 | |
CN106202032A (zh) | 一种面向微博短文本的情感分析方法及其*** | |
CN109740655B (zh) | 基于矩阵分解及神经协同过滤的物品评分预测方法 | |
CN112231562A (zh) | 一种网络谣言识别方法及*** | |
CN108536801A (zh) | 一种基于深度学习的民航微博安保舆情情感分析方法 | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN110223675A (zh) | 用于语音识别的训练文本数据的筛选方法及*** | |
CN109325125B (zh) | 一种基于cnn优化的社交网络谣言检测方法 | |
CN105975497A (zh) | 微博话题自动推荐方法及装置 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN111177010B (zh) | 一种软件缺陷严重程度识别方法 | |
CN113094502A (zh) | 一种多粒度外卖用户评论情感分析方法 | |
CN109299251A (zh) | 一种基于深度学习算法的异常垃圾短信识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180420 |