CN108763204A - 一种多层次的文本情感特征提取方法和模型 - Google Patents

一种多层次的文本情感特征提取方法和模型 Download PDF

Info

Publication number
CN108763204A
CN108763204A CN201810489647.3A CN201810489647A CN108763204A CN 108763204 A CN108763204 A CN 108763204A CN 201810489647 A CN201810489647 A CN 201810489647A CN 108763204 A CN108763204 A CN 108763204A
Authority
CN
China
Prior art keywords
word
information
vector
sentence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810489647.3A
Other languages
English (en)
Inventor
沈海斌
刘蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810489647.3A priority Critical patent/CN108763204A/zh
Publication of CN108763204A publication Critical patent/CN108763204A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多层次的文本情感特征提取方法和模型,将文本中的词进行实数化向量表示。通过利用word2vec工具训练出分布式词向量,在分布式词向量中增加词的情感信息和词性信息形成新的词向量,并引入Bi‑LSTM网络提取词的上下文信息,形成融合词的语义信息、情感信息、词性信息和上下文信息的特征向量,将获得的特征向量输入到注意力机制中,通过训练注意力权重参数,自适应的选择出与当前输出相关的显著信息,累加求和生成句子向量,将句子向量并行的输入到CNN网络中,利用其高度位移不变性的优势,提取句子的结构信息。本发明实现了同时提取词序列和句子间信息,有效的减少文本信息的丢失,实现了多层次提取文本特征,提高了文本情感分类的准确率。

Description

一种多层次的文本情感特征提取方法和模型
技术领域
本发明涉及自然语言理解领域,具体而言,涉及一种多层次的文本情感特征提取方法和模型。
背景技术
文本分类技术是自然语言处理(Natural Language Processing,NLP)领域中一种研究文本表达信息的识别和量化技术,能够快速准确的筛选出有效信息。在中文文本情感分类中,文本特征不仅包括词的语义信息、情感信息、词性信息以及上下文信息,还包括句子间的结构信息。分布式词向量仅包含词的语义信息,而情感词典表示的向量具有语义鸿沟。同时目前常见的文本情感特征提取方法不能同时提取词序列和句子间信息。对这些不足之处进行改进,成为本发明的主要内容。
发明内容
本发明针对分布式词向量缺乏词的情感信息和词性信息,以及现有文本情感特征提取方法不能同时提取词序列和句子间信息,提出一种多层次的文本情感特征提取模型,实现多层次提取文本信息,提高分类准确性。
本发明的一种多层次的文本情感特征提取方法,包括如下步骤:
1)将经过预处理后的词序列表示为特征向量;
利用word2vec工具中的Skip-gram模型训练出包含词的语义信息的低维实数向量W;
利用词性标注工具标注词的词性信息
利用情感词典(5)标注词的情感倾向,并用0/1值抽象化表示为特征向量P;
2)将W和P进行拼接操作,形成包含词的语义信息、情感信息以及词性信息的词向量(8),
3)将该词向量(8)输入到Bi-LSTM网络中,提取词的上下文信息,从而使词序列层输出融合词的语义信息、情感信息、词性信息和上下文信息的特征向量;
4)将步骤3)获得的特征向量输入到注意力机制中,通过训练注意力权重参数,自适应的选择出与当前输出相关的显著信息,累加求和生成句子向量,将句子向量并行的输入到CNN网络中,利用其高度位移不变性的优势,提取句子的结构信息。
优选的,所述的词的词性信息包括否定词、动词、名词、形容词、转折词以及程度副词。
优选的,所述的预处理包括消除文本格式、分词处理和去噪声词。
本发明有益效果:本发明的一种多层次的文本情感特征提取模型通过词序列层提取文本中词的语义信息、情感信息、词性信息和上下文信息,并利用句子结构层降低数据维度同时提取文本的空间结构信息,从而实现了多层次提取文本特征,完成对文本情感特征提取方法的优化,提高了文本情感分类的准确率。
附图说明
图1为本发明一种多层次的文本情感特征提取模型的原理结构图。
具体实施方式
下面根据说明书附图,对本发明进一步说明:
由于文本中存在大量的噪声,因此在文本情感分类前,需要对文本数据进行预处理。中文文本预处理一般包括(1)消除文本格式,由于获取的文本训练数据带有文档格式,而且存在格式不统一的问题,为尽可能提高文本情感分类的效果,减少无关因素的干扰,需要对文本数据去除格式;(2)分词处理,词作为文本情感数据中最小的独立单元,按照一定的语法结构和规则构成文本,因此词所蕴含的情感色彩决定着整个文本的情感倾向。英文文本中,词与词中间书写是有空格的,但中文文本中没有,因此需对中文文本进行分词;(3)去噪声词,主要是去除文本数据中没有实际意义的功能词,如语气助词“啦”、“啊”,代词“这个”、“那个”等,这些噪声词在文本数据中出现频率很高,但是并不能传达文本情感的信息,此外,文本数据中的标点符号及一些数字字符均为文本数据噪音。为了降低文本数据的噪音,提高文本情感分类的准确性,需要去除文本数据中无意义的噪声词;通过文本预处理工作可以减少文本分类训练过程中耗时,提升训练速度。
多层次的文本情感特征提取方法包括如下步骤:
1)将经过预处理后的词序列表示为特征向量;
利用word2vec工具中的Skip-gram模型训练出包含词的语义信息的低维实数向量W;
利用词性标注工具标注词的词性信息
利用情感词典(5)标注词的情感倾向,并用0/1值抽象化表示为特征向量P;
2)将W和P进行拼接操作,形成包含词的语义信息、情感信息以及词性信息的词向量(8),
3)将该词向量(8)输入到Bi-LSTM网络中,提取词的上下文信息,从而使词序列层输出融合词的语义信息、情感信息、词性信息和上下文信息的特征向量;
4)将步骤3)获得的特征向量输入到注意力机制中,通过训练注意力权重参数,自适应的选择出与当前输出相关的显著信息,累加求和生成句子向量,将句子向量并行的输入到CNN网络中,利用其高度位移不变性的优势,提取句子的结构信息。
参照图1,一种多层次的文本情感特征提取模型,利用word2vec工具、情感词典、词性标注工具以及神经网络实现多层次提取文本特征,对文本情感特征提取方法进行优化,主要包括词序列层(1)和句子结构层(2)。
词序列层将文本中的词进行实数化向量表示。通过利用word2vec工具训练出分布式词向量,在分布式词向量中增加词的情感信息和词性信息形成新的词向量,并引入Bi-LSTM网络提取词的上下文信息,形成融合词的语义信息、情感信息、词性信息和上下文信息的特征向量。
在本发明的一个具体实施例中,词序列层(1)将经过预处理后的词序列表示为特征向量。利用word2vec工具(3)中的Skip-gram模型训练出包含词的语义信息的低维实数向量W(6);利用词性标注工具(4)标注词的词性信息,包括否定词、动词、名词、形容词、转折词以及程度副词,从而解决一词多义的问题,同时利用情感词典(5)标注词的情感倾向,并用0/1值抽象化表示为P(7)。将W(6)和P(7)进行拼接操作,形成包含词的语义信息、情感信息以及词性信息的词向量(8),将该词向量(8)输入到Bi-LSTM网络中,来提取词的上下文信息,从而使词序列层(1)输出融合词的语义信息、情感信息、词性信息和上下文信息的特征向量。
句子结构层通过区分词序列层输出的特征向量信息的主次地位,有侧重的筛选与当前输出相关的显著信息,求和生成句子向量,并发挥CNN网络权重共享和高度位移不变性的优势,并行处理句子向量,提取文本的空间结构信息。
在本发明的一个具体实施例中,句子结构层(2)在词序列层(1)的基础上提取句子间结构特征,实现多层次提取文本信息。将词序列层(1)的特征向量输入到注意力机制中,通过训练注意力权重参数,自适应的选择出与当前输出相关的显著信息,累加求和生成句子向量(9),将句子向量(9)并行的输入到CNN网络中,利用其高度位移不变性的优势,提取句子的结构信息。
本发明的注意力机制具有以下优势:(1)减轻计算的复杂度;通过有侧重的选取输入的特征向量,降低向量数据的维度,进而减轻计算量;(2)去冗余;将注意力机制应用到深度神经网络中,让神经网络自适应的筛选出输入向量中与当前输出显著相关的特征,从而摒弃冗余信息。
ei=tanh(Whhi+bh),ei∈[-1,1] (2.10)
其中,Wh,bh为注意力机制中的参数,在训练过程中不断更新。hi为注意力机制输入的向量。
将注意力机制与Bi-LSTM网络相结合,在训练过程中,注意力机制层可以自适应的选择出与当前输出相关的显著信息,训练出词向量的注意力权重参数αt,且权重参数满足∑αt=1的条件,将词序列向量求和计算出句子的特征向量r,实现摒弃冗余信息的目的。
本发明采用中文文本情感语料集——酒店评论语料(ChnSentiCrop),包含积极和消极评论共计10000条,训练测试一种多层次的文本情感特征提取模型,并采用F1-measure、准确率以及单次Epoch训练所用时间多角度评价本发明提出的模型。利用整个语料集训练三种词向量维度(128、256、512维)的word2vec模型,采用子集ChnSentiCrop-Htl-ba-6000(包含积极文本3000和消极文本3000)训练本发明的对一种多层次的文本情感特征提取模型,并利用ChnSentiCrop-Htl-ba-2000(包含积极文本1000和消极文本1000)测试验证本发明所提出模型的有效性,其实验数据结果如下。
上表格中TP为true positives,表示文本情感分类实验中积极的文本被正确判定为积极的文本;FP为false positives,表示文本情感份分类实验中消极的文本被错误判定为积极的文本;FN为false negatives,表示文本情感分类实验中积极的文本被错误判定为消极的文本;TN为true negatives,表示文本情感分类实验中消极的文本被正确判定为消极的文本。
根据模型评价指标F1-measure,在三种词向量维度下,本发明的模型分类效果都有了很大提升,不仅能够利用Bi-LSTM网络学习词序列的上下文信息,而且利用CNN网络提取句子间的结构信息,实现多层次提取文本信息,有效减少了文本信息的丢失,提升了分类效果。且在词向量维度为256和512时,本发明所提出的准确率和F1-measure基本相同,说明注意力机制能自适应的选取文本的显著特征,达到降低数据维度实现去冗余的效果;而在词向量维度为128时,本发明所提出模型的单次Epoch所用时间是最短,但其分类准确率和F1-measure略低些。综上所述,本发明提出的一种多层次的文本情感特征提取模型可以实现从词序列、句子结构的多层次提取文本特征,减少文本信息的丢失,提高分类的效果。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (4)

1.一种多层次的文本情感特征提取方法,其特征在于包括如下步骤:
1)将经过预处理后的词序列表示为特征向量;
利用word2vec工具中的Skip-gram模型训练出包含词的语义信息的低维实数向量W;
利用词性标注工具标注词的词性信息
利用情感词典(5)标注词的情感倾向,并用0/1值抽象化表示为特征向量P;
2)将W和P进行拼接操作,形成包含词的语义信息、情感信息以及词性信息的词向量(8),
3)将该词向量(8)输入到Bi-LSTM网络中,提取词的上下文信息,从而使词序列层输出融合词的语义信息、情感信息、词性信息和上下文信息的特征向量;
4)将步骤3)获得的特征向量输入到注意力机制中,通过训练注意力权重参数,自适应的选择出与当前输出相关的显著信息,累加求和生成句子向量,将句子向量并行的输入到CNN网络中,利用其高度位移不变性的优势,提取句子的结构信息。
2.根据权利要求1所述的多层次的文本情感特征提取方法,其特征在于所述的词的词性信息包括否定词、动词、名词、形容词、转折词以及程度副词。
3.根据权利要求1所述的多层次的文本情感特征提取方法,其特征在于所述的预处理包括消除文本格式、分词处理和去噪声词。
4.一种多层次的文本情感特征提取模型,其特征在于包括词序列层(1)和句子结构层(2);
所述的词序列层(1)将经过预处理后的词序列表示为特征向量,利用word2vec工具(3)中的Skip-gram模型训练出包含词的语义信息的低维实数向量W(6);利用词性标注工具(4)标注词的词性信息,,同时利用情感词典(5)标注词的情感倾向,并用0/1值抽象化表示为P(7);将W(6)和P(7)进行拼接操作,形成包含词的语义信息、情感信息以及词性信息的词向量(8),将该词向量(8)输入到Bi-LSTM网络中,来提取词的上下文信息,从而使词序列层(1)输出融合词的语义信息、情感信息、词性信息和上下文信息的特征向量;
所述的句子结构层(2)在词序列层(1)的基础上提取句子间结构特征,实现多层次提取文本信息,句子结构层(2)将词序列层(1)的特征向量输入到注意力机制中,通过训练注意力权重参数,自适应的选择出与当前输出相关的显著信息,累加求和生成句子向量(9),将句子向量(9)并行的输入到CNN网络中,利用其高度位移不变性的优势,提取句子的结构信息。
CN201810489647.3A 2018-05-21 2018-05-21 一种多层次的文本情感特征提取方法和模型 Pending CN108763204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810489647.3A CN108763204A (zh) 2018-05-21 2018-05-21 一种多层次的文本情感特征提取方法和模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810489647.3A CN108763204A (zh) 2018-05-21 2018-05-21 一种多层次的文本情感特征提取方法和模型

Publications (1)

Publication Number Publication Date
CN108763204A true CN108763204A (zh) 2018-11-06

Family

ID=64007492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810489647.3A Pending CN108763204A (zh) 2018-05-21 2018-05-21 一种多层次的文本情感特征提取方法和模型

Country Status (1)

Country Link
CN (1) CN108763204A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784280A (zh) * 2019-01-18 2019-05-21 江南大学 基于Bi-LSTM-Attention模型的人体行为识别方法
CN109800433A (zh) * 2019-01-24 2019-05-24 深圳市小满科技有限公司 基于邮件二分类模型的建档方法、装置、电子设备及介质
CN109858034A (zh) * 2019-02-25 2019-06-07 武汉大学 一种基于注意力模型和情感词典的文本情感分类方法
CN110162635A (zh) * 2019-05-28 2019-08-23 广东工业大学 一种文本中全局特征的提取方法、***及相关装置
CN110209824A (zh) * 2019-06-13 2019-09-06 中国科学院自动化研究所 基于组合模型的文本情感分析方法、***、装置
CN110309306A (zh) * 2019-06-19 2019-10-08 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法
CN110321563A (zh) * 2019-06-28 2019-10-11 浙江大学 基于混合监督模型的文本情感分析方法
CN110569508A (zh) * 2019-09-10 2019-12-13 重庆邮电大学 融合词性和自注意力机制的情感倾向性分类方法及***
CN110598786A (zh) * 2019-09-09 2019-12-20 京东方科技集团股份有限公司 神经网络的训练方法、语义分类方法、语义分类装置
CN110658915A (zh) * 2019-07-24 2020-01-07 浙江工业大学 一种基于双流网络的肌电信号手势识别方法
CN110750648A (zh) * 2019-10-21 2020-02-04 南京大学 一种基于深度学习和特征融合的文本情感分类方法
CN110956041A (zh) * 2019-11-27 2020-04-03 重庆邮电大学 一种基于深度学习的并购重组公告摘要方法
CN111241809A (zh) * 2018-11-29 2020-06-05 深港产学研基地产业发展中心 模型建立方法、装置、计算机设备和存储介质
CN111295017A (zh) * 2020-02-21 2020-06-16 成都世纪光合作用科技有限公司 一种灯光控制方法、控制***和设备
CN111611789A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 语句表示方法、表示模型训练方法及装置
CN111611375A (zh) * 2019-07-03 2020-09-01 北京航空航天大学 一种基于深度学习和转折关系的文本情感分类方法
CN111782797A (zh) * 2020-07-13 2020-10-16 贵州省科技信息中心 一种科技项目评审专家自动匹配方法及存储介质
CN112668315A (zh) * 2020-12-23 2021-04-16 平安科技(深圳)有限公司 一种文本自动生成方法、***、终端及存储介质
CN112699679A (zh) * 2021-03-25 2021-04-23 北京沃丰时代数据科技有限公司 情绪识别方法、装置、电子设备及存储介质
CN113064989A (zh) * 2020-11-19 2021-07-02 龚越 一种交通舆情感知特征模块及分析治理应用
CN113297879A (zh) * 2020-02-23 2021-08-24 深圳中科飞测科技股份有限公司 测量模型组的获取方法、测量方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253792A1 (en) * 2011-03-30 2012-10-04 Nec Laboratories America, Inc. Sentiment Classification Based on Supervised Latent N-Gram Analysis
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107247702A (zh) * 2017-05-05 2017-10-13 桂林电子科技大学 一种文本情感分析处理方法和***
CN107609009A (zh) * 2017-07-26 2018-01-19 北京大学深圳研究院 文本情感分析方法、装置、存储介质和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253792A1 (en) * 2011-03-30 2012-10-04 Nec Laboratories America, Inc. Sentiment Classification Based on Supervised Latent N-Gram Analysis
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107247702A (zh) * 2017-05-05 2017-10-13 桂林电子科技大学 一种文本情感分析处理方法和***
CN107609009A (zh) * 2017-07-26 2018-01-19 北京大学深圳研究院 文本情感分析方法、装置、存储介质和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIONGXIA HUANG等: "Deep Sentiment Representation Based on CNN and LSTM", 《2017 INTERNATIONAL CONFERENCE ON GREEN INFORMATICS》 *
刘蕊 等: "序列—结构的文本分类算法", 《电子技术研发》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241809B (zh) * 2018-11-29 2024-02-09 深港产学研基地产业发展中心 模型建立方法、装置、计算机设备和存储介质
CN111241809A (zh) * 2018-11-29 2020-06-05 深港产学研基地产业发展中心 模型建立方法、装置、计算机设备和存储介质
CN109784280A (zh) * 2019-01-18 2019-05-21 江南大学 基于Bi-LSTM-Attention模型的人体行为识别方法
CN109800433A (zh) * 2019-01-24 2019-05-24 深圳市小满科技有限公司 基于邮件二分类模型的建档方法、装置、电子设备及介质
CN109800433B (zh) * 2019-01-24 2023-11-10 深圳市小满科技有限公司 基于邮件二分类模型的建档方法、装置、电子设备及介质
CN111611789B (zh) * 2019-02-25 2024-06-07 北京嘀嘀无限科技发展有限公司 语句表示方法、表示模型训练方法及装置
CN109858034A (zh) * 2019-02-25 2019-06-07 武汉大学 一种基于注意力模型和情感词典的文本情感分类方法
CN109858034B (zh) * 2019-02-25 2023-02-03 武汉大学 一种基于注意力模型和情感词典的文本情感分类方法
CN111611789A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 语句表示方法、表示模型训练方法及装置
CN110162635A (zh) * 2019-05-28 2019-08-23 广东工业大学 一种文本中全局特征的提取方法、***及相关装置
CN110209824A (zh) * 2019-06-13 2019-09-06 中国科学院自动化研究所 基于组合模型的文本情感分析方法、***、装置
CN110209824B (zh) * 2019-06-13 2021-06-22 中国科学院自动化研究所 基于组合模型的文本情感分析方法、***、装置
CN110309306A (zh) * 2019-06-19 2019-10-08 淮阴工学院 一种基于wsd层级记忆网络的文档建模分类方法
CN110321563A (zh) * 2019-06-28 2019-10-11 浙江大学 基于混合监督模型的文本情感分析方法
CN111611375A (zh) * 2019-07-03 2020-09-01 北京航空航天大学 一种基于深度学习和转折关系的文本情感分类方法
CN110658915A (zh) * 2019-07-24 2020-01-07 浙江工业大学 一种基于双流网络的肌电信号手势识别方法
US11934790B2 (en) 2019-09-09 2024-03-19 Boe Technology Group Co., Ltd. Neural network training method and apparatus, semantic classification method and apparatus and medium
CN110598786A (zh) * 2019-09-09 2019-12-20 京东方科技集团股份有限公司 神经网络的训练方法、语义分类方法、语义分类装置
CN110598786B (zh) * 2019-09-09 2022-01-07 京东方科技集团股份有限公司 神经网络的训练方法、语义分类方法、语义分类装置
CN110569508A (zh) * 2019-09-10 2019-12-13 重庆邮电大学 融合词性和自注意力机制的情感倾向性分类方法及***
CN110750648A (zh) * 2019-10-21 2020-02-04 南京大学 一种基于深度学习和特征融合的文本情感分类方法
CN110956041A (zh) * 2019-11-27 2020-04-03 重庆邮电大学 一种基于深度学习的并购重组公告摘要方法
CN111295017A (zh) * 2020-02-21 2020-06-16 成都世纪光合作用科技有限公司 一种灯光控制方法、控制***和设备
CN113297879A (zh) * 2020-02-23 2021-08-24 深圳中科飞测科技股份有限公司 测量模型组的获取方法、测量方法及相关设备
CN111782797A (zh) * 2020-07-13 2020-10-16 贵州省科技信息中心 一种科技项目评审专家自动匹配方法及存储介质
CN113064989A (zh) * 2020-11-19 2021-07-02 龚越 一种交通舆情感知特征模块及分析治理应用
CN113064989B (zh) * 2020-11-19 2022-12-02 龚越 一种交通舆情感知特征提取方法
CN112668315A (zh) * 2020-12-23 2021-04-16 平安科技(深圳)有限公司 一种文本自动生成方法、***、终端及存储介质
CN112699679A (zh) * 2021-03-25 2021-04-23 北京沃丰时代数据科技有限公司 情绪识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108763204A (zh) 一种多层次的文本情感特征提取方法和模型
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
CN108733653A (zh) 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法
CN105893410A (zh) 一种关键词提取方法和装置
CN101261623A (zh) 基于搜索的无词边界标记语言的分词方法以及装置
CN107039034A (zh) 一种韵律预测方法及***
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
Maamouri et al. Diacritization: A challenge to Arabic treebank annotation and parsing
CN112948543A (zh) 基于加权TextRank的多语言多文档摘要抽取方法
Jagadeesh et al. Sentence extraction based single document summarization
Alsallal et al. Intrinsic plagiarism detection using latent semantic indexing and stylometry
CN107526841A (zh) 一种基于Web的藏文文本自动摘要生成方法
CN115017903A (zh) 文档层次结构联合全局局部信息抽取关键短语方法及***
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
Othman et al. Arabic text processing model: Verbs roots and conjugation automation
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
CN109977391B (zh) 一种文本数据的信息抽取方法及装置
CN103744840B (zh) 一种文档翻译难度的分析方法
Firdhous Automating legal research through data mining
CN116795979A (zh) 一种基于触发词增强的标签信号指导事件检测方法
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
Ishisaka et al. Detecting nasty comments from BBS posts
CN113128199B (zh) 基于预训练语言模型与多重词信息嵌入的字向量生成方法
Chanda et al. Is Meta Embedding better than pre-trained word embedding to perform Sentiment Analysis for Dravidian Languages in Code-Mixed Text?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106